浅谈数据中心运维数据治理
山河边城
2024年05月29日 15:36:04
只看楼主

近年来,数字经济的发展趋势越来越明显,作为底层基础设施的数据中心也随之转向智能化、数字化。2016年全球知名IT咨询机构Gartner正式提出智能运维(AIOps)概念,明确运维数据是构建和落地智能运维的基石。 目前,数据中心运维数据普遍存在四大问题亟需进行治理: 1)数据孤岛现象十分严重,各类数据之间彼此不能共享互通;

近年来,数字经济的发展趋势越来越明显,作为底层基础设施的数据中心也随之转向智能化、数字化。2016年全球知名IT咨询机构Gartner正式提出智能运维(AIOps)概念,明确运维数据是构建和落地智能运维的基石。


目前,数据中心运维数据普遍存在四大问题亟需进行治理:

1)数据孤岛现象十分严重,各类数据之间彼此不能共享互通;

2)数据可用性较差,标准不统一,无法挖掘其内在价值;

3)数据质量不高,其准确性、唯一性、及时性等有待商榷;

4)数据安全难保证,数据存在被滥用和泄露的风险。

编者从事数据中心运维工作十余年,针对上述问题开展了一些卓有成效的举措,但限于当下整体环境对运维数据治理的认识及应用还处于初级阶段,可能还存在一些问题或不足之处。

一、基本模型
  
数据治理已经被认定为是信息化的一项基础工作,而且已经被提升到企业数字化转型基础保障的高度。从国内外理论、方法论、标准以及企业实践的角度,经过多年的发展,传统的数据治理已经相对趋于成熟。

1.1经典数据治理模型

数据治理的标准化工作是破除管理困境、提高数据质量、释放数据价值的第一步,也是关键所在。目前主流的数据治理标准有ISO/IEC38500系列标准[4]、GB/T34960.5-2018标准、GB/T36073-2018标准[5]、ITU-T系列标准等。其中ISO/IEC38500系列标准是数据治理领域第一个国际标准,适用范围广,在业内具有高度知名性和通用性,为大多数组织或机构所应用。

在ISO/IEC38500系列标准基础上,数据治理研究所(DGI)提出了第一个权威的数据治理模型,如图1所示。该模型在数据治理组织、目标、流程等方面都给出了指南级说明,主要分为人员与组织机构、规则与协同工作规范、过程三大部分,包括最终目标与愿景、关注点、数据规则与定义等10个小组件,系统性回答了为什么需要数据治理(Why)、数据治理治什么(What)、谁参与数据治理(Who)、什么时候开展数据治理(When)、如何开展数据治理(How)等关键性问题,为组织或机构实现数据价值、最小化数据管理成本和复杂性、保证数据安全合规使用等提供了专业性标准依据。

图片


1.2运维数据治理模型

借鉴传统数据治理标准、模型以及沉淀下来的经验方法,数据中心运维数据治理可以从以下四方面来构建治理模型:一是根据运维数据治理的意义和价值创造,将经过治理的运维数据提升至运维信息资产级别;二是制定运维数据治理工作制度、相关流程等,形成体系化、标准化数字运维;三是确保运维数据的准确性和高可用性,监测数据质量,提高数据安全性,实现数据价值最大化;四是开发高效治理所需的平台或工具,在技术手段层面上向智能化运维发展。

基于以上四大方面,构建数据中心运维数据治理模型如图2所示。首先明确为什么要进行运维数据治理(Why),其核心意义是实现运维价值最大化(如增强风险保障能力、提高服务质量、提升用户体验等)。为实现运维价值最大化,引出了运维数据治理的目标,即获得准确、好用的运维信息资产。为了使作为智能运维基石的原始运维数据转化为高级别的运维信息资产,可以围绕治理方法、治理工具、治理过程三要素进一步完善治理模型:治理方法(How)包括基于数据标准、质量管理和安全管理的关键治理工作,其中质量管理和安全管理中涵盖了组织架构建设与管理(Who),用以明确治理角色及分工;治理工具(What)包括运维数据平台等,主要为在原有工具层面上建立统一平台;治理过程(When)包括策划、建设、运维,围绕着治理方法进行相关操作。

图片


二、运维数据治理前的状况(现状)
  
根据运维数据治理模型,我们大致梳理了本数据中心运维数据概况和原始监控工具,确定本轮运维数据治理的范围,也发现了现有工具存在的问题,为后续初步治理建设统一平台奠定坚实基础。

2.1本数据中心运维数据

数据中心运维数据根据类型可分为生产环境和IT运营管理两大部分,其中生产环境又可以分为基础设施层、平台软件层、应用系统层、业务及体验层。其中,基础设施层是所有运维数据的物理基础,也是本文的主要关注对象。在基础设施层,主要有数据中心环境设施管理、网络运维管理、存储资源管理、服务器运行管理、虚拟化管理等,这些数据除了用于基础设施可靠性与稳定性的监控及应急管理以外,也为建立绿色节能数据中心的能效管理、弹性资源、成本管理等提供基础。

我们本轮初步治理关注的是数据中心环境设施管理层面的运行数据,主要包含以下七类:

1)数据中心能耗:包括IT设施能耗、空调能耗、照明及其他能耗、数据中心用水等;

2)空调运行状态:包括温度、湿度、当前主机状态、风机运行状态、压缩机运行状态、加湿器状态、回风口温度等;

3)供电设备的运行状态:包括供配电网络图,三相电的电压和电流、开关的状态和分路开关分闸告警信息,UPS的功率和负载率,高低配运行情况,油机和市电的通信状态、油机启动状态、油机工作时的电流、电压及功率等;

4)环境运行状态:包括数据中心温度、湿度、漏水检测情况、烟雾监测情况等;

5)资产情况:包括机柜位置、机柜占用率、在架设备等;

6)门禁信息:包括权限管理、门禁实时状态、延时状态、进出门记录、操作日志等;

7)视频监控信息:包括实时视频监控、历史视频监控调取、分区监控等。

2.2原始监控工具

对于数据中心数据中心环境设施管理层面的各类运维数据,各个专业和岗位的维护人员会根据自己的职责用不同的工具开展维护工作,比如数据中心能耗是查看数据中心内的各个电表信息,空调运行状态主要查看各台精密空调的设备面板信息,高低压变配设备监控使用建设厂家按照国家电网的设计模板赠送的监控系统,环境温湿度由温度探头和湿度计进行监测,使用excel软件进行资产和配置关系的管理,使用visio软件建立简单的网络可视化模型,门禁系统单独采用一个系统,视频监控系统采用设备厂家提供的监控系统等等。

各种原始监控工具相互独立,虽然数据获取方式简单,成本相对低廉,但带来一系列的亟待解决的数据治理问题:

1)不同平台的数据无法共享,导致出现数据孤岛,无法互联互通,产生了数据关联性问题;

2)由于监控设备的局限性使得部分数据缺失,导致无法获取完整的信息,再加上数据的运输转移需要靠人来完成,人为操作、判定的失误导致数据错误或者丢失,产生了数据完整性问题;

3)不同监控工具采集数据的频率不同,且数据规范不尽相同,也没有一个统一的标准获得所需信息,产生了数据一致性问题;

4)采集到的数据没有二次校验机制,数据准确性问题待进一步确认。

三、本数据中心数据治理新举措
  
为解决上文中提到的运维数据痛点,本数据中心依据运维数据治理模型,在已明确需要进行初步治理的运维数据的基础上,从数据标准、质量管理、安全管理三方面,结合实际情况,采取了包括搭建统一平台、规范数据标准、填补缺失数据值、建立三位一体的数据质量管理和安全管理体系等一系列治理措施。

3.1搭建运维数据平台

本数据中心通过一整套包含硬件设施、传感器和特定软件在内的设施搭建动环监控管理系统平台(以下简称运维数据平台),包括安防、供配电监控、环境监控三个子系统,如图3所示,其可视化页面首页如图4所示。运维数据平台为三个子系统提供共享平台,由平台进行集中数据存储和数据处理,并统一提供告警信息发布,解决数据关联性问题,使得不同监控工具能够进行互联互通,不再存在数据孤岛。

安防系统由门禁管理系统和视频管理系统组成,主要采集和管理门禁和视频监控信息,实现门禁状态实时监控、门禁延时告警、进出门记录查询、视频实时监控、录像回放等功能。

供配电监控系统主要监控数据中心供电设备的运行状态及参数,由高低配监控系统、UPS监控系统、配电监控系统、油机监控系统组成。高低配监控系统主要监测三相电的电压、电流、功率因数,开关的状态和分路开关分闸告警等;UPS监控系统主要是对UPS主机的运行状态以及整流、逆变等内部参数进行监控;配电监控系统是对主要用电设备(服务器、空调)前端的配电设备运行状态的监控;油机监控系统主要监控2套1800kW的柴油发电机及其配套设备的运行状态。

环境监控系统主要监测空气流速、温度、湿度、水浸、烟雾浓度等数据中心环境参数,由空调监控系统、温湿度监控系统、水浸监控系统和极早期烟感预警系统组成。空调监控系统主要是对空调的运行状态及参数进行监控并及时上报故障信息;温湿度监控系统可以提供温湿度实时数值,设置温湿度阈值,实时提供温湿度异常告警信息;水浸监控系统用于监控数据中心地面或者设备表面是否有漏水状况,也可以监测数据中心用水系统(空调、供排水管等)是否正常运行;极早期烟感预警系统是对数据中心环境烟雾浓度进行监控,在烟雾形成的早期阶段就可以提供异常预警信息,具有极高的灵敏性。

图片


3.2规范数据标准

规范数据标准是搭建运维数据平台必不可少的一步,用以保障数据的完整性、一致性和规范性,以支撑数据的采集、存储、计算、管理和使用的一致性。

基于本数据中心的运维数据类型,围绕监控指标数据、报警数据、日志数据、链路关系数据、工单数据、视频监控数据、设备状态数据、运维知识数据、运维流程数据等数据形式,规范了数据结构标准,包括数据的格式、类型、定义、值域、长度等。

数据内容标准包括基础类数据标准与指标类数据标准。前者主要是针对从各个子系统采集到的未经处理的原始数据,如空调运行状态、数据中心环境温湿度等,在运维监控平台研发阶段,已在软件层面对采集的数据进行了初步规范,如文字数据均采用类JSON格式,保证接入平台的数据的一致性;后者主要针对已经加工处理并具有统计意义的数据,如空调日能耗、数据中心月总能耗等,通过算法将该类数据进行可视化统一展示。

以日志数据为例,制定了日志的索引命名规则、路径规划、格式要求、日志切割、消息队列等规范要求。

3.3运维数据质量管理

高质量的数据对系统运行和业务支撑有极其重要的作用,并为运维数据挖掘、预测、数据分析算法的合理使用、多维查询、数据可视化等工作做好支撑。在运维数据平台运行使用的过程中,我们发现数据的完整性、准确性、唯一性、及时性等无法得到很好的保障。为此,我们采取了填补缺失数据值、建立三位一体的数据质量管理体系等措施。

3.3.1填补缺失数据值

在使用运维数据平台中的能耗数据进行数据中心能耗分析时,我们发现部分能耗数据缺失,主要是平台系统升级造成的。目前,对于缺失值的处理方法基本可以分为删除、填充、忽略三类,鉴于我们缺失的是部分月份的IT设施能耗、空调能耗,它们所包含的信息缺失会影响整个数据集的质量,对后续能耗分析造成影响,因此我们基于能耗数据集本身做作出假设,利用原数据集对缺失数据进行相应填补。

根据实际情况,我们对缺失数据进行了分类,包括IT设施和空调个别日耗数据缺失、整月IT设施能耗数据整体缺失。对于个别天IT设施和空调能耗数据的缺失值,我们主要采用均值填充法,取缺失当天的前十天和后十天的能耗数据值的平均值进行填充,主要是鉴于大数据中心万千瓦时数据量级下,日耗数据对于一年或一月的数据分析来说,千瓦时的数差对整体而言影响不会很大。对于整月IT设施能耗数据的缺失值,主要采用多重填补法。多重填补方法分为三个步骤:

1)首先根据前后月份的能耗数据、去年同时段的能耗数据、能耗影响因素等情况为每个缺失的能耗数据值估计一组可能的填补值,并构造多个完整的能耗数据集合;

2)采用相同的统计方法,如指标对比分析法、分组分析法、时间数列及动态分析法等,对这些能耗数据集合进行计算分析;

3)对来自各个完整能耗数据集的结果进行综合分析,通过MAD平均绝对离差、RMSE均方根误差等评分函数选择合适的填补值。

3.3.2建立三位一体的数据质量管理体系

本数据中心结合“组织”、“流程”、“平台”三个维度建立三位一体的运维数据质量管理体系,以此全面提升运维数据质量。

鉴于本数据中心的组织规模,由本数据中心主要负责人担任运维数据治理整体决策角色,设立相应的牵头人整体把控数据质量治理的运营管理,并组建运维数据质量治理小组,将与数据质量管理相关的各项工作统一纳入管理。同时,设立一套较为完整的制度机制来保证运维数据平台持续发展和完善,主要包括不定期反馈制度、定期会议制度和定期维保制度。一线维护人员将系统日常使用过程中遇到的问题和建议,不定期向运维数据质量治理小组汇报,由治理小组对问题和建议进行统一分类、筛选和分析;并通过定期会议,由治理小组向各个子系统建设厂家反馈经过整理总结后的问题建议,敦促建设厂家对问题分析总结和处理;同时对系统的各设备进行定期维护,以保证其可以正常稳定工作。

图片


质量管理流程方面可以建立事前、事中、事后三环节闭环体系。事前定义好运维数据标准,所有的子系统都按照统一的数据标准接入运维数据图4多重填补方法填补流程平台,由运维数据平台统一进行数据处理、数据存储、数据导出,规范整个数据治理流程。事中采用多种监测方式,如设置温湿度固定阈值,对数据中心环境温湿度的异常情况进行数值监测;如设置能耗动态基线,包括同比、环比在内的智能化基线,监测不同设备能耗数据的同比或环比波动率与基线的偏离度,进行波动监测;如通过数据量、分布率、报表文件是否能够完整导出等方式进行完整性监测;比如人工进行设备面板数据与平台可视化展示数据进行阶段性实时核对,进行及时性监测等等。事后由运维数据质量治理小组牵头,围绕完整性、一致性、准确性、唯一性、关联性、及时性6个质量评估指标对运维数据进行质量分析。

在平台建设方面,我们从数据采集、数据监测、改善质量分析、问题跟进四方面来聚焦运维数据平台的优化与改善。在数据采集方面,我们不间断地升级、增加各个子系统的设备,并对采集的数据进行人工二次校验,提升数据在采集过程中的质量保证。在数据监测方面,除了采用多种监测手段外,设立工单机制,根据故障等级规范,将异常告警数据转换为定级故障,自动派发至一线维护人员,同时关联相应的处理案例,便于运维人员及时并处理系统告警,避免重大问题的延误。在改善质量分析方面,建立包含规章制度、标准、维护资料、设备说明书、培训材料、优秀案例、经验分享等在内的知识库辅助系统,既为本数据中心故障处置辅助功能提供良好的数据支撑,也帮助运维人员进一步了解系统现状、进行技术学习和经验分享。在问题跟进方面,在工单机制中引入线上化流程工具,实时查看问题处理进度,并落实到具体的运维责任人。

图片


3.4运维数据安全管理

由于运维数据量多且敏感,运维工作又直接与生产系统接触,运维数据安全管理对于安全防护、敏感信息管理、合规等有着至关重要的作用。我们围绕运维数据全生命周期,同样从“组织”、“流程”、“平台”三个维度建立三位一体的运维数据安全管理体系,以提高数据安全性。

在数据安全治理组织方面,从本地运维人员中抽调数人兼任数据安全治理小组,对数据的存储状况、数据备份、系统架构的高可用性、网络安全防护等技术因素,以及数据使用对象、系统用户权限等管理因素,进行全面梳理。

图片


在数据安全流程保障方面,对本数据中心的运维数据按照敏感程度进行分类分级并建立数据清单,定义不同密级的数据组;基于中台的API网关、统一认证来实现用户账号的权限管理,不同权限的用户能访问的数据组不同;利用工单机制对系统告警、故障进行跟踪处理和层级审批;利用统一日志对数据全生命周期的数据流动进行监控和留痕,包括人员对数据的操作行为。

图片

在数据安全技术层面方面,围绕数据全生命周期进行安全治理。在采集阶段,对各系统采集设备及时更新漏洞和补丁,并安装病毒防护软件;在传输阶段,设置防火墙,并限定局域网,使得数据仅能在内部网络中进行传输,并建立传输两端的身份认证,采用RSA算法进行加密传输;在存储阶段,根据数据类型建立分级存储策略,并进行多副本存储,保证高可用性;在处理阶段,通过伪装风险监测、恶意篡改监测等技术来保障功能稳定;在应用阶段,采用基于角色的访问控制方式,使得不同权限的用户能访问的数据不同,同时对导出的数据进行脱密处理。

四、结论
  
应对数字经济的飞速发展,借鉴业内成熟的数据治理标准与模型,构建运维数据治理模型,为数据中心运维数据治理提供规范性参照。结合本数据中心现状,我们厘清本地初步治理涉及的运维数据类型,着眼于数据中心环境设施管理层面的运行数据,搭建运维数据平台,规范接入数据的统一标准,对不同类的缺失数据值进行均值、多重填充,构建三位一体的运维数据质量管理和安全管理体系,智能化运维水平得到了大幅提升:

1)数据关联性、数据孤岛问题得到了解决,统一的运维数据平台承载不同治理工具的运维数据,实现数据共享和互联互通;

2)数据标准得到进一步规范,围绕数据结构标准和数据内容标准两方面进行具体化规范,保障数据一致性;

3)数据质量不高问题得到缓解,对缺失数据得到填补,通过人工对数据进行二次验证,并从组织、流程、技术层面做好质量管理;

4)数据安全性问题得到保障,全方位梳理运维数据,聚焦数据全生命周期过程中的安全防护。

参考文献
  
[1]包航宇,殷康璘,曹立,等.智能运维的实践:现状与标准化[J].软件学报,2023,34(9):0-0.

[2]WangYB,WangZ,ZhaoDY,etal.Intelligent Operationand Maintenance of SubstationsBasedon Internet of Things(IoT) Technology[C]//Applied Mechanics and Materials.Trans Tech Publications Ltd,2015,742:708-716.

[3]裴丹,张圣林,裴昶华,等.基于机器学习的智能运维[J].中国计算机学会通讯,2017,13(12):68.

[4]安小米,许济沧,王丽丽,等.国际标准中的数据治理:概念,视角及其标准化协同路径[J].中国图书馆学报,2021,5:59-79.

[5]阚鑫禹.数据治理标准化发展现状与启示[J].信息通信技术与政策,2022,48(2):2.

[6]吴信东,董丙冰,堵新政,等.数据治理技术[J].软件学报,2019,30(9):2830-2856.




免费打赏

相关推荐

APP内打开