在国家数字化转型的背景下,数据流呈现出持续增加的态势,数据中心建设规模与容量快速增长,对运维管理提出了挑战。数据中心是传递、存储数据信息的核心机构,其运行情况直接影响企业的经济效益。近些年越来越多的企业已经认识到了加强数据中心运维管理的重要性,并且也做出了很大努力,但客观上还是存在着一定问题。数据中心的运维管理成为了企业关注的焦点,迫切需要摸索出切实可行的措施加强对数据中心的管理,以确保数据信息安全性,实现数据价值的最大化。
在国家数字化转型的背景下,数据流呈现出持续增加的态势,数据中心建设规模与容量快速增长,对运维管理提出了挑战。数据中心是传递、存储数据信息的核心机构,其运行情况直接影响企业的经济效益。近些年越来越多的企业已经认识到了加强数据中心运维管理的重要性,并且也做出了很大努力,但客观上还是存在着一定问题。数据中心的运维管理成为了企业关注的焦点,迫切需要摸索出切实可行的措施加强对数据中心的管理,以确保数据信息安全性,实现数据价值的最大化。
1 运维管理的概念
在数据中心全生命周期内,运维管理是时间最长、最重要且效益最为显著的环节之一,是数据中心稳定、安全运行的重要保证。运维管理实践中要综合分析基础性、计划性、整体性、长期性四大要素。立足于现实情况提前做好规划,确保运维管理的计划、组织及管理工作均能正常推进,使得数据中心从投产运营之日起,就具备正常的运行能力及资源储备。这些能力与资源覆盖了运维管理体系、人才队伍、工具与材料、作业环境、厂商辅佐及必要的成本预算。为了实现以上目标,着重考虑以下几个方面:运维启动时间、运维有关要点、工作先后次序、编制运维预算、运维团队建设、项目交接等。
供配电系统为数据中心所有设备设施的正常运作提供可靠的电力支持,合理的供配电系统设计是数据中心持续、稳定运行的重要前提。大中型数据中心供配电系统一般结构复杂,自动化水平高,对设备质量及性能均提出较高要求。
高压与低压配电线路、10kV高压配电柜、变压器、低压配电柜、UPS(不间断电源)等是数据中心供配电系统的主要构成部分。
供配电系统的运维管理工作的技术性、专业性均较高,维护工作推进过程中需要设备原厂专业器具的辅助。因此运维工作通常分为使用单位自主维护与购置专业厂家维保两大部分。使用方通常会关注两个方面:一是维护管理策略实施与工作计划,二是厂家现场维护时的监督及可提供的帮助,以确保供配电设备常规巡检、预防性检查项目等均能保质保量完成。
表1 高压配电柜的检测维护周期
b)变压器的检测维护周期:干式变压器有现场安装便捷、构造简单、防火性能优良等特点,在数据中心得到了广泛应用,日常巡检、预防性检查周期及特殊状况下加强维修要求与高压配电柜相同。
表2 低压配电柜的检测维护周期
一般情况下,开启UPS设备时要认真检查当前的运行环境,如设备所处机房的温度、湿度等指标,通常将温度调控在25℃内,以满足规定要求。UPS系统的日常维护工作内容较为繁杂,包括了UPS设备、UPS输入输出配电柜、蓄电池的日常巡检等,每天巡检次数控制在2~3次。系统的定期维护以预防性检测、故障模拟测试等为主,通常每个季度进行1次即可。采用1路市电+1路不间断电源的供电方式可有效节能,在一路市电直供情况下,建议运行维护时适当增加1~2次巡检。
在数据中心,由蓄电池故障引发的供电系统故障占比30%~50%,规范化维护好蓄电池对确保数据中心安全稳定具有重大意义。
对于蓄电池组的例行维护故障,侧重点是检查电池外观状态及结构,严禁出现局部裂痕、变形、漏液等问题,测试检查连接条的稳固性、气密性、电压及内阻值大小(每个季度进行1次即可)、电流校准(和UPS呈现值相比较)。在每个季度内均要进行激活性充放电,每年开展1次核对性放电活动。考虑到蓄电池的使用寿命为5~8年,如果电池使用期间发生局部漏液或内阻值>3mΩ的现象,则要尽早更换蓄电池单体或电池组,以维持后续运行的安全性、可靠性。
多数情况下,数据中心配备的制冷系统有水冷型、风冷型两类。其中风冷型适用于规模较小的数据中心机房,自身有独立的制冷回路,维护量偏小,经济性较高。水冷型多被用在大型数据中心内,运用自然冷却取得明显的节能效果,但系统构成复杂,维护工作量相对较大。
2)风冷精密空调的维护
风冷精密空调的维护维护以室内机为主,室内机主要包括压缩机、蒸发器、加湿器、排水系统等。在实际运行中,压缩机、加湿器两类基础设施发生故障问题的比例相对较高。
压缩机作为维持制冷系统高低压力水平的核心器件,其处于正常工作状态时,高低压的压力值会维持在一个正常区间。对于CM100型空调,当为其使用R410制冷剂时,压缩机的低压侧、高压侧压力正常范围参考值分别是0.8~1.0MPa、2.2~3.0MPa。应用R22制冷剂时,压缩机的低压、高压侧压力正常范围分别是0.3~0.5MPa、1.5~2.0MPa。
若经现场检测发现压缩机的压力值超出正常参考区间,首先要考虑压缩机或者制冷系统发生了故障问题。但是如果压力检测结果是低值,则技术人员后续要重点检查制冷系统内的制冷剂是否足量,或者局部是否发生泄漏问题。如果压力较高,先检测室外机是否处于正常工作状态中,或者制冷系统局部是否发生了堵塞等问题。
3.1 建立健全制度体系
立足于现实情况,从多个方面加大数据中心设备设施运维体系制度的建设力度,体系组织结构要做到清晰、明确,严格落实责任到个人机制,运维工作人员要做到定岗定责。积极学习国际先进的运维管理理念,如将Uptime运维管理理念融合到现有管理体系中。
充分结合数据中心现场情况,编制相配套的维护操作规程并落到实处,确保各项工作措施均能有章可循。加大考核管理力度,以将人为因素引起的故障率降到最低。
严格依照配电、制冷、监控、消防与物理安全五大系统制定相应的维护计划表,落实好巡检、维保工作,落实好冷水机组、变压器、UPS、精密空调等关键设施的应急演练工作。现场巡视检查消防、监控设备时要注意评估其可用性、联动性。
数据中心加速发展,运行压力繁重,数据中心建设与发展时要编制可行的运维管理办法,将自动化平台功能作用充分发挥出来,全面提升数据中心的管理效率、时效性。当前数据中心的运维服务量明显增加,为了全面提升运维管理效率,企业一定要配备最适宜的软硬件。搭建自动化运维平台时要加大远程控制技术的应用力度,借此方式增加数据的协调性。
合理设置平台关联、衔接情况,进而更顺畅、科学地规划平台层级。设计平台功能之前要落实好业务分类工作,这是提升既定流程实施效率的大前提。自动化平台运行期间难免出现故障,故而搭建平台时要为其增设自动提示、报警装置,以辅助增加故障问题处理的效果。
参考文献:
1臧晨曦.A数据中心基础设施运维管理提升研究[D].北京:北京交通大学,2022.
2李鑫,张琴.高校数据中心安全运维实践研究[J].山西大同大学学报(自然科学版),2022,38(4):33-37.
3吴甘星.数据中心基础设施运维规划的思路和实现路径[J].电工技术,2022(14):187-190.
4肖瑞林,刘静,徐常星.基于AHP的数据中心基础设施运维管理风险评价[J].中国安全防范技术与应用,2022(Z1):55-58.
5张祖刚,贾琨.基于物联网技术的数据中心智能运维管理平台[J].智能建筑电气技术,2022,16(3):116-118.
-END-
未经授权,禁止转载。公众号:数据中心基础设施运营管理