数据中心基础设施运维管理模型（2）

来源：玉工讲技术上一篇我们强调数据中心运维要做“减法”时，关键点在于我们对运维管理模型的正确认识。除了了解运维管理模型，还需了解数据中心几个关键参数。在《云数据中心的四层架构》文章里曾经描述过数据中心的构成（适合于初学者），但作为入门者，我们需要了解数据中心的供电回路数量、机柜数量、变压器数量、冷水机组数量、冷却塔数量、柴油发电机数量、UPS数量、蓄电池数量、末端精密空调数量数量等等。因为这些数量的不同，意味着需要不同的工作量，借助这些数量我们能够更准确评估需要构建什么样的团队，配置多少个人等。因为运维人员需要应对各种紧急情况，如应急发电、

来源：玉工讲技术

上一篇我们强调数据中心运维要做“减法”时，关键点在于我们对运维管理模型的正确认识。除了了解运维管理模型，还需了解数据中心几个关键参数。在《云数据中心的四层架构》文章里曾经描述过数据中心的构成（适合于初学者），但作为入门者，我们需要了解数据中心的供电回路数量、机柜数量、变压器数量、冷水机组数量、冷却塔数量、柴油发电机数量、UPS数量、蓄电池数量、末端精密空调数量数量等等。因为这些数量的不同，意味着需要不同的工作量，借助这些数量我们能够更准确评估需要构建什么样的团队，配置多少个人等。因为运维人员需要应对各种紧急情况，如应急发电、倒闸操作、冷机切换、末端空调清理和倒换、水管压力和温度异常时的调节、消防、爆管跑水、通信重保等等，同时还要面对7*24小时的待命和巡检、各类迎检和参观等紧张的工作压力。

尽管数据中心运维工作看似简单任务的多次重复，但没有坚守岗位专业人员和各专业技术融合贯通，在面临重大故障或灾难时所谓的国家GB50174-2017 A级认证或国际UPTIME T4认证等最终只代表一张纸而已。因此，如果你对数据中心的认知除了风火水电和机柜数，还能进一步细算（在乎）以上提出来几个重要设备的关键参数及数量，那么说明你已经超越了那些纸上谈兵的“砖家”，并开始踏入了数据中心的大门。但这并不是最重要的，真正重要的是学会怎么合理“适配”运维模型和数据中心模型，在运维团队构建方面找到经济性的平衡点。

根据个人实践经历，让自己大脑里建立运维模型最有效的手段之一就是学习别的运营商或IDC服务公司的做法，看看别人是怎么解决这个“减法”过程的。接下来我们先看看几个案例。

1、案例一：某XX云计算数据中心

数据中心模型（即数据中心关键参数）：可提供约 15000个机架以上、高压供电回路4回、干式变压器 20台、冷水主机 6台、冷却塔 6台、柴油发电机组 10台。

运维管理模型：现场运维管理配置人员大概30多个人，其中产权方管理人员10人以下，承接现场运维单位近 20人以上。具体组织架构如下：

(1)产权方现场管理人员组织架构及职责

图1 产权方现场管理人员组织架构及职责

(2)承接现场运维单位人员组织架构及职责

图2 承接现场运维单位人员组织架构及职责

方案一分析：从方案一的可以看出，该方案无论在产权方（甲方）还是承接方运维单位（乙方）人员数量看，将数据中心安全可靠性作为前提，配备了足够人力和专业团队。充分考虑了消防、保安保洁等方面，确保了职责分明，避免了安全隐患。这种方式虽然人力成本支较大，但将主要运维任务承包给第三方的方式，把各种存在安全生产风险也转移出去了。唯一的缺点在于甲方人员主要从事管理和协调工作，对甲方专业人才的培养和梯队建设不利。因为，责任落不到个人头上的时候，我们很难激活的个人学习动力和提升实战能力。当然，这个跟甲方的战略定位也有关，将集中精力开拓业务和市场，专业的任务交给专业团队也不是没有道理。

从这种组织架构，可清晰看到数据中心运维管理模型中运维和巡检队伍本来是完全独立的团队，由不同小组执行的。巡检小组偏向于 7*24小时值班倒班制方式上班。同时，将管理、运维、日常巡检进行分离，甲方偏重管理协调，乙方偏重运维和运行（运行的另一种说法是日常巡检）。

2、案例二：某某企业XX云数据中心

整个数据中心可提供约 2500个机架以上。基础设施设备包含高压供电线路2回，干式电力变压器14台，板式换热器12台，冷却塔 6台， UPS主机50台以上、蓄电池8000只以上，柴油发电机组6台。现场运维管理配置人员15人，其中产权方管理人员5人，承接现场运维单位10人。

(1)产权方现场管理人员组织架构及职责

图3 产权方现场管理人员组织架构及职责

(2)现场运维单位人员组织架构及职责

图4 承接现场运维单位人员组织架构及职责

方案二分析： 该方案中去掉类似组长或主管、站长等协管角色。这样的架构不仅有利于减少人力成本，在确保一定安全可靠性基础上也做到了经济性。同时，在基层减去多余层次架构还能避免“一个和尚有水喝两个和尚抬水喝三个和尚没水喝”现象和绩效考核乱象。不过该方案要求甲方团队专业能力足够专业，或者要求乙方现场运维技术人员除了日常巡检，还能把现场运维任务也能够带起来才行。如果甲方承担现场运维，需要增加电气暖通等专业的AB角色，因为数据中心安全可靠性不仅要求设备设施的2N或N+1架构，关键人员也需要确保N+1架构或2N架构才能得到保障。

从专门分配资料员角色我们也能看出数据中心资料管理的重要性。尤其是逐步建立切实可行的4P 文档（AP、SOP、MOP、EOP）需要一定的人力和时间投入，需要在运维实践中不断打磨和完善。同时，个人建议也增加应急预案短视频课程，毕竟现在拍视频和看视频这么方便，不仅有利于老员工的有效回顾而且也便于新员工的快速入门。

实际上数据中心文档管理是工作量被容易忽视的环节之一，不过个人更提倡实战中逐步建立这些资料而不是为了编写而编写一堆对实际运维几乎没有用处的文档。其中作为行政管理规程的AP（Administration Procedure）文档目录示例如下：

图5 行政管理规程的AP文档目录示例

作为标准操作规程的SOP（Standard Operation Procedure）、运维操作规程的MOP（Maintenance Operation Procedure）、紧急操作规程的EOP（Emergence Operation Procedure）三大文档部分目录示例如下：

图6 标准操作规程SOP文档目录示例

3、案例三：某某公司XX云数据中心

某某 XX数据中心机柜数量1500台以上。基础设施设备包含高压供电线路2回，干式电力变压器8台，冷水主机3台，板式换热器3台，冷却塔3台，UPS主机25台以上、蓄电池2500只以上，柴油发电机组5台。现场运维管理配置人员14人，其中产权方管理人员1人，承接现场运维单位13人。现场管理、运维人员组织架构如下图7所示。

图7 产权方和承接方运维单位人员组织架构及职责

方案三分析： 方案三属于典型的 MBA思维或老板思维模式，不管什么技术或人，将他们统统当成产品和工具看，将专业的事情尽量交给专业的第三方团队，这样显然减少人力成本。毕竟培养一批数据中心团队需要实践的打磨和考验，从经济性考虑全外包模式肯定最省钱。

从技术角度分析，毕竟方案三也有其明显的缺点。投资几个亿建的数据中心，其后期的运维和维保工作的质量，也决定着数据中心重大设备健康活到什么时候。如果甲方只有一个人，能够监督到数据中心方方面面也有一定的挑战性。好比，买了 50万的燃油车，用200元机油保养和用700元的机油保养有区别的。或者买了电动车，对电池进行适当保养和不在乎日常保养会导致截然不同结果。

我们会发现有些人汽车电瓶 8年度不用更换能正常使用，而有些人的车不到3年废掉原厂电瓶的现象。同样，数据中心的UPS和电池组，如果日常巡检、浮充和放电、故障处理等不到位，那么很有可能电池生命周期大大缩减，这个时候前期貌似省下来人力成本转移到运维成本或购买蓄电池组上去了（数据中心所需的蓄电池数量上千至上万只，提前2-3年报废所带来的经济损失按一只蓄电池2千多算合计不算是小数目）。因此，有自己的专业团队无论对设备和设施、对外招商或租赁，人才梯队建设、公司转型等方面还是有一定的好处。

4、从案例中找到规律和原则

看完这些案例，我们貌似明白一些具体方案和做法，同时发现别人成功案例还是没法照搬到自己的场景。毕竟，每个公司的战略定位、组织架构、人才储备、数据中心规模和对外的服务定位是不一样的。就说文档建设而言，将 4P文档模版适配到数据中心实际的基础设施，适配到公司现有架构和制度，不仅编写一堆0到1的一系列文档，还需要结合公司现状修改相关内容才行。如下图8所示。

图8 标准化运维规程库部分内容

可以看出，关键还是搞清楚数据中心运维管理所涉及的具体工作内容和相关专业关联关系，在此基础上罗列关键任务并评估工作量，进一步识别安全隐患并合理评估预防措施所需的最少人员数量等等。相关内容在下一篇进一步讨论并总结主要原则和规律。

未完待续...