伴随云计算、大数据、人工智能等技术的发展和应用,作为信息基础设施的数据中心及相关设备承担的计算量越来越大,数据中心服务器及通信设备自身处理能力和集成度不断提高,同时也带来了功率密度节节攀升的问题,高热密度给制冷设备和技术提出了更高要求。受限于物理空间以及空气比热容低的特性,风冷技术难以满足高功率元器件散热负荷需求,如图1所示。 同时,国家层面不断推进数据中心绿色低碳建设要求,工信部等七部委联合印发的《信息通信行业绿色低碳发展行动计划(2022-2025年)》中明确提到,到2025年,全国新建大型、超大型数据中心能源利用效率(PUE)降到1.3以下。液体的冷却能力是空气的1000~3000倍,液冷技术以其高效的散热能力,成为降低数据中心PUE的有效手段。
伴随云计算、大数据、人工智能等技术的发展和应用,作为信息基础设施的数据中心及相关设备承担的计算量越来越大,数据中心服务器及通信设备自身处理能力和集成度不断提高,同时也带来了功率密度节节攀升的问题,高热密度给制冷设备和技术提出了更高要求。受限于物理空间以及空气比热容低的特性,风冷技术难以满足高功率元器件散热负荷需求,如图1所示。
同时,国家层面不断推进数据中心绿色低碳建设要求,工信部等七部委联合印发的《信息通信行业绿色低碳发展行动计划(2022-2025年)》中明确提到,到2025年,全国新建大型、超大型数据中心能源利用效率(PUE)降到1.3以下。液体的冷却能力是空气的1000~3000倍,液冷技术以其高效的散热能力,成为降低数据中心PUE的有效手段。
综上所述,在数据中心建设引入液冷技术的必要前提下,需要统筹考虑液冷技术引入对数据中心硬件系统集成建设提出的新挑战。本文将重点介绍冷板式、浸没式、喷淋式液冷技术路线,聚焦冷板式液冷场景下数据中心硬件系统集成的技术要求,提出冷板式液冷场景下数据中心硬件系统集成方案。
液冷技术是一种以液体作为冷媒,利用液体流动将数据中心ICT设备内部元器件产生的热量传递到设备外,使ICT设备的发热部件得到冷却,从而保证ICT设备安全运行。根据接触方式的不同,液冷技术可分为间接接触型液冷(冷板式液冷)和直接接触型液冷(浸没式液冷和喷淋式液冷)。
间接接触型液冷以冷板式液冷技术为主,该种技术路线将液冷冷板固定在ICT设备的主要发热器件上, ICT设备热源与冷却液之间没有直接接触,通过液体流经冷板带走热量,从而散热。
冷板式液冷技术的逻辑架构如图 2 所示。其主要组件如下。
冷却塔指将液体回路产生的热量散布到室外空气中的设备,一般情况下置于室外。
液冷分配单元(CDU)指对液冷电子设备进行冷却液体流量分配,主要有两种物理形态,分别为柜式CDU(外置于全液冷机柜)和框式CDU(内置于全液冷柜)。
液冷机柜指用于冷却液体的进出,并冷却电子设备的装置。
一次侧也叫一次管路,指连接冷却塔到液冷分配单元及液冷机柜的循环水系统。
二次侧也叫二次管路,用于连接液冷分配单元到液冷元器件(液冷机柜中)的冷却循环水系统。其中, 供回液歧管作为二次侧回路中的关键部件之一,可分配流入或流出液冷机架内设备的冷却工质。
从应用场景、行业应用现状及技术本身的优劣势等多个方面对冷板式液冷技术进行分析,具体分析结果见表一。
直接接触型液冷技术指的是将电子设备的发热部件直接与冷却液进行接触的冷却方式,主要包括浸没式液冷和喷淋式液冷两种技术路线。
浸没式液冷指通过浸没电子设备的发热器件,将发热器件与冷却液体直接接触,通过热交换进行冷却。涉及的主要设备和设施包括室外冷源、冷却子系统、液冷管路和浸没腔体(液冷机箱)等。浸没式液冷可依据介质是否存在相变化分为单相浸没式液冷和相变浸没式液冷两种类型。
单相浸没式液冷的实现原理是通过浸没腔体子系统中的冷却液对电子设备热负载直接接触进行吸热,升温后的冷却液在冷却子系统中的循环泵和换热器作用下将热量传递给一次侧冷却介质,最终通过室外冷源将热量释放到室外环境中。
两相浸没式液冷的实现原理是通过浸没腔体子系统中冷却液冷对电子设备热负载直接接触式相变吸热,相变后的气态冷媒与浸没腔体内的冷凝器进行热交换,将热量传递给冷却介质后变成液体,液体受重力作用流回腔体,吸收热量的冷却介质经室外冷源设备将热量释放到室外环境中。
喷淋式液冷技术指的是通过在机箱顶部储液和开孔,对发热的电子器件喷淋冷却液,从而达到降温的目的。涉及的主要设备和设施包括室外散热模块、冷量分配单元、液冷管路、喷淋液冷机柜(进液箱和回液箱) 等。喷淋式液冷将在冷量分配单元内冷却后的冷却液泵输送至喷淋机柜内部 ;冷却液进入机柜后直接通过分液器进入与设备相对应的布液装置进行喷淋 ;冷却液通过电子设备中的发热器件或与之相连的导热材料进行喷淋制冷 ;被加热后的冷却液通过回液箱进行收集,并通过泵输送至冷量分配单元进行下一个制冷循环。
针对浸没式液冷技术和喷淋式液冷技术,分别从应用场景、行业应用现状及技术本身的优劣势进行多维度分析,具体分析结果见表 2。
传统数据中心硬件系统集成主要完成工程项目中硬件层多厂家、多类型设备的硬集方案规划、集成实施和联调交付等工作, 是工程设计的延伸和落地,为软件系统集成 入场实施提供必要的硬件系统环境。传统数据中心硬件系统集成工作流程如图3所示。
传统数据中心硬件集成方案中的重点工作环节说明如下。
集成方案设计。对数据中心硬件组网拓扑、机柜布局、配电情况、物理连线信息、服务器配置信息、 交换机端口配置信息、路由配置信息、安全设备配置信息和设备管理信息等进行规划设计。
站点工勘。查勘内容包括机房环境、机柜布局、 机架功率、桥架路由、供电方式和冷却方式等。根据查勘结果,依据工程分工界面,对项目所需如线缆等材料的长度、颜色等规格做出明确采购方案,对机房内必要 改造所需辅材制定明确采购方案。
辅材提供。根据设计图纸和分工界面,由对应责任单位提供相关辅材。辅材主要包括线缆和工程建设所需的必要辅材,如扎带、加强型托盘、L托架、冷压端子、魔术贴、光纤套管、绕纤筒、下纤槽、工业连接器、标签、 铜鼻子、缠绕管、接线柱、理线架和保温棉等。
硬件安装督导。督导数据中心工程建设项目所有主设备安装上架、加电,督导完成所有线缆布放及互联,且完成相应网络互通配置。设备及配套材料安装需符合相关工艺标准和要求。
设备初始化调测。完成所有硬件设备本机基础配置与调测,如服务器BMC、RAID、BIOS等配置与调测,硬件管理接入交换机、管理核心交换机等的基础配置与调测,完成硬件管理网络互通。
连通性测试。数据中心工程建设项目所有硬件设备以集成设计方案为准绳进行配置检查,电源和物理线缆按设计完成连接和互通性测试,确认所有设备硬件管理IP地址可达。
配合软件集成商。配合软件集成商完成技术方案中所涉及的各种设备组网、业务功能分析等。配合进行软硬件系统部署调测,对软件集成过程中产生的计算、 网络和存储等资源需求的变更进行相应调整,协助软件集成商进行软硬件多厂家间问题界定、协调与管理。
液冷场景下的数据中心硬件系统集成方案,应在参照传统数据中心硬件系统集成流程的基础上,在集成规划、集成实施和联调交付阶段针对液冷数据中心技术特点进行调整与适配,以满足液冷数据中心工程建设要求。下面将以当前成熟度最高、市场应用最为广泛的冷板式液冷技术方案为例,对液冷数据中心硬件系统集成的重点环节进行分析。
一般情况下,液冷系统一次侧设备及管路的安装由 基建或机电专业负责,不在数据中心硬件系统集成范围之内。但是,因为CDU需要和一次侧管路对接,站点工勘过程中需要重点关注一次侧循环水质,一次侧循环水水质的好坏直接影响CDU的换热效率和使用寿命。为支撑液冷系统长期稳定运行,CDU一次侧闭式循环水系统水质关键指标项见表3。
为保障液冷系统气密性,一般液冷机柜、服务器和交换机等设备在出厂时,会在液冷管路中填充保压气体。设备到货后,除常规检查外,首先应重点关注液冷管路完整性,有条件情况下,可以抽测液冷管路中的保压气体压力值是否正常 ;其次,设备搬运工程时,在遵守安全施工相关规章制度的同时,应着重关注承压管路的保护。
3.3.1 CDU 及二次侧管路安装
二次侧管路将 CDU 和末端设备冷板相连,一般连接方式有直连和环形管路连接两种。环形管路是二次侧回路中的一个关键部件,用于连接CDU的二次侧和机架歧管,实现冷却工质均匀分配 ;环形管网包含供液环管、回液环管、CDU支路、机架歧管支路、排气装置和排液口等,用以供液环管和回液环管分别形成环状闭合回路,且提高环状闭合回路系统的流量均匀性。另外, 环形管网中无死端,液体一直处于流动状态,不易变质。
每个CDU支路和机架支路上都安装有阀门连接CDU和机架歧管,便于单个设备的维护。为确保局部管段检修或发生故障时,其它管段能正常运行,不间断供液, 应采用阀门将环形管网分成若干独立段,一般相邻机架管路段之间用阀门隔开,也可将多个机架管路隔开。
3.3.2 主设备安装前检查
主设备安装前,需要对CDU及二次侧管路的气密性进行检查,进行泄露检测与干预。减少泄漏的主要方法是采用稳健的泄漏预防策略。同时,在实际设备安装操作中,需要制定完善的泄漏管理计划,管理计划包括泄漏检测和干预,且需要满足数据中心的设施运行要求。
在二次侧冷却回路中,需要在不同存在泄漏风险的位置进行检测,如CDU、机架、快换接头、计算节点等, 可采用间接检测方法,通过监测和分析现有硬件和传感器的状态,检测并识别到管路中与泄漏特征匹配的微小压降或流量变化。而直接检测方法是在高风险区域部署专用泄漏检测硬件。典型的直接检测装置为点探测器、薄膜检测带或泄漏检测线缆,当其与泄漏的导电冷却液接触时会记录并告警。为了进行可靠的泄漏检测, 其传感器应放置在发生泄漏时冷却工质与之直接接触或有可能聚集后再接触的区域,如机架、CDU、二次侧环路管道等设施的下方,以检测二次侧环路管路和机架之间或冷却工质输送过程中的潜在泄漏风险。
3.3.3 主设备安装
服务器和交换机等设备安装需要根据工程设计图纸及集成方案组织相关工作。设备安装前需要做好机房内部成品防护工作,避免给机房环境带来破坏。设备安装需提前完成设备出库和拆包装等工序,组织施工人员进行技术培训,联合设备厂家进行设备安装指导,避免设备安装方式错误导致设备损坏的情况。
针对采用冷板式冷却方式的液冷设备及机柜的安装,流程如图4所示。
在设备安装过程中,重点需要进行气密性检查,各设备检查内容见表4。
3.3.4 标签粘贴
设备安装、综合布线等工作完成后,除常规进行设备和线缆等部件的标签标记工作外,还应注意对液冷管路的标签标记。在标签制作与粘贴的过程中,标签的颜色、尺寸、内容、格式和粘帖位置等需符合工程建设项目相关要求。
主设备及液冷系统安装完成后,需要对安装完成后的设备/系统进行集成调测。除常规进行网络、服务器、存储和安全等设备的基础调测,还需要对液冷系统进行集成调测,其中主要完成CDU设备的调测。CDU设备调测的主要内容包括登录参数设置、电磁阀/传感器控制策略设置和告警设置等。
集成测试工作完成,且所有测试项均达到测试标准后,可以组织硬件集成的验收工作。整体验收过程应参考验收规范要求,涵盖机房环境、硬件安装工艺检查、设备 配置、连通性及健壮性、安全性等内容。针对液冷数据中心硬件集成系统,需着重关注的验收测试内容见表5。
中国“双碳”目标的提出,对数据中心发展提出更高的能耗要求。液冷行业也在不断完善产业链,提高原材料和配件的通用性和可获得性,降低成本。为积极应对液冷数据中心建设提出的新要求,液冷数据中心硬件系统集成工作急需更新与适配,针对不同液冷技术方案, 形成标准的、可执行的硬件系统集成作业模式,推动液冷数据中心硬件系统集成工作的高质量发展。
来源:热能工匠