IBM刀片中心的散热系统设计,是用两个冗余的风扇对放置在刀片中心的14片刀片进行散热,就像酒店里的“中央空调”,能够对各个房间同时进行散热。 许多人都有这样的体会:炎炎夏日,如果能呆在有中央空调的写字楼或大商场里,人就会感觉非常舒服;反之,如果在烈日下,即使再有工作热情,也很难持久。刀片服务器就类似于夏日里的人们,如果很好地解决了散热问题,就能在同样的空间内创造出更大的计算能力。 众所周知,计算机的处理能力,与提供这一能力所需的电源动力、所产生的热量以及使处理器在可承受的温度下工作的降温系统,这四者之间有着直接关系。
许多人都有这样的体会:炎炎夏日,如果能呆在有中央空调的写字楼或大商场里,人就会感觉非常舒服;反之,如果在烈日下,即使再有工作热情,也很难持久。刀片服务器就类似于夏日里的人们,如果很好地解决了散热问题,就能在同样的空间内创造出更大的计算能力。
众所周知,计算机的处理能力,与提供这一能力所需的电源动力、所产生的热量以及使处理器在可承受的温度下工作的降温系统,这四者之间有着直接关系。
在处理器能力日趋强大,服务器内部空间利用率越来越高的今天,人们对于电源和散热的要求日趋迫切,特别是高密度的刀片服务器。在过去的几十年中,IBM在冷却系统方面做了许多有效的研究和革新,并已成为行业的领先者之一。
“中央空调”确保整体散热
现在,服务器的集成密度越来越高,像刀片服务器和机架服务器等,大量地普及使用,服务器的散热越来越受到厂商和用户的重视。
对于刀片服务器来说,高计算力需要多CPU。而CPU本身以及相关设备都需要刀片机柜具备强大的散热降温能力。当然,不同厂商的刀片机柜的散热技术是不尽相同的。IBM采用的是类似“中央空调式”的整体散热技术,来帮助整个刀片中心进行降温。
IBM刀片中心的散热系统设计,是用两个冗余的风扇对放置在刀片中心的14片刀片进行散热,就像酒店里的“中央空调”,能够对各个房间同时进行散热。而且刀片中心的散热系统采用双冗余设计,如同配备了两套“中央空调”。
相比之下,一些厂商在进行刀片服务器设计改良时,会做一些非常简单的改变——只是简单地把一个服务器压扁,仍然为每个服务器采用类似“壁挂式空调”来帮助每个刀片单独散热,就如同为房间中的每个人配备一个“电风扇”。
但这样的设计可能会带来两个问题:一、需要一个非常敬业、勤劳的“电工”每天去检修每个“壁挂式空调”、“电扇”是否正常,如果出现问题需要对每个散热设备进行更换;二、仅仅保证了刀片服务器自身,而忽视了机柜空间内的空气流通和整体散热。
IBM刀片中心采用整体散热设计和双冗余的高速风扇配置,则是另辟蹊径、化繁为简,保证了机柜散热的可靠、高效。不仅如此,IBM设计的双冗余“中央空调”风扇还具有“变频”功能,在平时标准使用的时候,每分钟能达到150立方英尺的散热风量。
当它出现温度预警、部件故障,或者一个风扇彻底坏掉时,另外一个风扇就会开足马力进行工作,每分钟出风量可以达到325立方英尺的散热空气流动量。
如果此刻有人站在运行中的IBM刀片中心背面,会发现风量非常大,这个道理和站在酒店中央空调的主出风口一样。因此,双冗余的设计保证了不用担心单个风扇故障引起的服务器性能问题。
此外,IBM还在散热系统中设计了回流的阻力器,使得空气的流动比较顺畅。冷空气从刀片中心前方进入,对热的CPU进行散热,然后依次对内存、芯片、硬盘、电源散热,最后由这两个风扇把变热的空气从刀片中抽出来。
四大模块构建立体散热系统
还是以IBM的刀片服务器BladeCenter为例,我们从电源模块、电源利用率和散热、内置降温系统、系统管理器4个方面,逐一剖析IBM是如何给刀片服务器构建“中央空调”的。
1、电源模块
BladeCenter刀片服务器的底盘具有一对200~240伏的热交换电源模块,安装在电源舱1和2中,用于给所有刀片服务器模块和刀片舱1~6提供电能。此外,BladeCenter还可以在电源舱3和4中提供第二对电源模块,从而为刀片舱7~14提供电能。
作为热插拔的子系统,电源模块可以为处理器刀片和其它电子部件提供直流电压。每一个电源模块提供了+12V的输出到刀片服务器的中间背板上,BladeCenter刀片服务器所有的子系统都在该处获得电源供应。两个+12V的中间背板电源总线可用于冗余,并在冗余电源模块间对当前工作的电源进行输出负载的共享。
2、电源利用率和散热
由于BladeCenter服务器近90%的电源负载都来自于处理器和内存上,每个底盘上的CPU使用率便成为决定实际负载中最为关键的因素。在服务器开机阶段所需电量的峰值,不会超过CPU在100%使用时刀片服务器所需的最大能耗—来自CPU的影响远远大于其它动态负载。
电源需求和导致的散热取决于多种因素。其中,关键因素为运行温度、处理器和刀片的数量和CPU的使用率。
虽然很多统计数据都来自于CPU 100%使用率的基准下,但是大多数用户并不需要使其全部的服务器运行在这样的满载负荷之下。每一个用户需要对其应用程序、操作系统以及IT基础架构进行评估,以确定使用率应达到怎样的程度。目前,IBM已制作了一个有关配置的电子数据表格,它可根据用户所指定的CPU占用率,计算出所需要的电源负载。
3、内置降温系统
IBM BladeCenter服务器的刀片单元不只是一个电路板。它安装在坚固的底盘之上,并全部被机壳封闭,尽可能地保证了坚固和可靠性。此外还可以改善空气流通和确保高质量的连接。
冗余的矢量式冷却系统是一项领先的散热技术。它可以把空气从机箱前部带至后部,确保安插全部刀片的底板达到足够的冷却效果。其主要的组成部分是两个转速达到每分钟出风325立方英尺的热交换冗余风扇、关键位置处的热量监控器以及管理模块。
BladeCenter的每个刀片HS20都拥有蜂窝结构的前端外观,使空气从机架的前端流入。刀片服务器底板后部强大的双模块风扇,通过促使空气从刀片的前端到后端流通来提供空气的动力冷却。CPU位于刀片的前端位置,从而获得不断的干净的冷空气。
两个弯曲叶轮散热风扇(配有百叶窗回流挡片)为刀片服务器底盘的所有部件提供了冗余冷却。室状蒸汽散热水槽用来冷却处理器。风扇的速度通过管理模块来控制, 而管理模块接收位于关键部位的热量监控器发来的信号(入口处的空气温度、系统设备温度等)。如果各个传感器的温度级别升高,风扇速度将会自动加快。
4、系统管理器
每个刀片上整合有一个系统管理处理器,在管理模块上亦有一个服务处理器。通过它们之间的智能通讯,BladeCenter的自动系统确保了其高可用性。
BladeCenter的管理模块实施热量监控,包括机箱热量监控、处理器刀片热量监控、本地或远程热量告警。同时,管理模块还实施风扇状态和控制,包括出现和故障检测、故障指示器和告警、基于热量的转速控制。此外,管理模块还监控电源状态,并对电源模块进行控制,包括出现和故障检测、故障指示器和告警、电源故障重起控制。
就这样,BladeCenter刀片服务器构建了“立体”的散热和监控系统,确保了系统的高效散热。