AI智算中心为什么这么耗电、消水
山河边城
2024年12月11日 14:36:09
只看楼主

以下文章来源于职在IDC的十一 ,作者龙湖堂 先讲一个冷知识: GPT-3单次训练耗电,相当于3000辆特斯拉跑到报废! 就这个耗电量,可不仅仅是个电费的问题,光是产生的热量就令人咋舌。如果没有足够的水来散热,这些超算数据中心的机器可就要“热炸”了,分分钟烧报废!因此,AI超算数据中心就需要大量水来散热,也就是“冷却液”,所以啊,AI费水费电,还是牛马省钱。。

以下文章来源于职在IDC的十一 ,作者龙湖堂

先讲一个冷知识: GPT-3单次训练耗电,相当于3000辆特斯拉跑到报废!


就这个耗电量,可不仅仅是个电费的问题,光是产生的热量就令人咋舌。如果没有足够的水来散热,这些超算数据中心的机器可就要“热炸”了,分分钟烧报废!因此,AI超算数据中心就需要大量水来散热,也就是“冷却液”,所以啊,AI费水费电,还是牛马省钱。。


图片



从机房到大型数据中心,从边缘计算到云计算,从传统数据中心到AI智算中心,可以说数据中心的发展史映射了人类智能的进步史。工业、金融、教育、服务、医疗、零售、航空,甚至现代农业,都离不开数据采集、计算的影子。

智算中心有两大耗能,一是服务器芯片运行耗电,据《纽约客》的一则报道估算,ChatGPT 每日耗电量或超过 50 万千瓦时;另一则是数据中心制冷所用掉的电和水,有调查研究显示,冷却系统消耗的能量可达数据中心总能耗的 40%。而近年来,随着服务器芯片功率密度的成倍增长,传统的空调风冷已经远远不能满足降温需求,转向液冷,或者液冷与风冷相结合的制冷方式,因而水的用量也会城规模增长。


一、智算中心消耗电和水的主要原因包括以下几个方面:


散热需求:智算中心在运行过程中会产生大量热量,为了保证智算中心的稳定运行,需要大量的冷却设备进行散热。传统的散热方式如空调冷却不仅消耗大量电力,而且效果有限。新型散热方式如蒸发冷却机和液冷散热虽然能减少耗电量,但会增加用水量。

能源消耗:智算中心的服务器需要24小时不间断运行,这导致其能源消耗巨大。据统计,全球数据中心的用电量约占世界总电力消耗的1-2%,与航空业相当。许多数据中心依赖传统的化石燃料发电,导致碳排放量居高不下。

图片

地理位置选择:为了降低运营成本,许多数据中心选择在气候凉爽、水电资源丰富的地区建设。例如,腾讯在贵州、华为在贵安新区、苹果在“云上贵州”等地建设数据中心,而Facebook则在北极圈外的小镇建立数据中心。

技术发展:随着人工智能的发展,训练和使用AI模型需要大量的计算资源,这进一步增加了智算中心的能耗。例如,OpenAI的GPT-3模型训练过程每天耗电量高达50万千瓦时。

二、智算中心消耗电和水的具体例子和影响:

谷歌:2021年消耗了约56亿加仑水,2022年消耗了52亿加仑的水用于数据中心业务,相当于一个半西湖的水量。为了确保智算中心的稳定运行,谷歌在缺水地区的水资源使用对当地生态系统和居民生活用水造成了影响。

微软:承诺到2024年将全球数据中心的用水量减少95%,到2030年实现“水中和”,同时15天内消耗了近70万升水。

阿里云:在千岛湖的数据中心利用深层水源进行散热。

AI模型:如GPT-3的训练过程每天耗电量高达50万千瓦时,相当于美国家庭日平均用电量的1.7万多倍。

图片


三、智算中心耗电量及耗水量
智算中心和通算中心在基础设施规划上并没有什么本质的区别,硬要说区别的话智算中心的单机柜功率会大一点,一般智算中心单机柜功率在15kw~25kw之间,制冷方式可以采用冷水机组+冷却塔制冷、间接蒸发制、冷相变多联制冷等,也有采用液冷(浸没式、风液式等)方式制冷,不过因为液冷初期投资成本较高,如果没有PUE强制要求的话,采用这种制冷方式的较少。
假设某项目设计为单机架15kW,总计2000架机柜,同时系数按照0.9,PUE按照1.2计算,那么其每年的耗电量约为15*0.9*2000*24*365*1.2=236520MW
不同制冷方式WUE取值不同,间接蒸发冷却WUE约为1.0L/KW,冷机+冷塔制冷WUE约为2.0L/KW,那么每年用水量:
间接蒸发冷:236520MW*1.0=236520t
冷机+冷塔:236520MW*2.0=473040t


另外普及下PUE和WUE的概念:

PUE:数据中心电力能源效率指标,指的是总电量与IT电量的比值,其越小,代表效率越高;

WUE:数据中心水资源效率指标,指的是总用水量与IT电量的比值,其越小,代表效率越高;

四、未来趋势和解决方案:

新型冷却方式:采用空气冷却技术、海水冷却或循环再利用水资源等方法,以减少对传统冷却方式的依赖。

图片

可再生能源:越来越多的智算中心开始使用风能、太阳能等清洁能源来供电,以减少对化石燃料的依赖。

技术优化:通过人工智能优化服务器负载、使用更高效的处理器等技术手段,减少能源浪费。

像英伟达创始人黄仁勋说:“AI的尽头是光伏和储能!”我们不能只想着算力,AI发展得重视“环保节能”。而未来的发展趋势是探索更高效的冷却方式和利用可再生能源来降低能耗。



免费打赏

相关推荐

APP内打开