游客发表
【文/石燕红 编辑/张旻】
电影《流浪地球 2》中有这样一幕:一排排根服务器浸没在海水里,服务器“烧开水”的景象非常震撼。
你是不是也纳闷——这不会短路吗?泡水里还能用?其实啊,这种让服务器“泡水”的设定,现在已经算不上科幻了,现实中早就有成熟的技术了,叫作“浸没式液冷”。
我们在庆阳一个数据中心的展厅里,就看到了这样一组“泡在水里”的服务器。当然啦,这个“水”得打个引号,它可不是普通的水,而是一种特殊的冷却液——电子氟化液。
这东西没颜色、没气味,还不导电。工作人员说,他们做过测算,就算把手机丢进氟化液里泡上10年,拿出来照样能用。
今天,我们就从这氟化液出发,看看为什么全国的数据中心,都不约而同地想把算力服务器泡进“水”里?为了做到这一点,工程师们又攻克了哪些技术难题?
传统散热的困境:风扇的“天花板”
要理解液冷当下为什么变得重要,我们得先回到一个最基础的物理问题:芯片产生的热量,到底有多大?
十年前,一台服务器里单颗CPU的功耗大概几十瓦,用一个铝制散热片加一个小风扇就能压住。但今天,训练AI大模型用的GPU,单卡功耗已经飙到700瓦,甚至超过1000瓦。当一个机柜中塞进几十张这样的卡时,整个机柜的功率能轻松突破30千瓦、50千瓦,甚至向100千瓦迈进。
这是什么概念?
一台3匹家用空调的制冷量大约是7千瓦。而在今天的AI智算中心,一个机柜的功率就能达到上百千瓦,相当于十几台家用空调同时开启所产生的热量。一个大型数据中心里,这样的机柜往往有成千上万个。
传统的散热方式是用风扇把冷空气吹进服务器,带走热量,再通过中央空调把热空气冷却。这套方案在数据中心统治了很多年,但它有一个硬物理天花板。
空气的比热容低,导热能力也差。当单机柜功率超过30千瓦,即使把风扇转速拉到极限、空调开到最大,热量还是会在机柜内部堆积,导致芯片因过热而降频,甚至触发保护性宕机。
更麻烦的是能耗问题。数据中心有个核心指标叫PUE,电源使用效率,就是数据中心总耗电量除以IT设备本身的耗电量。理想状态下PUE是1.0,意味着所有电力都用在计算上。但现实中,风冷数据中心要把大量电力花在空调和风扇上,PUE普遍在1.4到1.6之间,好一点的能做到1.2。
全球数据中心每年消耗的电力已经占到人类总用电量的约2%,且国际能源署预测,到2030年,这个数据将翻倍。如果继续用风冷支撑未来的AI算力,我们或许不是在训练模型,而是在用整个电网给空调打工。
散热,已经从运维层面的问题,变成了制约算力发展的关键瓶颈之一。
液冷技术接棒
当风冷技术触顶,全球工程师的目光纷纷投向了液冷技术。但液冷不是单一技术,而是一个包含多种方案的技术谱系,当下主流的实现方式,主要分成三类。
第一阶段是冷板式液冷。这是目前最成熟的过渡方案。工程师在CPU、GPU等“发热大户”的表面,贴上一块金属冷板,内部有细密的液冷管道,冷却液在管道里流动,通过金属把热量导出。
经常玩游戏的朋友,应该听说过“水冷机箱”,用的也是类似的方案。
由于冷却液不直接接触芯片,安全性比较高,改造成本也相对较低,所以很多传统数据中心向液冷过渡时,都会先上冷板。
但它的散热效率有上限——毕竟热量传递要经过一层金属,而且机柜里除了CPU/GPU,内存、硬盘、电源等部件仍然靠风冷散热,这也造成了“冷热不均”的问题。
第二种是喷淋式液冷,这种方案更激进一些。它通过喷头将冷却液直接喷洒在发热元件表面,利用液体蒸发带走热量。和冷板式液冷相比,喷淋式的散热效率更高,但系统结构更为复杂,喷头容易堵塞、液体分布不均等问题,都是需要攻克的工程难题,目前的应用范围相对较窄。
第三种是浸没式液冷,也就是我们这次在庆阳看到的技术。它把整台服务器乃至整台机柜,完全浸泡在特殊液体中,让液体与每一个电子元件直接接触,通过热传导和热对流来带走热量。
这是目前数据中心散热效率的最优形态: 液体的导热能力是空气的25倍,单位体积液体能带走的热量更是空气的近千倍,这使得浸没式液冷的单机柜散热能力达到风冷的数倍甚至十几倍。同时,浸没式方案可以均匀带走所有部件的热量,没有死角。而且因为不需要风扇,整个系统几乎是静音运行,也彻底摆脱了灰尘的困扰。
不过,技术路线的选择,不是非此即彼的,而是要根据不同功率密度选择最优的方案。目前庆阳数据中心给出的方案是:30千瓦以下,风冷依然够用;30千瓦到50千瓦,冷板式是性价比最高的过渡方案;50千瓦以上,尤其是未来100千瓦级的超密集群,浸没式液冷将成为刚需。
这三种方案将在未来长期共存,而不是简单的谁取代谁。
氟化液的优势
回答了为什么要采用浸没式液冷后,接下来就是问题的核心:怎么用才能安全?
要知道数据中心连接着互联网、人工智能、智能驾驶等重要领域的企业。一旦芯片完全浸没在液体里,只要这液体有一丁点导电性、腐蚀性和挥发性,整个机房都会报废,一切相关服务都会跟着停摆,这种影响是毁灭性的。所以无论用什么方式散热,安全始终是首要的考量因素。
为了找到一种既能高效导热、又能与电子设备“和平共处”的液体,工程师们已经探索了很多年。
最初,人们尝试用矿物油或者变压器油进行散热,也就是常说的“油冷”。这类油品虽然绝缘,但黏度大、散热效率低,而且长期使用后会氧化变质,需要定期更换和清理,维护成本较高。后来出现的硅油,性能有所改善,但依然停留在“能用”“能用”而非“好用”的状态。
目前行业里比较成熟的解决方案之一,是电子氟化液。
这种无色无味的人工合成有机化合物,从现有的测试数据来看,具备三个比较突出的特性:
第一是不导电。 它的电阻率极高,即使服务器在通电状态下完全浸泡其中,也不会发生短路。
第二是不腐蚀。 服务器内部材料极其复杂,有铜电路、金触点、银焊点、铝散热片、塑料框架、橡胶密封圈……等等等等。氟化液必须对所有这些材料都保持化学惰性。研发团队为此经历了多次迭代:早期配方解决了金属腐蚀问题,却发现长期浸泡会导致塑料件微量溶胀;后续持续攻关时,又面临高温下挥发损耗的挑战;直到当前这一代产品,厂家通过耐久性测试证实,设备在氟化液中浸泡10年后拆解,内部元器件仍然完好如初。相关特性也已通过工信部验收。
第三是不挥发。 氟化液的沸点在110摄氏度以上,而服务器正常工作温度只有七八十度。这意味着在常规运行中,液体几乎没有损耗,不需要频繁补充。
但即便如此,氟化液依然面临工程层面的巨大挑战。
首先是密封。整个槽体必须完全密闭,液体循环管道、电源线、网线、光纤的穿舱位置都要做特殊的密封处理。一旦漏液,不仅会造成昂贵损失,还可能污染其他设备。
其次是维护。传统服务器坏了,工程师打开机柜就能更换部件。但采用浸没式液冷的服务器是浸泡在液体里的,维护时需要先排液、再操作,流程复杂得多。而且不是所有硬件都适合液体环境,部分类型的硬盘、光模块对液体敏感,需要重新设计。
最后是成本。电子氟化液本身价格不菲,再加上专用槽体、循环泵、热交换器等配套设备,初期投入比风冷系统高出约20%。虽然从长远来看,靠省下的电,是能把成本赚回来——比如根据中国移动庆阳数据中心的测算,使用他们的这套浸没式方案,大约4年就能回本,但首次投入的高门槛,确实劝退了不少企业。
为什么是现在?
浸没式液冷的概念并不新鲜,早在十几年前就有实验室在探索。但为什么直到最近才开始规模化落地?
因为GPU的功耗曲线,终于把风冷逼到了绝境。
英伟达最新的AI芯片,单卡功耗已经突破1000瓦,一个机柜如果塞满64张或128张卡,整机柜功率轻松超过50千瓦,甚至向100千瓦、130千瓦迈进。国产芯片也在快速迭代,风冷在这种密度下已经完全失效,冷板式液冷也开始力不从心。浸没式液冷由此从先进技术,变成了唯一选择。
另一个推动力是应用场景的分化。
AI算力分为训练和推理两大场景。训练大模型时,GPU需要持续满负荷运行数周甚至数月,热量输出稳定且巨大,这时候浸没式液冷的稳定散热和节能优势非常明显。但推理任务不同,用户调用AI时,算力需求是脉冲式的,负载忽高忽低,风冷或冷板式在这种波动场景下反而更灵活、更经济。
所以未来的数据中心不会是“全场液冷”,而是采用混合架构:训练集群用浸没式液冷,推理集群用冷板式液冷或风冷,根据业务特性动态配置。
还有一个容易被忽视的因素:国产算力的崛起。
过去液冷主要是配合英伟达GPU的生态。但如今,华为昇腾、海光、寒武纪、燧原等国产芯片已经大规模部署,它们的功耗特性和封装形式与英伟达存在差异,对散热方案提出了新的要求。浸没式液冷凭借“液体包裹一切”的通用性,反而成了适配多元芯片架构的最优解。这也是庆阳这样的国产算力枢纽,会率先布局浸没式液冷的原因。
液冷背后,一场算力与能源的博弈
聊完技术,我们最后谈谈这件事的深层意义。
人类进入AI时代,上层是算法、模型与芯片的竞争,而底层则是能源的竞争。
训练一次GPT-4级别的大模型,耗电量相当于3万个家庭一年的用电量。全球数据中心的耗电量正在以每年10%以上的速度增长,如果不改变散热方式,未来我们可能面临“算得起,但供不起电”的尴尬局面。
浸没式液冷把PUE从1.2降低到1.07,看似只是0.13的微小改进,但放大到百万千瓦级的算力集群,这意味着每年节省的电量相当于一座小型水电站的发电量,甚至更多。在“双碳”目标和全球能源紧张的背景下,散热效率就是能源效率,PUE就是碳排放。
在中国移动庆阳智算中心,浸没式液冷已经从展厅测试走向机房部署,这里全年较低的气温、3毛8一度的绿电,以及正在建设的液冷集群,共同构成了当前国内最接近规模化落地的现实样本。
但液冷不是终点。当单机柜功率向100千瓦、200千瓦继续攀升,今天的氟化液也会遇到新的瓶颈。下一代散热技术会是什么?是相变材料?超导热管?还是直接把数据中心建到深海或极地?
没人知道确切答案。但可以确定的是,只要人类仍在追求更强的算力,散热技术的进化就不会停止。因为物理定律从不妥协,工程师能做的,只是在极限边缘,寻找那0.1的优化空间。
本文系网独家稿件,未经授权,不得转载。
{loop type="link" row=1 }{$vo.title}