首页>>新闻资讯>>行业动态

算力风暴背后:液冷数据中心破局“不可能三角” 在菲律宾做医疗器械生意有什么不同小红书商业化迷途:如何成为一台有温度的赚钱机器?首发6799元 惠普暗影精灵“乐享版”上市:120W RTX4060锐龙9000X3D三款型号 3D缓存革命性大变!可惜容量不变AI大模型时代 算力集群赛跑人工智能时代已来?世界人工智能大会先给你降降温启明创投发布2024生成式AI十大展望小米折叠屏新机,超级炸裂!Nothing手机国行版要来了?复制一加,难度堪称地狱级

2024-08-09 08:51:55 8

液冷不再是选择题

作者/ IT 时报记者 郝俊慧

编辑/ 钱立富 孙妍

AI 风暴席卷全球时," 能源阴影 " 始终如影随形。

" 真正的电力短缺局面即将到来。" 半导体分析机构 SemiAnalysis 在一份报告中指出,全球数据中心关键 IT 电力需求将在 2026 年激增至 96 吉瓦(1 吉瓦 =100 万 kW),其中人工智能将消耗约 40 吉瓦。

这样的增速对于全球而言均是巨大挑战。数据显示,全球数字技术耗电量从 2018 年占比不到 2% 提升至 2023 年的 10%,预计到 2030 年占比将达到 20%。

比特和瓦特能否和谐共存,是影响算力能否高速狂奔的关键因素,液冷技术的出现,带来了解开难题的 " 钥匙 "。但与此同时,液冷数据中心建设者和运营者必须先解决高算力、低 PUE 和低 TCO 的 " 不可能三角 " 关系。

" 我们做过内部测算,当单个机架功率密度超过 10kW 之后,采用冷板液冷架构的单 kW 制冷成本将低于传统的风冷架构。" 近日,第五届中国数据中心绿色能源大会暨第十届中国(上海)国际数据中心产业展览会举办期间,在接受包括《IT 时报》在内的媒体采访时,曙光数创副总裁兼 CTO 张鹏预测,随着算力需求的增加,机架功率密度将快速上升,新建机架功率 20kW 起步,并向 60kW 普及,因此,未来十年是冷板液冷技术的高速发展期,液冷数据中心占比将超过六成。

" 不过,再过十年将是浸没式液冷技术的天下 ",张鹏话锋一转说道。在当日展台上,曙光数创摆放着一台浸没在液体中的服务器,这台 " 缸式 " 浸没液冷计算机,不仅可以让 PUE 降至 1.05,而且最高可支持的单机架功率可达 210kW," 这只是一代产品,刚刚商用的二代产品最高可支持功率已达 575kW,而正在研制的三代产品将高于 750kW,它的单 kW 制冷成本远远低于风冷和冷板液冷技术。"

电影《流浪地球 2》中,为了让地球启动 " 流浪模式 ",人类必须重启杜勒斯、东京、北京三地根服务器,其中位于北京的 " 未来航天中心计算机 " 便是一座 " 浸没 " 式的水下数据中心,其原型正是曙光数创的相变浸没液冷计算机。

如今,科幻仍是想象,科技已先至。

液冷不再是选择题

对于数据中心而言,液冷架构已不再是选择题。

随着着人工智能、大数据分析、虚拟化和高端计算等技术的迅速发展,算力中心对计算能力的要求越来越高。截至 2024 年 6 月,英特尔第六代服务器处理器单 CPU 功耗已突破 300W,英伟达最新的超级芯片 GB200 功耗达 2700W,MGX 集群算力密度达 100kW/ 柜。

中国信通院发布的《算力中心冷板式液冷发展研究报告 ( 2024 年 ) 》显示,高功耗、高密度的大型、超大型算力中心是未来建设的重点。如今,大型算力中心的单机架功率密度已接近 8kW,少数超大型算力中心的单机架功率密度已达 20kW。

然而,算力中心有限的电力承载能力成为限制算力提升的主要因素。张鹏告诉《IT 时报》记者,北京某个智算中心采用了传统的风冷架构,但 GPU 服务器的单机架功率密度达 60kW 以上,这几乎已是风冷的上限,当大模型并行训练时,常常因任务太多、散热能力不足而产生局部热点,甚至宕机,因此只能将 GPU 降频使用,导致可使用算力大幅下降。

液冷是将液体作为服务器的散热方式,它的应用可以使算力中心计算能力得到飞跃提升。目前主流液冷架构有两种:冷板和浸没式。

冷板路线是在服务器背后直接加装液冷板,将数据中心 IT 设备的热量传导到冷板上,然后通过冷板内部液体循环实现换热,再通过室外冷却塔等设备实现散热。

浸没式则是直接将服务器电子元器件浸入特制具备高热传导性的冷媒中,冷媒沸点低,可以快速将服务器产生的热量传导出去,从而产生更高效的散热效果。

目前冷板式液冷是最主流的液冷方案,IDC 近日发布报告称,2023 全年中国液冷服务器市场规模达到 15.5 亿美元,其中 95% 以上均采用冷板式液冷解决方案。

《算力中心冷板式液冷发展研究报告 ( 2024 年 ) 》透露,某算力中心引入了冷板式液冷系统后,将其应用于高密度计算节点。在传统空气冷却技术下,每个机柜的功率密度仅为 8-10kW,而在采用冷板式液冷技术后,单机柜的功率密度大幅提升至 33kW,可支持 128 颗 CPU,单机柜最大支持 66kW 供电。

" 从 2011 年启动液冷相关技术的研究,曙光的产品已连续三年在液冷领域保持市占率第一," 张鹏透露,国内不少互联网大厂均是曙光液冷方案的 " 买单人 "," 某互联网大厂去年大量采购了我们的产品。"

图源:曙光数创

中国电子技术标准化研究院发布的《液冷数据中心白皮书》显示,2023 年曙光数创在液冷基础设施市场的份额高达 61.3%,连续 3 年蝉联行业榜首。

冷板式液冷将统治未来十年

相较于风冷系统,液冷技术从根本上改善了主设备的散热形式,更能满足高密机柜、芯片级精确制冷,具有更节能、噪声低等优点。

张鹏告诉记者,目前曙光数创冷板式液冷数据中心的 PUE 已经可以做到 1.2 以内,而相变浸没式数据中心能做到 1.04,几乎接近于 1。

PUE 是数据中心消耗的所有能源与 IT 负载消耗的能源比值,如果比值为 1,意味着数据中心所有能源都将为算力服务。去年 6 月开始实行的《绿色数据中心政府采购需求标准》明确要求,数据中心 PUE 不高于 1.4,2025 年起数据中心 PUE 不高于 1.3。

三家电信运营商 2023 年联合发布的《电信运营商液冷技术白皮书》也显示,2024 年新建数据中心项目 10% 规模试点应用液冷技术,推进产业生态成熟;2025 年及以后开展规模应用,50% 以上数据中心项目应用液冷技术。

液冷数据中心逐渐普及的一个重要原因是,冷板式液冷技术的成本不断下降。相关数据显示,2022 年液冷数据中心 1kW 的散热成本近 6500 元,相比 2022 年下降 54.2%,预计 2023 年 1kW 的散热成本降至 5000 元,与传统风冷的建设成本基本持平。

曙光数创也曾进行过市场摸底,2022 年液冷服务器的渗透率约 3%~5%,2023 年上升至 8%~10%,2024 年之后有可能拉出一条上升直线,增长率可达 30%~40%。其中大部分是冷板式液冷服务器。张鹏认为,10 年内冷板式技术架构将成为智算中心的必选题,渗透率将有望最终定格为六成。

这个估算基本与中国算力格局相匹配。根据《2023~2024 年中国人工智能计算力发展评估报告》,中国智能算力规模正处于高速增长状态。预计到 2027 年,中国智能算力规模将达 1117.4EFLOPS,2022~2027 年期间的年复合增长率为 33.9%。

浸没式技术路线也逐渐获得市场认可,不过与其他发力单相浸没式液冷技术路线的友商不同,曙光数创从一开始便选了一条更难的路径——相变浸没式液冷技术。

相变浸没式液冷

为未来做好准备

翻阅各类液冷式数据中心报告,谈及冷板式和单相浸没式技术路线时,总有多个厂商的方案可供参考,但在谈及国产相变浸没式液冷技术时,厂商的名字只剩下一个——曙光。

所谓相变,即物质态势发生改变,浸没式的含氟冷却液在受热时发生相变成为气态,利用液体汽化的潜热吸收并带走服务器内发热元件产生的热量,从而大幅提升整个数据中心系统的换热效率,并在冷凝后相变为液体,再度循环进入液体箱,进而提高整个数据中心系统的换热效率。由此芯片核心温度降低 20 ℃到 30 ℃,芯片性能约可提升 10% 至 30%,而单位算力的投资成本亦可降低,据测算,冷板液冷初投资可低于风冷,浸没相变液冷 5 年 TCO 即可低于风冷。

图源:壹图网

" 每年的液体损耗在 3% 左右。" 曙光展台工作人员告诉记者,曙光数创浸没相变液冷技术中不需要部署传统风冷设施,真正做到极致节能、全时全域自然冷却,节约能效大于 30%。

据了解,目前相变浸没式液冷技术可实现功率密度高达 250kW 至 500kW/ 浸没腔,曙光正在研制的三代产品预期功率密度超过 750kW,而 " 液体进、液体出 " 的单相浸没式液冷技术,目前普遍支持的最高单机架功率在 100kW 左右。

《IT 时报》记者在现场看到曙光一代相变浸没式液冷服务器机架模型,可支持八台智算服务器,其中每台智算服务器装有两块 CPU 和八块 GPU,功率密度超过 210kW,而这已经是曙光数创数年前的产品,新商用的二代产品功率密度已超过 500kW。

从目前智算中心的建设需求来看,单机架密度超过 500kW 是比较高的门槛,即便 210kW 也已是民用数据中心的天花板。超算中心目前是相变浸没式液冷技术方案的主要场景。不过,随着 GPU 的迭代升级,来自智算中心的功率密度要求正在加速上升。英伟达最新推出的 MGX 超级 AI 工厂,可支持 72 块 CPU,单台功率密度达 100kW。

在更高密度、更大规模的计算系统到来之前,相变浸没式液冷技术方案做好了准备。

目前,国内只有曙光数创推出了相变浸没式液冷数据中心,在一些关键技术上实现了国产突破。

据张鹏介绍,由于冷媒的介电常数与空气不同,信号在浸没环境中传输路径的分布电容增加,导致高频信号衰减。这给主板设计和信号完整性 ( SI: Signal Integrity ) 带来了巨大挑战。主板上的 CPU、GPU、内存、PCIe、高速网络的信号速率均高于 1Gbps,此类信号在全浸环境下会出现明显的失真,严重影响信号可靠传输。曙光数创通过研究浸没环境下的高速信号衰减规律,针对关键高速信号传输进行了优化,形成了一整套针对浸没环境的高速信号设计规范,包含主板 Layout 规则、板卡材料要求、测试方法等多方面内容。

排版/ 季嘉颖

图片/ 曙光数创 壹图网

来源/《IT 时报》公众号 vittimes

E N D

大家都在看

请加「星标」不错过我们

相关标签:

发表评论:

评论记录:

未查询到任何数据!