随着人工智能(AI)计算需求的激增,现代云数据中心面临着前所未有的电力和冷却挑战。传统数据中心依赖蒸发式液体冷却技术,虽然能够有效散热,但其对水资源的巨大消耗引发了环保和可持续性方面的担忧。为应对这一问题,英伟达推出了基于 芯片直触式液体冷却 的创新解决方案,声称其能效比现有冷却系统高出 25 倍,节水效率更是提升了 300 倍。
这一突破性技术将应用于英伟达最新的 GB200 NVL72 和 GB300 NVL72 高密度服务器系统,旨在满足 AI 计算对高性能硬件的需求,同时大幅降低资源消耗。
高密度计算带来的冷却难题
现代 AI 数据中心的功耗远超传统数据中心。一个典型的数据中心机架功耗约为 20 千瓦,而英伟达基于 H100 的机架功耗已超过 40 千瓦。更令人震惊的是,英伟达最新推出的 GB200 NVL72 和 GB300 NVL72 系统的功耗高达 120 至 140 千瓦,是普通机架的 七倍以上。
如此高的热负荷使得传统的空气冷却方法已经无法满足需求,因此英伟达为其 Blackwell 芯片开发了全新的冷却方案——芯片直触式液体冷却。
芯片直触式液体冷却的工作原理
芯片直触式液体冷却的核心在于让冷却剂直接流经连接到 GPU、CPU 和其他发热组件的冷板,从而高效地将热量从这些设备中带走。与传统冷却方式相比,这种方法无需依赖空气作为中间介质,显著提高了散热效率。
关键特点:
-
闭环系统:冷却剂在封闭回路中循环流动,不会因蒸发或损耗而需要频繁更换,从而实现零水消耗。 -
温水冷却支持:系统能够使用温水进行冷却,减少了对机械制冷机的需求,进一步提高了能源效率。 -
模块化设计:液体冷却剂吸收的热量通过机架级液-液热交换器传递到数据中心的整体冷却基础设施。例如,CoolIT CHx2000 等冷却剂分配单元(CDU)能够管理高达 2 兆瓦 的冷却能力,以低热阻和高可靠性支持高密度部署。
节水与能效提升的关键
英伟达声称,这种闭环液体冷却系统的节水效率是传统蒸发冷却系统的 300 倍,而能效则是现有冷却器的 25 倍。这主要得益于以下几点:
-
消除蒸发损失:传统蒸发冷却系统需要大量水来维持运行,而闭环系统完全避免了水的蒸发和流失。 -
减少机械制冷需求:温水冷却的引入降低了对高能耗制冷机的依赖,从而节省了电力成本。 -
集中式热管理:液体冷却系统通过集中化的热交换器管理热量,优化了整个数据中心的能量分布。
挑战与解决方案
尽管芯片直触式液体冷却具有显著优势,但大规模部署仍面临一些实际挑战:
-
维护复杂性:密封的液体冷却系统可能会增加维护难度,尤其是在需要快速更换故障组件时。为此,英伟达采用了带有无滴漏密封的快速断开接头,允许在不破坏密封的情况下进行维护操作。 -
管道与泵冗余:在机架和数据中心范围内布设液体回路需要复杂的管道设计和泵冗余机制,以防止泄漏并确保故障隔离。 -
高昂的改造成本:实施液体冷却通常需要重新设计整个数据中心基础设施,这对现有设施来说是一项昂贵的投资。
为了解决这些问题,英伟达与施耐德电气合作开发了 1152 GPU DGX SuperPOD GB200 集群的参考设计。该设计集成了 Motivair 液-液 CDU 和带绝热辅助的液体冷却器,能够快速部署并实现最大效率。
Blackwell 芯片推动行业转型
英伟达的 Blackwell B200 GPU 是目前市场上性能最强的 AI 加速器之一,其巨大的计算能力吸引了众多企业和研究机构的关注。然而,这款芯片的高功耗也要求配套的冷却解决方案必须具备极高的效率。
由于 Blackwell 处理器提供的无与伦比的性能,许多用户愿意投资于数据中心的重新设计,以支持液体冷却技术。英伟达通过提供密封液体冷却的参考设计,帮助客户避免使用传统的蒸发冷却方案,从而在节约用水的同时实现了更高的冷却效率。
0条评论