人工智能(AI)和高性能计算工作负载正推动服务器及机架的功率密度突破传统风冷设施的承载极限。高密度机架的散热问题已演变为一项战略性的容量挑战,直接影响着算力部署规模、系统运行可靠性以及数据中心扩展的效率。
随着AI训练和推理任务向规模更大、GPU密度更高的集群转移,热量开始集中在更少的机架内。单块高端GPU的功耗可达数百瓦,而配置齐全的AI服务器单台功耗则高达数千瓦。若从机架层面考量,这些数字所带来的挑战更为严峻。新型AI系统的部署密度正发生显著变化:从许多企业环境中常见的20千瓦(kW)级别,向50千瓦、100千瓦甚至更高密度的配置演进。
这种转变改变了冷却技术在数据中心设计中的角色。尽管优化的气流组织和高效的风冷技术依然重要,但对于各种工作负载或密度需求而言,它们已不再是万能的解决方案。本文将探讨高密度AI数据中心在冷却方面日益严峻的挑战,并强调采用创新热管理策略的必要性——即整合风冷与液冷系统的综合方案。
为何风冷依然至关重要
几十年来,风冷技术一直是数据中心热管理的中流砥柱。对于北美地区大多数功率密度适中的现有数据中心而言,风冷依然是一种经济高效且切实可行的方案。然而,数据中心的运营环境正经历着前所未有的变革,而风冷技术面临的主要挑战,根源在于热传递的基本物理特性。
与液体相比,空气本身并非吸收和输送热能的理想介质。事实上,按质量计算,水的热容量约为空气的四倍。例如,若要移除1kW的热量并伴随20华氏度的温升,大约需要每分钟158立方英尺(CFM)的空气流量;如果将允许的温升幅度减半,所需的空气流量则大致翻倍。
即使采用高度优化的风冷技术,每个机架的散热极限也仅在30kW至40kW左右。一旦超过这一限度,所需的风量和风速将变得难以管理,从而导致无法接受的噪音水平和运行不稳定性。
液冷技术更贴近热源
对于许多高密度部署场景而言,液冷正逐渐成为一项实际需求。其原理很简单:尽可能将热量捕获点设置在靠近热源的位置。液体的体积热容量是空气的1000多倍,这为应对当前及未来AI硬件产生的极端热负荷提供了一条切实可行的途径。
“芯片直冷”(Direct-to-Chip,简称D2C)是一种针对服务器内部发热最严重组件的液冷策略。该架构利用导热性能良好的铜制或铝制冷板,替代了组件原有的风冷散热器。通过一个密封的管路系统循环输送冷却液,直接吸收芯片产生的热量。对于计划在机房内部署液冷技术的设施而言,D2C往往是首选方案。
另一种主要方案是“后门式热交换器”(Rear-DoorHeatExchanger,简称RDHx),这是一种机架级解决方案,其工作原理类似于安装在机架后部的散热器。RDHx的设计旨在热量散逸至数据中心环境之前,先在机架层面将其消除。该方法的主要优势在于,运营商无需重新设计整个机房的冷却系统,即可提高机架的部署密度。
对于机架负载超过100kW的高密度环境,浸没式冷却(ImmersionCooling)是最为高效的冷却策略之一。该技术将计算硬件完全浸没在一种导热良好但不导电的液体介质中。不过,实施该方案需要专门设计的硬件、配套的液体处理流程以及对设施进行大规模改造。
冷却系统的扩展能力取决于效率、监控与可持续性
在高密度计算时代,扩展冷却能力是一项长期工程,其内涵远超单纯选择某项技术。它需要一项综合规划,涵盖模块化设计、智能监控以及对可持续性的承诺。
数据中心可根据需求部署可扩展的冷却策略,从而灵活适应不同的服务器与功率密度。这种方法不仅提供了财务与运营层面的灵活性,还有助于避免因过度配置而产生的额外成本。
RDHx(机架后门热交换器)等技术可用于改造现有数据中心机柜。然而,随着功率密度的提升,D2C(直接到芯片)液冷技术变得更为适用。在高密度部署场景下,可采用独立的模块化槽体实施浸没式冷却,确保冷却能力随计算需求的增长而同步扩展。
冷却系统还必须具备韧性。系统架构设计中必须纳入容错与可维护性考量。水泵、冷却液分配单元(CDU)及冷水机组等组件可采用N+1或2N冗余配置,以确保在个别组件发生故障时系统仍能持续运行。
可扩展的冷却策略还必须包含全面的监控与分析功能。这种数据驱动的方法依赖于高密度的无线传感器网络。ASHRAE建议每个机架配置六个温度传感器;对于液冷系统,传感器则用于监测冷却液分配单元内的流量、压力及温度。
数据中心管理者可利用这些传感器数据,结合机器学习算法进行预测性维护。这有助于主动安排维护计划,从而减少非计划停机时间并延长设备使用寿命。
最后,可持续性已成为核心业务议题,迫使运营商在电源使用效率(PUE)与水资源使用效率(WUE)之间寻求平衡。先进的液冷技术虽能降低能耗从而优化PUE,但运营商仍需权衡WUE,因为某些高能效冷却方案往往伴随着高耗水特性。
结语
数据中心冷却技术的未来并非从风冷向液冷的彻底转型,而是一种混合热管理架构,即针对不同的密度需求采用最适宜的冷却方式。对于现有的存量设施而言,经过优化的风冷技术仍将发挥关键作用;与此同时,D2C液冷、RDHx及浸没式冷却技术则将在机架级热负荷有相应需求时进行部署。
冷却系统将演变为一种动态规划的基础设施层,其形态与规模取决于计算资源的部署需求。能够成功的将是那些能够将可用电力转化为可用算力,且不会造成热瓶颈的数据中心。
编辑:Harris
