一、研究背景
全球AI算力竞赛正如火如荼地进行,作为承载智能算力的核心基础设施的智算中心,迎来了爆发式增长的黄金时代。中国通信工业协会数据中心委员会发布的《中国智算中心产业发展白皮书(2024年)》显示,截至2024年8月,全国智算中心项目总数已超过300个,算力规模超过50万PFlops,其中约三分之一项目规划算力超500PFlops。另据IDC发布的《中国加速计算服务器市场半年度跟踪报告》,到2026年,中国智能算力规模将实现质的飞跃,突破1271.4EFLOPS,中美引领全球算力发展。
随着人工智能技术的迅猛发展与大模型竞赛的持续升温,算力系统的功率需求和密度正朝着更高层级快速迈进。万卡百MW级别甚至10万卡GW级别不断出现,单机柜功率也不断突破新高,例如GB200单机柜功率突破130kW,Rubinultra的单机柜更是宣称达到800+kW。强大的算力带来更大的散热问题,以GB200NVL72服务器为例,在使用过程中出现芯片过热问题,导致供货延期,官方也在不断测试优化其散热设计。此外,AI计算的负载特点、运行场景与传统的通用计算也存在巨大的差异性,高训练模型要求所有系统组件(包括GPU、CPU、内存和存储)达到峰值功耗。持续的高计算负载会产生大量热量,训练推理一体的模型则是呈现“部分高负载+需求波动引发的峰谷功耗”特征,热生成随计算任务动态变化,推理模型表现为短时或阶段性集中计算需求的尖峰功耗,对应瞬时热密度骤升的散热挑战。因此,本文将深入聚焦分析智算中心业务特点及其散热需求,旨在为高算力场景下的制冷系统设计提供坚实的理论与实践参考,助力行业高效发展。
二、智算中心业务特点及制冷需求
1.智算中心主要业务场景
智算中心通常承载AI计算(高功耗)与配套通用计算(低功耗)并存的混合业务场景,两类业务对算力资源与散热方案的需求也存在显著差异:
1)AI计算:涵盖大模型训练、微调、推理等任务,需调用GPU/TPU/NPU等加速芯片,单卡功耗可达300-1000+W(如NVIDIAH100单卡功耗700W),且常以集群形式运行(如数千张GPU并行训练),峰值功耗下发热集中,需液冷(浸没式、冷板液冷)或高密度风冷(>20kW/柜)方案支撑。
2)配套通用计算:典型场景包括配套AI计算过程中的数据存储、网络互联、常规数据处理等,主要以传统CPU为核心,功耗水平较低(单节点功耗通常在200-500W),散热需求以基础风冷方案(10~15kW/柜)即可满足,对极端散热能力依赖度低。
因此,这种混合负载特性要求智算中心避免纯液冷或纯风冷的“一刀切”的散热设计,需针对不同业务模块的功耗特征,设计分层散热架构。
2.不同业务场景的负载特点
AI计算业务一般分为训练(Training)、微调(Fine-tuning)和推理(Inference)三个应用场景,这些场景不仅对算力提出了不同层级的需求,也在散热、能耗等基础设施层面带来了全新挑战。深入剖析AI计算面向的典型场景,既是理解其技术演进的关键,也是推动算力基础设施优化升级的重要前提。
1)训练(Training)
训练是大语言模型操作中最耗电的阶段。在此过程中,模型从海量数据集中学习。这样的过程需要在长时间内保持高GPU利用率,通常持续数天、数周甚至数月。此阶段要求所有系统组件(包括GPU、CPU、内存和存储)达到峰值功耗,持续的高计算负载会产生大量热量,芯片内部存较大的热应力;此外,根据Meta运行数据披露,芯片短暂的温升波动也会导致训练性能衰减1%~2%。
2)微调(Fine-tuning)
微调是将预训练模型适配到特定任务或领域的过程,通常需要中等到高水平的电力消耗。此阶段表现为间歇性的高GPU利用率,但通常持续时间短于完整训练过程,微调期间功耗波动更大,因此需要散热系统能高效应对可变的热负载。
3)推理(Inference)
推理是将训练好的模型应用于新数据,通常是较短的计算爆发,功耗零散,使用模式高度变化且不可预测,功率需求迅速变化,虽然通常耗电少,但由于其行为主导的特性,需要散热系统能够快速响应功率变化带来的热量变化,以平衡低延迟响应时间和能效。
因此,AI计算场景要求制冷系统在长期高负载、间歇性波动负载及零散突发负载下均具备稳定高效散热能力、快速热响应调节能力,同时平衡低延迟性能与能效。
3.GPU散热温度与故障率
据有关资料显示,GPU的正常工作温度为60-70℃,在进行深度模型运算和复杂图像渲染等高负载活动时,工作温度将达到80℃或更高。研究表明,温度每升高10℃,芯片性能就会降低一半,故障率也会增加一倍。如Meta在训练LLama3.1模型时共有1.6万个GPU单卡(H100)、近2000台服务器,在54天的工作中共发生419起故障,平均每3小时就会发生一起,其中GPU相关故障高达58.7%,CPU只有0.5%。按其GPU和HBM内存出现故障的速率,年化故障率达到9%,在3~4年使用周期内总故障率达27%~36%。因此,为应对高温给GPU设备带来的性能下降与故障风险,散热向更低温发展的趋势,如有部分智算中心在运行时也尝试通过降低送风温度(21~22℃)来减少设备故障,对于液冷系统也可以进一步降低供液温度来加强换热效果,如GB200的液冷系统设计可以采用35℃或更低的供液温度。因此,虽然提升送风或者供水温度可以提升自然冷却时长,节能降耗,但是综合考虑GPU故障率和更高密度芯片的散热需求,建议在设计规划初期预留充足的补冷措施,以便在后期运营时根据实际需求加强制冷能力。
4.芯片技术迭代周期
从NvdiaA100(2020年发布,TDP400W)、H100(2022年发布,TDP700W)、B200(2023年发布、TDP1000W)到下一代Rubin架构的技术演进路径看,AI芯片的制冷技术呈现出“功耗驱动迭代、液冷主导升级、架构深度协同”的三大发展规律,其制冷需求从100%风冷向更高的液冷比(85%~90%)快速转变,按传统架构提前建设制冷系统基础设施存在较高的技术适配性风险和成本浪费风险。因此,智算中心在规划设计时必须考虑对更高液冷比和更高密度液冷设备的兼容性。同时,基础设施建设也应紧跟技术迭代节奏采用更灵活的交付手段(如更多的预制化、产品化应用)缩短交付周期,提升资源利用效率,在保障性能、控制成本的同时,适应不断变化的技术和业务需求,避免因建设周期长而错过技术红利期。
三、智算中心制冷架构的选择
智算中心制冷系统的复杂性,本质源于多种散热需求的组合叠加,以及芯片散热技术持续迭代演进的不确定性。从业务层面看,混合负载对散热方案的分层设计提出必要性需求;从技术演进看,芯片功耗的持续跃升则要求制冷架构适应未来的技术迭代;从运行稳定看,智算中心需要兼顾长周期高负载散热持续性和动态负载热响应敏捷性。如何在“现实需求”与“未来趋势”之间找到平衡点,成为智算中心制冷系统设计的核心命题。
在此背景下,以风液同源架构为代表的并行制冷方案,正成为平衡能效、成本与可靠性的最优解决方案。该架构基于统一的冷源系统与基础设施底座,通过末端散热介质(空气/液体)的差异化灵活配置,构建分层散热体系。该方案既能兼容低密度、低功耗设备的风冷散热需求,保障经济性;又能保证高密度算力节点的液冷散热需求,保障可靠性,同时还支持小规模分期建设,实现了系统能效、建设成本与运行稳定性之间的最优平衡,为大规模智算中心的绿色低碳发展提供了可复制的工程化解决方案。下文将对风液同源架构中关键的冷源、输配系统及末端设备维度等解析该架构的技术逻辑与应用价值。
1.冷源选型
1)集中式冷源
集中式冷源通常基于一栋楼或一个较大建筑单元的负荷需求进行选型设计,制冷量规模一般控制在10~15MW区间,采用开式冷却塔搭配板式换热器或闭式冷却塔的形式,制冷单元N+1冗余以保障系统可靠性。可采用楼内类似传统制冷站的方案,或通过预制化集装箱形式实现模块化集成,可灵活布置于建筑屋面或室外空间。
该方案的技术优势在于:充分依托成熟的冷冻水系统供应链体系,有效融合产品化的高效集成特性与工程化的适配能力。其局限性表现为:与传统水系统存在相似的痛点,制冷单元的制冷颗粒度较大,即当冷源核心设备发生故障时,可能导致较大范围的供冷中断,需要在系统冗余设计与故障响应机制上进行针对性优化。
2)分布式冷源
分布式冷源采用高度集成化产品设计,设备整合干冷器(或闭式冷却塔)、输配水泵等模块。其制冷量颗粒度可灵活适配,既可选配与单POD容量匹配的300~500kW级小型化单元,亦可配置与电力系统容量协同的2.5MW中型模块。
该方案的技术优势在于:故障面小,单个冷源单元故障影响严格限定在有限范围内,便于维护定位及故障隔离;其局限性主要体现为产品供应链不成熟和中小颗粒度的模块化设计可能带来的机电安装成本上升,需要在架构设计时平衡经济性和可靠性。
2.输配系统架构
风液同源输配系统架构一般分为风液混合布置和风液管路分离布置两种。
1)风液混合布置
风冷末端与CDU串联共用一套输配管路,详见图1所示。设备回水在支管中进行混合,回水温度为风液两种末端的混合值。其优点是末端管路系统简单,阀门数量少,造价成本低,施工周期短;缺点是风冷末端与液冷末端阻力相差较大时存在水力不平衡情况,需要进行初平衡调试,此外,系统回水温度低,余热回收比较困难。该架构适用于既有建筑改造空间受限或者业务需求比较明确的场景。
2)风液分离式散热架构
采用双环路独立设计,在主输配管网前端将冷却系统划分为风冷环路与液冷环路,分别匹配风冷末端(如风墙)与液冷末端(如CDU),详见图2所示。两个环路采用统一供水温度,并且在总回水管网实现温度混合。
该架构优势为:
当芯片散热需求存在不确定性(如液冷系统能否全年利用自然冷源)时,方便通过独立控制液冷环路的辅助制冷单元(制冷机组等)进行精准补冷,而避免对现有管路或风冷部分造成较大改动;
液冷环路回水温度通常可以维持在40℃以上,更有利于进行余热回收设计。
其局限性主要体现为:需要部署两套独立管网(含管网、阀门等),对于空调间、管井的空间和净高要求均比较高,同时也会相应提高机电施工周期和造价成本。
因此,该架构更适用于现阶段业务负载不明确,同时需预留技术升级空间的新建项目和有比较明确余热回收技术需求的项目。
3.关键末端选型
液冷末端的选型原则与常规液冷系统基本保持一致,在此不做赘述。风冷末端选型一般采用水冷DX双盘管空调,其工作原理是高温回风先经过水盘管冷却后经过氟系统蒸发盘管二次冷却,以确保在全年不同冷却水温工况下送风温度恒定。根据冷却水流经盘管的方式不同又可分为盘管串联式和盘管并联式。
1)串联式双盘管
冷却水串联经过水盘管和水氟板换,系统中仅有一个电动调节阀,控制相对简单,设备水侧阻力较大(约110kPa),与CDU一次侧的阻力接近,因此更适用于机房回风温度较高(避免水盘管反向加热)和风液混合布置的场景,详见图3所示。
2)并联式双盘管
冷却水分别进入水盘管和水氟板换,系统中包含两个电动调节阀,控制相对复杂,设备水侧阻力较小(约70kPa),适用于机房回风温度不高(存在水系统反向加热),风液分离布置的场景,详见图4所示。
4.技术性能对比
风冷、冷板式液冷及风液同源架构因技术路径差异,在单机柜功率承载能力、能效水平(PUE)、初期建设成本、维护复杂度及空间利用率等核心指标上呈现显著分化。表1以华东地区气象参数为例,从关键技术性能维度对三种架构进行对比分析,为不同应用场景下的制冷方案选型提供决策参考。
5.现状与挑战
风液同源系统架构因其对混合负载的兼容弹性及多场景适配能力,已成为现阶段智算中心较优制冷解决方案。然而在系统落地实践中,仍需重点关注以下技术挑战并推进优化:
1)冷源与双盘管设备联合控制
目前常规做法中,冷源与双盘管的控制各自分离,双盘管设备为了达到最佳能效,经常会全开水阀运行,利用流量弥补换热温差,随之带来的是冷源系统大流量小温差运行模式,水泵输配能耗与双盘管能耗的平衡点仍需要进一步探索。此外,当末端设备处于热备运行模式时,总需求流量将会超出设计流量,如果没有综合考虑控制逻辑,实际运行时液冷系统可能出现流量不足的情况,实际上需要将参数和逻辑运行结合的更完善解决相关冲突问题。
2)管路水质处理要求更高
由于双盘管空调与液冷CDU均采用钎焊式板换作为其换热设备,与传统水系统的管式换热器不同,钎焊式板换片间流通面积小,维修更换困难的特点决定了其对运行水质的较高要求,传统的碳钢管+冲洗预膜方案是否适用有待进一步观察,长期的水质管理将成为运维阶段的重点工作。此外液冷二次侧的工质液选择、水处理方案也是下一步亟需解决的重要问题。
6.未来发展趋势
从国外英伟达GB200 NVL72液冷整机柜的推出,到国内华为Cloud Matrix384发布,算力设备正经历从单个服务器的独立运算模式,向超节点架构的集群化、高密度协同计算形态加速演进,同时也已清晰展现出液冷散热技术渗透率快速提升的趋势。当前,风液同源架构仍是主流配置,但随着单机柜功耗朝着500kW甚至更高规格迈进,风冷主导的散热模式逐渐暴露出效能瓶颈,液冷主导的架构转型已成为必然趋势。
在极端热密度场景下,传统液冷系统设计已经难以满足高密度芯片的散热需求,低温液冷架构凭借其更强的散热性能,正成为应对高功率计算挑战的核心解决方案之一。同时,液冷散热比例的提升也对系统可靠性提出了更高要求,单节点流量的精准控制关乎芯片散热的均匀性与稳定性,管路密封性优化则直接影响系统的运行安全,而系统冗余设计更是保障业务连续性的关键。
未来,液冷模块与IT设备的深度机电集成将成为技术演进的核心方向。通过将液冷系统与服务器、交换机等设备进行一体化设计,不仅能显著提升散热效率,还能有效降低系统复杂度。这一技术革新将推动智算中心制冷架构向“高密承载、精准散热、全链可靠”的下一代形态加速演进,为算力基础设施的可持续发展奠定坚实基础。
四、结论
算力规模的爆发式增长,对制冷架构的技术成熟度、能效表现与弹性兼容能力提出了多维挑战:从风冷技术“能用但效能瓶颈显著”,到液冷方案“高效却面临应用成本高企与生态成熟度不足”,再到风液混合架构“通过灵活适配实现场景平衡”,技术路线的抉择需深度耦合具体场景的功率密度特征、成本预算约束与可靠性需求。
展望智算中心的未来演进,最终技术方案的选择需结合具体场景的功率密度、成本预算与可靠性要求不断优化,需以“大规模算力供给、高效率能效转化、低成本部署运维、可迭代技术升级”为核心导向,持续探索以“极致能效、智能协同、绿色低碳”为目标的解决方案,在技术路径选择上建立动态评估体系最终形成覆盖“规划—建设—运维”全生命周期的制冷架构优化方法论。
作者简介
吴洁清,高级工程师,注册设备工程师,主要从事数据中心规划设计和制冷系统技术研究工作。
黄佳,工程师,主要从事数据中心暖通设计和制冷系统技术研究工作。
编辑:Harris