咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
设为首页 | 收藏本页
冷却铜板,让数据中心能耗减少90%?
  • 该技术直接回应了当前芯片设计中的“散热瓶颈”问题,为AI硬件持续堆叠算力扫清了热管理障碍。若大规模商业化验证成功,将极大降低AI行业高昂的运营成本和环境负担。

    该技术直接回应了当前芯片设计中的“散热瓶颈”问题,为AI硬件持续堆叠算力扫清了热管理障碍。若大规模商业化验证成功,将极大降低AI行业高昂的运营成本和环境负担。
      
      据相关资料显示2025年,全球数据中心耗电485太瓦时(TWh)。其中,高达30%的电力(超过瑞典全年的总用电量)消耗在了冷却散热上。科学家们开发出了一种采用3D打印技术的铜制冷却板,可将这一能耗大幅削减90%以上!
      
      该技术将数学算法与3D打印相结合,制造出纯铜冷却板,其性能远超直接芯片冷却系统中使用的传统冷板。据伊利诺伊大学厄巴纳-香槟分校的研究人员称,若在整个数据中心应用该技术,用于冷却的电力消耗占比可从约30%降至仅1.1%。
      
      AI热潮已将数据中心的电力消耗推至惊人的水平,甚至到了让企业考虑在太空建设数据中心以更直接地获取太阳能的地步!
      
      更令人咋舌的一点是,其中三分之一的电力与计算毫无关系,全部用于冷却硬件。仅单颗英伟达GB200芯片,运行功率就达1200瓦,日耗电28.8千瓦时。这大致相当于一个美国家庭的日均用电量(按全年总消耗量换算)。仅仅一颗芯片。但这还不是我们的痛点所在。
      
      由于焦耳热效应(这是芯片在基本物理层面运行时不可避免的结果),芯片几乎会将其消耗的全部电能转化为热量。因此,那颗GB200芯片同样会散发1200瓦的热量。理论上,这些热量在一小时内足以烧开超过50杯水。再次强调,这仅仅是一颗芯片。
      
      现在,想象一下大型AI数据中心那样,成千上万甚至数十万颗这样的芯片堆叠在机架上。若不进行干预,xAI公司拥有22万块GPU、功耗达300兆瓦的Colossus1数据中心,其产生的热量足以在一小时内将78.5万平方英尺(约7.3万平方米)空间内的温度加热到1200°C(2192°F),比熔岩还要炽热。这就是为什么冷却对于数据中心运营至关重要,且没有商量余地。而冷却系统本身需要耗电。
      
      “冷却已成为计算机芯片设计中的瓶颈,”该论文第一作者、机械工程师贝赫努德·巴兹米表示,“通过弥合计算设计与制造能力之间的鸿沟,我们的方法为芯片及其他电子设备实现更节能的液体冷却提供了途径。”
      
      传统上,数据中心依赖空气冷却来防止计算机芯片过热。在这些系统中,金属散热片直接安装在CPU和GPU上,使热量扩散到薄金属翅片上,再由强力风扇吹走热量。这种方法耗电巨大,因为设施需要为多个大型空气处理机组供电。此外,现代AI加速器产生的热量水平,正让传统空气冷却越来越难以高效应对。
      
      因此,较新的系统正转向基于液体的直接芯片冷却方案,即直接将金属“冷板”安装在处理器上,冷却液流经冷板内部微小的通道。芯片的热量传递到金属板,然后被循环液体带走,其效率远高于空气。
      
      传统冷板在市面上已有销售,但其内部翅片和流体通道通常围绕制造简便性而非最大热性能进行设计,常采用相对简单的矩形或圆柱形几何结构,并使用铝合金或不锈钢等材料。
      
      研究人员的解决方案解决了现有技术的两个关键方面:材料和翅片设计。在一种名为拓扑优化的技术中,研究人员使用数学优化算法,将微小的内部翅片结构从传统的矩形或圆柱形彻底重塑为更复杂、锯齿状且尖锐的形状,以最大化热传递和热性能,同时最大限度地减少推动冷却液通过冷板所需的泵送功耗。
      
      由于他们得到的复杂几何形状难以用传统方法制造,团队采用了一种先进的增材制造技术——电化学增材制造(ECAM)来逐层构建结构。他们选用了纯铜,这种材料因其极高的导热性而备受青睐,但使用传统的3D打印方法又极难将其制造成高精度的复杂形状。这也是选择ECAM路线的另一个原因。
      
      “ECAM可以制造出细节非常精细的纯铜部件,精度可达30至50微米,比人的头发丝还细,”资深作者、机械工程师内纳德·米尔科维奇表示。
      
      研究人员报告称,在液体冷却中,他们优化后的铜冷板比传统冷板散热性能提高了32%,同时压降降低了68%,这意味着推动冷却液流过系统所需的能量显著减少。两者结合,转化为巨大的节能效果。
      
      在以空气冷却仍占主导地位的数据中心规模上,团队估计,一个1吉瓦(GW)容量的设施若使用传统空气冷却,仅冷却基础设施就需要额外约550兆瓦(MW)的电力。相比之下,他们优化的液体冷却方案可将冷却能耗降低至约11兆瓦。换言之,冷却能耗可从数据中心总能耗的约30%-35%骤降至接近1.1%,降幅超过95%,同时仍能有效消散现代AI硬件产生的极端热量。
      
      如果这些预测能在真实超大规模数据中心得到验证,其对数据中心能效的影响将是巨大的。千家网据悉,研究人员的数据换算成电能使用效率(PUE)约为1.011,这意味着从电网获取的几乎每瓦电力都直接用于计算,而非冷却开销(此数据假设其他辅助基础设施消耗可忽略不计)。作为参照,理想数据中心的PUE为1.0,即没有任何能源浪费在冷却、泵机、照明或其他辅助设施上的理论极限。目前全球最先进的超大规模数据中心PUE通常在1.1到1.3之间。在AI级计算密度下达到接近1.01的水平,将代表着设施效率极高,已接近现代热工程的实践极限。尽管如此,研究人员关于整个数据中心能耗的数据仍然是基于模型的预测,而非来自运行中的吉瓦级实际部署的验证结果。但如果该技术按预期扩展应用,它将能显著降低AI热潮中最大的隐性能源成本之一。
      
      研究人员相信,他们的这种方法(涵盖设计优化和制造技术)可适用于电子设备及其他领域广泛的冷却应用。
      
      编辑:Harris
      
      

    该技术直接回应了当前芯片设计中的“散热瓶颈”问题,为AI硬件持续堆叠算力扫清了热管理障碍。若大规模商业化验证成功,将极大降低AI行业高昂的运营成本和环境负担。