咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
设为首页 | 收藏本页
为AI热潮降温:节水型可持续数据中心的创新策略
  • 虽然高密度计算常常给人一种难以捉摸的感觉,但现代人工智能却依赖于大量的电力、硅芯片以及专用的人工智能数据中心冷却基础设施。每一个快速的聊天机器人回复或每一个复杂的人工智能生成图像的背后,都隐藏着一个物理设施,其中布满了高密度服务器机架,它们不断地将电力转化为热量。
  • 虽然高密度计算常常给人一种难以捉摸的感觉,但现代人工智能却依赖于大量的电力、硅芯片以及专用的人工智能数据中心冷却基础设施。每一个快速的聊天机器人回复或每一个复杂的人工智能生成图像的背后,都隐藏着一个物理设施,其中布满了高密度服务器机架,它们不断地将电力转化为热量。
      
      通常情况下,这种热能会通过蒸发逸散到大气中,而蒸发过程会从当地流域带走水分。当蒸发成为主要的冷却机制时,水分就会实际离开当地流域,从而将数字过程转化为对当地生态系统的实际影响。
      
      冷却塔通过蒸发水来散热,并通过排污来控制矿物质沉积。这意味着水资源并非简单地被“借用”,而是被计入当地的用水量统计中。随着人工智能工作负载的不断增长,为其提供冷却的基础设施已成为各地社区面临的一项重大可持续发展挑战。
      
      国际能源署最新发布的《能源与人工智能》分析报告预测,2024年全球数据中心用电量约为415太瓦时,并在基准情景下预测到2030年可能接近945太瓦时。人工智能工作负载的快速增长迫使基础设施设计应对新的、严峻的可持续性挑战。
      
      这场辩论已经从简单的用水问题演变为关注保护当地供水所需的具体机械策略。
      
      为AI热潮降温:节水型可持续数据中心的创新策略
      
      AI数据中心冷却、用水及其对本地供应的影响
      
      关于AI数据中心冷却、用水和能源影响的简要事实
      
      分析现代基础设施庞大的运营规模,就能明白为什么可持续性指标如今已成为工程团队关注的核心。一些关键指标和预测数据表明,这些设施正经历快速增长,并产生巨大的环境影响。
      
      根据国际能源署的数据,2024年全球数据中心消耗了约415太瓦时的电力,在基本情景下,到2030年这一数字可能达到约945太瓦时。
      
      根据劳伦斯伯克利国家实验室的分析,美国数据中心在2023年使用了约176太瓦时,到2028年可能会上升到325至580太瓦时。
      
      冷却塔通过蒸发水来去除热量,并通过排污释放额外的水,这意味着水是被消耗而不是循环利用的。
      
      水资源利用效率(WUE)衡量的是年度站点用水量除以IT设备能耗。
      
      水资源使用影响(WUI)根据当地的水资源压力情况调整用水总量。
      
      在高效的超大规模设施中,冷却约占能源开销的7%,而在优化程度较低的设施中,冷却可能超过30%,正如皮尤研究中心关于美国数据中心的简报中所指出的那样。
      
      以指标为导向的洞察为评估快速技术进步与资源可用性之间的矛盾提供了关键基准。精确的数据确保可持续发展方面的讨论始终立足于工程现实。这些数据使各方能够摆脱猜测,做出更实际的决策。
      
      生活在干旱地区的家庭往往觉得蒸发水的概念很抽象,直到当地规划委员会的会议让他们切身感受到这个问题。决定当地碳足迹的,不仅仅是人工智能模型,还有制冷系统的设计。
      
      保持AI冷却的隐性用水成本
      
      数据中心是发热机器
      
      数据中心虽然常被视为密封的保险库,但其主要功能是作为庞大的热力学系统运行。电力流入处理器,处理器产生热量,而这些热量必须持续散发,以避免设备故障。
      
      蒸发和风力:水为什么会消失
      
      在传统的蒸发冷却系统中,服务器产生的热量传递给水。然后,水在冷却塔中通过蒸发一部分热量进入大气进行冷却。相变蒸发则能有效地将服务器产生的热量散发到周围大气中。运营商会定期排放二次水(称为排污),以防止冷却回路中矿物质积聚,这遵循了美国能源部关于数据中心冷却水效率提升的指南。
      
      水资源具有地域性:为什么地理位置会改变其影响
      
      蒸发是指水不会在原地或同一时间返回流域,而是以水蒸气的形式散失。在地下水补给有限的地区,这会对当地造成可衡量的影响。
      
      UptimeInstitute提醒我们,水资源具有地域性,这意味着不能对所有设施的水资源影响一概而论。在水资源丰富的地区可行的冷却设计,在水资源紧张的地区可能造成压力。当社区提出类似语音搜索的简单问题时——例如:数据中心是否使用地下水进行冷却?——这种区别就显得尤为重要。
      
      运行数据证实,地下水的使用取决于当地的供水安排,冷却方法和气候决定了具体的消耗量。
      
      人工智能增长为何加剧降温权衡?
      
      随着人工智能工作负载的扩大和功率密度的提高,制冷需求与电力需求同步增长,这有助于解释为什么人工智能基础设施正成为智慧城市电网规划的关键组成部分。国际能源署指出,制冷可能占能源消耗的很大一部分,尤其是在优化程度较低的设施中。电力和水之间的关联是可持续发展挑战的核心所在。
      
      冷却:方法与效率权衡
      
      构建可持续的人工智能基础设施需要对机械冷却系统进行深入分析。每种方法在用水量、能源效率和区域适用性方面都各有优劣。
      
      空气管理和控制
      
      通过合理控制气流,将暖排气与冷进气分离,可以立即提高效率。热通道和冷通道隔离策略能够将暖排气与冷进气隔离,减少混合,从而降低额外冷却需求。在设施硬件升级之前,通过优化气流和暖通空调系统策略降低冷却需求,可以显著提高效率,相关研究已有大量文献证实了这一点。
      
      实施气流控制是降低冷却成本的有效切入点,无需对整个工厂进行重新设计。设施团队通过有针对性的运行改进,可以显著降低能耗:
      
      调整服务器布局以消除热点。
      
      密封电缆开口和地板穿孔处,防止空气泄漏。
      
      将送风温度提高到安全运行范围内。
      
      这些改进措施为设施专家推崇的精准控制方法奠定了基础。湿度控制是一个容易被忽视的能源陷阱。当设定值过于严格时,制冷机组会陷入低效的空调制冷循环,浪费电力,却无法提高可靠性。
      
      一位设施工程师曾将这种挑战比作给房间降温与给机器降温之间的区别。精准控制仍然是确保能源用于硬件保护而非机械冲突的最有效方法。空气管理虽然无法完全消除蒸发系统中的水资源消耗,但可以显著降低这些塔架的机械负荷。
      
      空气侧和水侧节能器
      
      节能系统利用室外环境条件来绕过高能耗的机械制冷。通过以下两种主要策略,利用环境条件可以显著降低机械制冷负荷:
      
      空气侧节能器:当温度和湿度允许时,利用空气侧节能器直接引入过滤后的室外空气。
      
      水侧节能器:部署水侧节能器,利用热交换器冷却设施回路,而无需启动耗能巨大的压缩机。
      
      空气侧节能器可以显著降低寒冷气候下的能源消耗。然而,这些系统并非自动具备节水功能。关于制冷能耗降低的搜索查询中,节能器经常被提及。然而,这些系统并非自动具备节水功能。
      
      蒸发式冷却塔
      
      蒸发式冷却塔利用潜热的强大物理特性,能够实现很高的散热率。但其根本的代价是耗水量。据美国能源部称,水的损失途径包括蒸发、排污和少量漂移。增加浓缩倍数仍然是降低总补水需求量的有效方法。
      
      在干旱流域,对排污管理进行精准改进可显著节约资源。自动化排污回收系统展示了改造如何在减少水资源浪费的同时,将化学成分控制在合理范围内。蒸发式冷却塔通常能效高但耗水量大。这种双重特性使其成为任何关于可持续数据中心冷却讨论的核心。
      
      为AI热潮降温:节水型可持续数据中心的创新策略
      
      混合式干湿系统
      
      混合式制冷系统力求平衡水和能源消耗。在气温较低时,它们以干式模式运行;在气温高峰期,则切换至蒸发式模式。与纯蒸发式制冷系统相比,这种混合式系统既能降低总用水量,又能避免在炎热气候下纯干式制冷带来的高额电费。
      
      混合系统的可持续性表现取决于气候、负荷曲线和运行策略。具体情况决定了每个设施的理想解决方案。这些系统在仅在特定季节出现高温的地区尤为重要。
      
      液冷和直接芯片系统
      
      随着人工智能功率密度突破传统风冷极限,先进的液冷架构标志着散热管理方式的转变。诸如开放计算项目(OCP)的冷却环境倡议等行业组织正在推动这些方法的标准化。这种转变体现在百亿亿次级超级计算机和高密度集群的出现上,在这些系统中,散热不再是原始计算性能,而是瓶颈所在。
      
      硅级冷却剂分配使运营商能够实现关键的可持续性和性能目标:
      
      与空气式系统相比,散热效率显著提高。
      
      大幅减少设施运行所需的冷空气量。
      
      整合闭环设计,消除持续的蒸发性水分损失。
      
      能够支持超过传统10兆瓦限制的高密度AI集群。
      
      部署液态基础设施使运营商能够在扩展计算能力的同时,保持可预测的环境足迹。标准化这些液态路径可确保设施在升级硬件时无需重新设计散热管理策略。下一代设施越来越依赖这种方法,尤其是在那些对散热管理要求极高的专用高密度芯片舱中。
      
      浸没式冷却
      
      在这些系统中,特殊的浸没式冷却技术使服务器能够浸入液浴中直接吸收热量。加热后的液体将热量传递到辅助回路,该回路可以连接到干式冷却器、混合系统或其他散热方式。
      
      浸没式冷却系统可以减少对传统空气处理的依赖,并且根据设施设计,可以显著降低用水量。最终的散热方式和能源来源决定了整体的可持续性。
      
      可持续制冷创新:首先部署什么
      
      设计一座节水型人工智能数据中心并非依靠单一突破,而是需要巧妙地循序渐进地进行改进。
      
      从低成本气流优势入手
      
      优化设施气流和密闭性是降低数据中心PUE和WUE的首要步骤。这些措施能够以最小的成本降低能源和用水需求,并得到了能源之星和联邦机构的既定指导。
      
      在气候条件允许的情况下,使用节能器和自然冷却。
      
      其次,在气候条件允许的情况下部署节能器。较冷的地区可以利用室外空气或水冷来减少冷水机组的运行时间,从而降低电力需求。
      
      减少塔式冷却系统中的水损
      
      第三,如果使用蒸发冷却塔,则应改进水管理。增加浓缩循环次数并采用排污回收技术可以显著降低耗水量。热虹吸冷却器混合系统试验平台表明,将干热排放与冷却塔相结合,可以在不牺牲可靠性的前提下减少现场用水量。
      
      第四,在缺水地区过渡到混合干湿散热系统,以减少中等条件下的蒸发。
      
      转向液冷和闭环系统以提高人工智能密度
      
      通过采用液冷或专用芯片级冷却系统,可以扩展至高密度人工智能集群。微软曾报道过一种用于下一代数据中心设计的零水冷方案,该方案通过使用闭环冷却系统完全避免了水的蒸发,这些冷却系统只需加注一次即可持续循环。不过,微软也指出,在某些气候条件下,用全机械式冷却系统取代蒸发式冷却系统可能会增加能源消耗。
      
      将废热转化为有用资源
      
      整合先进的余热再利用方案,将热能副产品转化为社区能源资产。谷歌位于芬兰哈米纳的数据中心冷却系统采用海水冷却,并接入区域级热回收项目,将多余的热能输送到本地电网。这表明,废热可以成为社区资源,而不是被丢弃的副产品。
      
      参加当地规划会议的居民发现,全蒸发式冷却塔和闭环液体冷却系统之间的区别并非抽象的工程争论。这可能意味着持续抽取地下水和主要依靠电力供应来承担用水负担之间的区别。
      
      人工智能制冷的未来很可能融合这些策略。可持续设施会最大限度地减少用水量,透明地报告诸如用水效率(WUE)和用水城市间相互作用(WUI)等指标,并使制冷设计与当地环境实际情况相符。
      
      为AI热潮降温:节水型可持续数据中心的创新策略
      
      零水蒸发和基于自然的散热器解决方案
      
      循环式或闭环式冷却:零水蒸发的工作原理
      
      闭环冷却的通俗解释
      
      零水冷却是一种工程方法,它通过循环固定体积的冷却剂来避免持续蒸发。所有冷却系统都使用导热流体。其机械差异取决于水是蒸发到大气中还是在密封回路中循环。
      
      在闭式冷却系统中,水或冷却剂被注入密封回路并持续循环。服务器产生的热量传递到该回路,然后通过干式冷却器或其他非蒸发式系统排出。由于该系统不依赖蒸发散热,因此不会持续消耗水。
      
      零蒸发水会带来哪些变化
      
      下一代数据中心架构采用芯片级液冷设计,彻底消除蒸发冷却。微软重点介绍了一种零水冷方案,该方案利用芯片级液冷和闭环系统,避免了水的蒸发,这些系统只需一次加注即可重复使用。微软还指出,在某些气候条件下,完全机械冷却会增加能源消耗。
      
      社区对水-能源权衡的真实感受
      
      监测地下水枯竭的社区认为,这种区别对当地资源管理至关重要。蒸发式冷却塔会从当地循环系统中抽取水。闭环系统则将负担转移到电力生产,而不是淡水抽取。这种在节水和能源效率之间的权衡,既是一个工程问题,也是一个政策问题。
      
      干旱地区的居民起初可能分不清蒸发式冷却和闭环式冷却的区别。但一旦解释说一种设计会持续消耗水,而另一种设计则主要增加电力需求,谈话的内容就会迅速改变。
      
      自然界是如何降温的,以及为什么它突然变得正常了。
      
      当地理成为冷却基础设施
      
      在气候和地理条件适宜、拥有天然散热器的地区,环境冷却策略的效率最高。这些地区使运营商能够完全绕过高能耗的机械冷却器。天然散热器是使人工智能基础设施与当地环境物理特性相适应的最直接方式。
      
      在芬兰等沿海地区,越来越多的设施利用海水进行冷却,这种转变的许多最引人注目的例子都涉及在极端地点最大限度地提高效率,在这些地方,运营商将环境视为基础设施。
      
      热能再利用和区域供热
      
      热回收协议将废热转化为共享基础设施,从而提升设施的整体循环利用率。设施不再将热能排放到大气中,而是可以与区域供热系统对接,减少对化石燃料建筑供暖的需求。这种从废热到共享基础设施的转变体现了可持续城市更广泛的设计理念。
      
      实际上,这意味着附近公寓楼冬季的部分供暖可能由用于训练人工智能模型的服务器提供。对居民而言,这一概念变得触手可及:楼宇保持温暖,服务器保持凉爽。系统从剥削转变为互惠互利。
      
      这种方法最适用的场景
      
      在气候和地理条件有利于自然散热的地区,环境冷却策略的效率最高。虽然这些策略并不能取代精心的设计,但它们表明,冷却并非总是需要大规模的水蒸发。
      
      为AI热潮降温:节水型可持续数据中心的创新策略
      
      社区参与指南:确保数据中心开发的透明度
      
      如果您社区正在建设数据中心,以下是一些实用的核对清单。
      
      冷却和水问题
      
      当拟在当地流域建设新的数据中心时,技术咨询有助于澄清社区的担忧。如果居民能够利用一份结构化的技术问题清单来阐明设施的影响,那么参与讨论的效果会更好。
      
      将采用哪种冷却方式?主要是蒸发冷却、混合冷却还是闭环液体冷却?
      
      预期用水效率是多少?将如何向公众公布?
      
      该设施是否会披露其用水量对当地水资源压力的影响?
      
      市政供水、再生水和地下水的使用必须根据当地流域内的区域水风险进行评估。
      
      能源、热能再利用和报告问题
      
      是否有通过区域供热或工业一体化实现热能再利用的计划?
      
      可再生能源配额将如何分配?是按年度配额分配,还是按小时设定无碳目标,还是两者兼而有之?
      
      运营商是否会发布透明的可持续发展报告,以便进行独立评估?
      
      带着这些问题,社区成员不再情绪化地做出反应;他们会认真对待人工智能基础设施的工程现实。
      
      真正的可持续发展胜利
      
      由于冷却塔的设计原理是蒸发水,因此人工智能基础设施的可持续性取决于机械工程设计与当地资源限制的匹配程度。这一热力学事实构成了围绕人工智能基础设施可持续性争论的根本基础。
      
      在最关键的领域设计能够减少水资源消耗的系统才是真正的制胜之道。为了实现这一目标,一些成熟的技术正在被纳入超大规模设计的主流:
      
      ·闭式循环液冷。
      
      ·混合式散热系统。
      
      ·空气侧和水侧节能器。
      
      ·工业余热再利用策略。
      
      这些不再是边缘实验。硬件瓶颈,例如CoWoS高级计算封装瓶颈,会引发基础设施需求的突然激增。冷却升级正日益成为现代超大规模设计的常规组成部分。
      
      随着人工智能日益融入日常生活,支撑其运行的物理系统的可持续性将决定人工智能是被视为榨取型还是适应型。技术本身并非问题所在,冷却和能源方面的设计选择才是决定其影响的关键。
      
      编辑:Harris
      
        
      

     

  •