咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
数据中心真的可以扩展吗?
  • 过去几年人工智能热潮的背后是一场不为人知的战争,数据中心竞相跟上前所未有的电力消耗。
  •  过去几年人工智能热潮的背后是一场不为人知的战争,数据中心竞相跟上前所未有的电力消耗。
      
      问题很明显,推动人工智能突破的GPU需要大量能源并产生大量热量。
      
      以Nvidia的GB200NVL72为例,它包含72个GB200GPU和36个GraceCPU,但由于原始配置过热,它被迫进行机架重新设计。
      
      与此同时,全球数据中心的能源消耗持续攀升,占全球总用电量的1.5%。到2030年,预计仅美国数据中心就将消耗该国总电力的8%左右,并需要高达500亿美元的公用事业投资。
      
      这种不断升级的需求提出了一个重要问题:我们的基础设施和资源能否跟上?像微软这样的公司正在探索大胆的替代方案,例如利用核反应堆。尽管采取了许多创新方法,但电网仍难以满足日益增长的数据中心需求,而雄心勃勃的项目也面临长期延误和高成本超支的问题。
      
      人工智能驱动的数据中心面临的挑战
      
      随着人工智能工作负载的增长,数据中心面临的挑战也在增加。能源需求不断上升,对高性能GPU等关键组件的竞争日益激烈,使供应链风险加大。土地稀缺,特别是在电力和基础设施空间有限的地区,进一步加剧了这一努力。
      
      同时,人工智能训练的周期性在计算和内存密集型任务之间波动,产生传统冷却方法无法控制的波动热应力。因此,用于保持所有冷却解决方案功能接触的液体冷却和创新热界面材料(TIM)等尖端解决方案不再是一种选择。它们是必不可少的。
      
      然后,公司面临着一项艰巨的任务,即在管理运营成本的同时快速大规模部署新的冷却技术。然而,这些升级可能会对环境产生影响,冷却系统每天消耗数百万加仑的水,全球水资源短缺使这个问题变得更加紧迫。
      
      为了应对这些相互关联的挑战,数据中心必须在可扩展性和可持续性之间取得平衡,确保为工程师和企业提供可靠的性能,并按预算和时间交付产品,同时减少对环境的影响。
      
      创新的冷却解决方案
      
      采用创新的、可扩展的冷却解决方案,无缝集成到数据中心是克服这些挑战的关键。
      
      传统的全液体热界面仍然是一个障碍,因为它们往往无法提供所需的可靠性和性能。作为回应,闭环液体冷却系统等新兴解决方案正在获得关注,有望减少水消耗,同时提高系统冷却的热裕度,以克服由于大型弯曲芯片而导致的界面温度升高。
      
      或者,像Meta这样的公司通过使用先进的冷却技术(例如吸入外部空气进行温度调节、蒸发冷却和加湿系统),实现了全机队1.10的电源使用效率(PUE),而行业平均水平为1.58。然而,随着芯片功率密度的上升和外部空气冷却的理想气候变得越来越难以获得,保持这样的效率水平将带来越来越大的挑战。
      
      我们知道可靠的高性能冷却始于界面,先进的TIM正在取代传统选项,以满足当今大规模下一代冷却系统的需求。例如,碳基TIM因其出色的导热性和耐用性以及将平面连接板连接到曲面芯片并在整个设备运行范围内保持接触的能力而迅速受到青睐。这些创新可确保运行连续性、提高效率并减少对环境的影响。
      
      可持续冷却为何重要
      
      可持续冷却解决方案具有诸多优势,包括延长硬件使用寿命、降低维护费用以及防止因长时间停机而造成的收入损失。在高负荷工作下,GPU的使用寿命通常为三到五年,如果冷却得当,其使用寿命可延长60%以上。
      
      此外,由于热量占所有故障的近一半,有效的冷却可以将维护需求减少高达50%。数据中心依靠模块化和可靠的冷却系统来实现近乎完美的正常运行时间(99.995%或更高)。即使是短暂的中断也可能导致金融或医疗保健等高风险行业遭受重大损失。
      
      从环境角度来看,可持续技术通过最大限度地减少冷却能耗来帮助降低碳足迹。热再利用系统可以捕获和重新利用数据中心的废热,例如利用这种热量为附近建筑物供暖的设施,这进一步加强了可持续发展工作。这些举措与更广泛的可持续发展目标相一致,有助于降低碳足迹并促进节能。
      
      可持续的冷却解决方案通过增强热传递和承受现代芯片的机械应力,正在改变数据中心的未来。这些创新可确保一致的性能、延长关键组件的使用寿命,并有助于防止代价高昂的停机或数据丢失。
      
      可持续冷却的未来
      
      冷却创新的发展带来了意想不到的挑战。尽管如此,在平衡性能与可持续性方面所获得的经验教训对于那些应对人工智能驱动基础设施的高风险需求的人来说是无价的。
      
      在未来五到十年内,使用碳基材料的热管理解决方案将承受GPU不断增加的功率密度,并保持性能、卓越的导热性和耐用性。
      
      然而,这些材料的制造也必须是可持续的和可扩展的,以避免在电池中使用石墨时出现的供应链挑战。数据中心还必须通过整合微电网和本地可再生能源(如核能、水力发电和太阳能)来适应。合作伙伴关系的透明度和利益相关者的参与将确保这些解决方案的可扩展性和长期可持续性。
      
      随着人工智能继续塑造未来,数据中心行业必须应对平衡电力和热需求的挑战,所有这些都不能损害他们的底线或地球资源。迈向更环保、更高效的未来的旅程才刚刚开始,今天做出的决定将决定未来的基础设施。
      
      
      编辑:Harris
      
      

  •