AI数据中心的运营将给电力输送和热管理带来前所未有的巨大变革。这是否意味着工程师们如今不仅要应对已知的挑战,还要兼顾那些“未知的未知”?从某种意义上说,答案是肯定的;不过,在组件层面究竟需要满足哪些具体需求,其轮廓正变得日益清晰。
那些负责在电力消耗急剧增长的环境下设计电源拓扑结构和冷却系统的资深工程师们,正积极迎接机架密度提升和液冷技术带来的各项挑战。首要的难题在于:电源设计如何去适应那些功耗高达1200W甚至更高的服务器高性能GPU芯片组?同时,又如何在电力和散热方面预留足够的余量,以支持那些目前运行速度已达400Gbps(且很快将突破800Gbps甚至更高)的网络设备——要知道,这些设备可能会导致局部温度骤升20°C之多?
关于微处理器与网络
让我们先从芯片谈起。所有的处理器(包括GPU、CPU和TPU)在性能评估时,通常都以性能指标与总体拥有成本(TCO)作为衡量标准。具体到AIGPU架构,其性能通常以每瓦功耗所能实现的TFLOPS(万亿次浮点运算)或PFLOPS(千万亿次浮点运算)来衡量。若以单颗GPU的功耗来看,英伟达(Nvidia)旗下的HopperH100、H200以及BlackwellB100芯片的功耗均为700W。而英伟达最新推出的BlackwellGPU架构——例如近期发布的B200和GB200NVL72——其功耗更是分别高达1000W和1200W。据英伟达介绍,其NVLink交换技术能够为每颗GPU提供高达1.8TB/s的突破性双向吞吐量,从而确保在处理最复杂的超大规模语言模型(LLM)时,多达576颗GPU之间依然能实现无缝的高速互联与通信。
当我们将这一规模扩展至数千甚至数万颗芯片,并将它们以集群形式部署在机架中并接入相应的交换设备时,我们便能直观地感受到其所需的电力密度与整体规模之庞大。这也顺理成章地引出了下一个话题——散热:从英伟达发布的GPU产品路线图来看,采用液冷技术已然成为唯一的选择,别无他途。英伟达首席执行官黄仁勋(JensenHuang)曾这样描述道:“冷却液以每秒两升的流速、25°C的初始温度流入机架,流出时其温度已升高了20°C。”那么,这些巨大的热量最终又将何去何从呢?
另一家值得关注的芯片设计商是Google。Google不仅是Nvidia的客户,还拥有自研的TPU芯片,并与ARM合作进行设计。作为服务提供商,Google正将其自研的TPUv5p技术部署在其数据中心内的“计算舱”(pods)中,并基于此提供相关服务。此外,Google还宣布TPUv5p现已全面开放,可用于训练大型AI模型。
在网络层面,Google部署的这些计算舱采用了名为“Jupiter”的交换技术。该技术基于OCS(光电路交换)网络架构构建,据称其能耗较此前的网络设计降低了40%。然而,这也带来了严峻的设计挑战。
Google在其数据中心内采用了液冷技术。目前尚不清楚具体产生了多少热量。但在一篇详述该设计的论文中,Google的研究人员写道:“超大规模数据中心仍面临[两项]主要挑战。首先,数据中心网络必须以整栋建筑为规模进行部署——其基础设施规模可能达到40兆瓦(MW)甚至更高。数据中心网络必须具备动态演进的能力,以跟上不断接入的新增组件的步伐。”
结论
在数据中心的供电与散热领域,那种“一刀切”的通用解决方案已不复存在(如果它曾存在过的话)。上述案例仅仅展示了在飞速演进的AI基础设施世界中,供电与散热设计所涉及的部分考量因素。
新型AI工作负载正将系统推向性能极限,其主要原因在于GPU和TPU在执行高强度AI计算任务时会产生高度集中的热量。这不仅挑战了现有散热基础设施的有效性,还可能引发过热问题,进而缩短硬件的使用寿命。为此,数据中心通常会部署多种散热技术,例如风冷、液冷,或将两者结合使用。
然而,技术变革的加速正促使商业数据中心运营商加快步伐,积极为AI时代的到来做好准备。这意味着在设计机械系统时,必须预留空间以支持某种形式的液冷方案,例如后门热交换器(RDHX)或直达芯片(DTC)的液冷系统。
在很大程度上,具体需要何种散热方案,取决于所部署的GPU型号及其配置方式。如果针对最新及未来的GPU型号进行基础设施建设——尤其是那些单颗功耗高达1200瓦的型号——那么某种形式的直达芯片液冷技术将毫无疑问成为必不可少的配置。对于数据中心设计师而言,问题便转化为:我该如何应对这一挑战——即设计出具备高度灵活性、既能适应当前已知的GPU、网络及存储架构,又能兼容未来将在机房空间内部署的各类潜在配置的电源拓扑与散热方案?此外,我们又该如何为那些尚未问世的未来架构做好准备?
编辑:Harris
