咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
设为首页 | 收藏本页
为AI时代重塑数据中心
  • 随着人工智能(AI)浪潮席卷全球,GPU成为了引领行业前行的主导力量;然而,数据中心却因此陷入了困境——有些中心难以满足产品上市周期的时效要求,另一些则为此付出了高昂的代价。
  • 有时变革来得如此迅猛,让人难以跟上步伐;我们必须做出调整与妥协,否则便将面临重重阻碍。随着人工智能(AI)浪潮席卷全球,GPU成为了引领行业前行的主导力量;然而,数据中心却因此陷入了困境——有些中心难以满足产品上市周期的时效要求,另一些则为此付出了高昂的代价。
      
      若回溯至数年前,抑或仅将其与当今标准的高性能计算(HPC)负载进行对比,我们便能清晰地察觉到在AI基础设施建设方面存在的巨大差异。尽管传统的20至30千瓦(kW)级配置性能不俗,但在面对当下的AI工作负载时,已显得力不从心。
      
      为何当今的数据中心正逼近其极限?
      
      随着备受瞩目的最新款B200系列(即GB系列)面世,单机柜功耗已飙升至100至130千瓦;与此同时,全球正掀起一场竞速赛,旨在追赶并达到全新的行业标杆——即高达600千瓦的“RubinUltra”级标准。如今,我们所面临的负载密度已高达每平方米20至600千瓦——这本质上相当于将一座原本需要15至20兆瓦(MW)供电能力的数据中心,强行压缩进了仅仅1000平方米的机房空间之中。
      
      从房地产或环境的角度来看,这似乎是一种积极的转变。但它同时也带来了严峻的工程和运营挑战——这些难题正让运营和项目团队夜不能寐。以下便是其中的一些挑战:
      承重压力或泄漏风险:
      
      对于100千瓦的机柜而言,其建议的地面承重标准为每平方米200至300公斤。这意味着,要设计出能够支撑如此重量的垂直管道(立管)绝非易事。因此,作为一种权宜之计,冷却管道往往被安装在地面上方或机柜上方。但这并非一种具有长期适用性和灵活性的解决方案。解决一个问题往往会引发另一个问题,从而使得维持数据中心的正常运行时间(Uptime)成为一项真正的挑战。
      数据中心扩建:
      
      随着基础设施密度的不断提升,大型数据中心已无法充分挖掘土地资源的利用潜力。人们或许会想当然地认为,这意味着在更小的占地面积内实现了更高的部署密度——但事实并非如此。政府法规以及电气工程方面的技术瓶颈,对单一站点所能承载的供电容量设定了上限。在我看来,数据中心的“土地利用效率”正呈现出日益下滑的趋势。
      项目规划:
      
      如今的数据中心需要具备强大的机械和土建基础设施,以确保能够支持各类解决方案。然而,若要针对宽泛的容量负载范围进行通用化设计,从经济角度来看并非理想之策。这不仅会导致预算大幅攀升,还会使投资回报率(ROI)变得充满变数——尤其是当低容量部署项目占据了原本专为高规格需求而打造的空间时,这一问题尤为突出。
      硬件淘汰:
      
      硬件设备的迅速过时,使得项目规划工作变得愈发棘手。鉴于各类系统设备的生命周期往往仅为两到三年,数据中心在应对前述各项挑战的同时,还要疲于应对硬件更新换代带来的压力。更为糟糕的是,新一代系统往往无法与旧有系统实现兼容,这就意味着旧设备既无法被回收利用,也无法通过改造继续服役,从而造成了资源的极大浪费。
      
      重新审视数据中心技术栈
      
      鉴于上述种种挑战,如今正是时候对典型数据中心的四大支柱进行重新思考与架构重塑:
      通信:
      
      未来的数据中心网络将呈现极高的密度。每一个NVIDIASuperPod系统可能就需要消耗长达22公里的光纤线缆。可以预见,未来将出现单机柜大小的“侧挂单元”(Sidecar),而一块采用72层PCB工艺的Rubin主板上,甚至可能密布多达5000根线缆。您的“互联接入室”(Meet-Me Rooms)是否已做好准备来承载这种高密度需求?
      电力:
      
      电力是任何系统的命脉所在。如今的机柜正朝着集成式电源的方向演进,而数据中心的电力架构也正突破传统的N或2N配置模式。现代系统往往需要采用奇数个连接点,这使得冗余设计变得难以预测——无论涉及的是PDU(电源分配单元)、母线槽、ATS(自动转换开关),还是N(x)冗余变压器。
      架构:
      
      每一次迭代更新都会带来新的变化:线缆出线布局、冷却液管网铺设、以及承重结构考量等。每一个组件都必须被纳入考量范畴,且任何单一组件的故障都不应波及系统的其余部分。数据中心必须具备极高的灵活性,能够在无需进行大规模重新设计的前提下,顺畅地从高性能计算(HPC)环境扩展至下一代人工智能(AI)应用场景。
      机械:
      
      能够承载未来两三百公斤甚至更重负荷的垂直立管(Risers);用于容纳海量电力线缆与网络线缆的设备夹层空间(Plenum);以及为大规模冷却基础设施预留的安装余地——这些都是项目团队日常面临的严峻挑战。物理工程设计的每一个细节都必须经过深思熟虑,确保所有的机械结构要求均能得到全面满足。
      
      
      编辑:Harris
      
      

  •