咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
液冷技术在AI数据中心的应用分析
  • 然而,空气冷却需要消耗大量能源的机房空调和持续运转的服务器风扇。为了降低运营成本(OPEX),液冷却成为机房空调(CRAC)的一种可行替代方案。随着每一代CPU和GPU新产品产生更多热量,液体冷却技术在未来的应用将越来越广泛。
  • 一、AI数据中心的液冷解决方案
      
      随着中央处理器(CPU)和图形处理器(GPU)的性能持续提升,它们在运行过程中产生的热量也在不断上升。虽然每瓦特性能(即每秒操作数)有所提高,但是新一代服务器的密度也在增加,这些服务器配备了多个CPU和最新一代的GPU。
      
      风冷,即通过吹送较冷空气来冷却发热的CPU和GPU,其效果依赖于进入服务器的空气温度和流经热芯片的空气量。为了确保CPU在设计的温度范围内运行,进气温度和风扇的空气移动能力(CFM)成为维持服务器按预定时钟速率运行的关键。
      
      然而,空气冷却需要消耗大量能源的机房空调和持续运转的服务器风扇。为了降低运营成本(OPEX),液冷却成为机房空调(CRAC)的一种可行替代方案。随着每一代CPU和GPU新产品产生更多热量,液体冷却技术在未来的应用将越来越广泛。
      
      1.服务器冷却面临的挑战
      
      当前,在服务器中使用的最先进CPU的最大热设计功率可达到400瓦。而最新的GPU运行时功率可高达700-1000瓦。因此,一个配置了2个CPU和8个GPU的系统,仅针对CPU和GPU的冷却,就需要超过8千瓦的冷却能力。CPU制造商通常会明确指出,为了冷却特定瓦特数的CPU(GPU同理),需要多少空气流量,这一流量是以立方英尺每分钟来衡量的。
      
      2.为何采用液体冷却
      
      目前,许多服务器的功耗超过了10千瓦,这是为了供电给CPU、GPU、内存以及安装在单个机箱内的其他硬件。将这个功耗乘以一个机架所需的功率,就可以大致估算出数据中心所需的电功率以及必须提供的冷却技术。
      
      传统上,只要将足够的空气吹向CPU,就能实现对微处理器的冷却。冷却效果取决于进气温度(越低越好)和风扇移动冷却空气的能力,详见图1所示。这些空气会从CPU、GPU、内存等部件吸收热量。服务器内部风扇的大小受到限制,这个限制是通过服务器设计的“U”(1.75英寸)单位数量来衡量的。虽然可以在服务器内安装多个风扇,以增加不同几何结构中的空气流量,但这仍有一定的局限性。
      
      液体在散热方面的效果远胜于空气。液体的冷却能力不仅仅是略有提升,而是大幅超越。由于液体分子之间的间距比空气分子更紧密,因此其热传导效率要高得多。
      
      3.液体冷却技术中的常用名词解释
      
      1)风扇CFM
      
      CFM是“Cubic Feetper Minute”的缩写,意为“每分钟立方英尺”,这是一个用于测量空气流动速率的单位。在数据中心和服务器冷却的领域中,CFM指的是风扇每分钟移动空气的体积。
      
      具体来说,以下是关于CFM的几个关键点:
      
      (1)空气流动速率:CFM衡量的是风扇在单位时间内(一分钟)能够吹送或抽取的空气量。例如,一个标称500CFM的风扇能够在每分钟内移动500立方英尺的空气。
      
      (2)冷却效率:在数据中心,风扇的CFM值是衡量冷却系统效率的一个重要参数。更高的CFM值意味着风扇能够更快速地将冷空气吹过服务器组件,帮助散热。
      
      (3)服务器风扇:服务器内部的风扇负责将热空气从热源(如CPU、GPU等)带走,并将较冷的空气引导到这些热源上。风扇的CFM能力决定了其冷却效果。
      
      (4)设计考量:在设计数据中心或选择服务器冷却解决方案时,需要考虑风扇的CFM能力,以确保足够的冷却能力来维持服务器在安全的操作温度范围内。
      
      (5)与空气阻力的关系:风扇的实际CFM值会受到空气阻力的影响,例如,空气过滤器、服务器内部布局和通风管道的设计都会影响风扇的实际CFM表现。
      
      2)运营支出(OPEX)
      
      在数据中心领域中,OPEX(Operating Expenditure,运营支出)指的是维护和运行数据中心所需的日常费用。这些费用通常包括但不限于以下几类:
      
      (1)能源费用:包括电费,这是数据中心运营成本中的一个大项,因为服务器和其他IT设备需要持续供电。
      
      (2)冷却和暖通空调(HVAC)费用:保持数据中心适宜的温度和湿度需要不断运行冷却系统,这会产生相应的运营成本。
      
      (3)人力成本:包括数据中心管理、维护和技术支持人员的工资和福利。
      
      (4)维护和修理费用:服务器、网络设备、UPS(不间断电源)和其他硬件的定期维护和意外修理费用。
      
      (5)软件和服务订阅费:包括数据中心使用的操作系统、备份软件、监控工具和云服务等的订阅费用。
      
      (6)租金和物业费用:如果数据中心不是企业自有资产,还需要支付租金和其他物业相关费用。
      
      (7)安全费用:包括物理安全(如保安人员、监控摄像头)和网络安全(如防火墙、入侵检测系统)的相关费用。
      
      (8)保险费用:为数据中心资产和业务连续性提供的保险费用。
      
      (9)其他日常运营费用:如办公用品、通讯费、培训费用等。
      
      3)机房空调系统(CRAC)
      
      CRAC是“Computer Room Air Conditioning”的缩写,指的是计算机房空调系统。CRAC系统是数据中心、服务器机房或其他含有敏感电子设备的空间中用于维持理想环境条件的关键组件。以下是CRAC系统的主要功能和特点:
      
      (1)温度控制:CRAC系统通过循环空气来调节机房内的温度,确保服务器和其他电子设备不会过热,这对于维持设备的可靠性和延长其使用寿命至关重要。
      
      (2)湿度控制:除了温度控制,CRAC系统还负责维持机房内的相对湿度在适当范围内,以防止静电和腐蚀问题,这两者都可能导致设备故障。
      
      (3)空气过滤:CRAC系统通常配备有空气过滤器,可以清除空气中的尘埃、颗粒和其他污染物,保护敏感的电子组件免受损害。
      
      (4)空气流通:CRAC系统确保机房内的空气流通,帮助均匀分布冷却空气,并从热源处移除热量。
      
      (5)冗余设计:在数据中心中,CRAC系统通常设计有冗余,以确保即使某个单元发生故障,其他单元也能接管其工作,保持环境的稳定。
      
      (6)能效:现代CRAC系统注重能效,采用节能技术来降低运营成本,例如变容量压缩机、高效节能的风扇和智能控制系统。
      
      (7)监控与集成:CRAC系统可以与数据中心的整体监控系统集成,以便实时监控和调整机房环境,确保最佳运行条件。
      
      二、液冷收益分析
      
      1.液冷的优势
      
      为了确保当今数据中心的平稳高效运行,许多数据中心需要冷却解决方案。随着人工智能和大数据的崛起,需要处理的数据量激增,而高性能处理产生的热量也随之增加。转向液体冷却解决方案的一些好处,包括:
      
      1)从空调转向更有效的液体冷却可以降低超过40%的运营成本,从风冷转向液冷可以节省能源。通过减少系统风扇的运行,节省额外电力。设施投资平均1年的回报期,增加了投资回报率。
      
      2)液冷效率显著提高了数据中心对于高性能、高功率CPU和GPU的能源使用效率(PUE)。液体在移除热量方面本质上更高效,比空气冷却高达1000倍,因为空气冷却能力将不足以满足未来的CPU和GPU的冷却要求,液冷可能成为必须,可以支持最高性能和最高密度的服务器,提高了每平方英尺的计算能力。
      
      3)降低成本和环境影响。液体冷却减少了电力使用,并降低了化石燃料电厂的碳排放。因此,减少当今数据中心的环境影响正在成为企业的责任,详见表1所示。
      
      另外,液冷减少芯片抖动(Jitter)。当CPU或GPU过热或接近其最大工作温度时,为了防止芯片受损,CPU会采取降低性能的措施,这种措施称为“热节流”。热节流会导致系统性能下降,进而影响应用程序的处理速度。
      
      具体来说,芯片节流可能表现为以下两种方式:
      
      1)降低时钟频率:CPU或者GPU会减少其运行速度,即降低时钟频率。这样,每个时钟周期内CPU或GPU可以处理的工作量就会减少,从而产生更少的热量。
      
      2)关闭一些核心:在一些多核心CPU中,为了降低热量产生,可能会选择关闭部分核心。这样,虽然整体性能下降了,但是剩余活跃的核心产生的热量也减少了。这两种节流措施都是为了防止CPU过热而采取的保护措施。过热不仅会影响设备的性能,还可能缩短设备的使用寿命,甚至导致设备损坏。因此,确保CPU和其他硬件设备在适宜的温度范围内工作是至关重要的。
      
      2.液冷收益分析中常用名词解释
      
      1)电力使用效率PUE
      
      PUE,即电力使用效率(Power Usage Effectiveness),是衡量数据中心能源效率的一个标准指标。它定义为数据中心总能耗与IT设备能耗的比值。PUE的计算公式为:PUE=总数据中心能耗/IT设备能耗
      
      一个理想的PUE值为1.0,这意味着所有输入到数据中心的电力都完全用于IT设备,没有任何能源浪费。然而,在现实情况中,由于冷却系统、照明、电源效率损失等因素,PUE值通常会高于1.0。
      
      液冷对数据中心PUE的显著改进,主要体现在以下几个方面:
      
      (1)更高效的冷却:液冷比传统的风冷更有效,能够更快速地移除热量。这意味着在保持相同的IT设备运行温度的前提下,液体冷却系统所需的能量更少。
      
      (2)减少辅助设备能耗:液体冷却系统可能减少对空调和大量风扇的依赖,这些设备通常在空气冷却系统中消耗大量能源。通过减少这些辅助设备的能耗,整体数据中心的PUE值可以得到显著改善。
      
      (3)支持更高密度的计算:液冷允许在更小的空间内容纳更多的服务器和计算设备,从而提高每平方米的计算能力。这种高密度计算在不增加冷却需求的情况下提高了IT设备的能效。
      
      (4)降低整体能耗:由于液体冷却在移除热量方面的效率更高,因此数据中心在冷却方面的整体能耗会降低,这直接影响到PUE的计算结果,使其值更接近于1.0。
      
      因此,对于高性能、高功率的CPU和GPU,液体冷却通过提高冷却效率和减少整体能耗,显著改善了数据中心的PUE值,使得数据中心运行更加环保和经济。
      
      三、液冷可选的三种方案
      
      1.直接到芯片(DTC)或(D2C)
      
      这种用于冷却CPU/GPU的方法是在运行中的芯片上方运行冷却液体(在封闭系统中)。通过热传导材料,将芯片表面的热量传递到流动的冷却板上。冷却液体从芯片吸收热量并带走,这些液体在别处冷却后,在封闭循环系统中返回芯片。这个系统的核心是泵,它负责循环液体,并且直接安装在芯片上以优化液体流动。图1展示了泵和冷板,它们会直接与芯片连接。
      
      液体冷却的配置有多种形式。热液体可以在机架内通过机架冷却分配单元(CDU)进行空气冷却。CDU可以安装在机架内不同高度上,用以冷却特定数量的服务器,这样可以缩短管道长度。另一种方式是在机架的某个位置安装一个更大的CDU,用于冷却所有服务器的液体。现代的CDU能够移除高达80千瓦的热量,这通常能满足当前大多数服务器设计的需求。
      
      尽管机架内CDU对于许多场景是合适的,但其缺点是会降低计算密度,因为机架空间的一部分必须专门用于CDU。还有一种冷却热液体的方法是将热液体泵送到外部冷却系统,这个系统通过液体对液体的交换来冷却液体,并使用外部设备进行冷却。例如,图2中的“冷却塔”可以是机架内的CDU或一个外部系统。图2展示了一个D2C(直接对芯片)系统,其中热液体在封闭循环中得到冷却。
      
      2.浸没式冷却
      
      浸没式冷却指的是将整个服务器浸泡在液体中,液体直接对系统进行降温,温度较高的液体会上升。接着,这些热液体被从容器中抽出并在别处进行冷却。用于这种冷却方式的液体必须是非导电且无腐蚀性的,以确保能安全用于电子元件。下图展示了浸没式冷却系统中液体的流动情况,详见图3所示。
      
      3.后门热交换器(RDHx)
      
      对于那些需要冷却系统但又不能按D2C要求改动或增加基础设施的数据中心来说,一个有效的解决方案是给机架安装一个特制的后门,专门用于那些发热量最大的服务器。这个系统,如图4所示,从服务器后方吸入热空气并立即进行冷却。后门内装有风扇和冷却介质,介质吸收热量,从而将冷空气循环回数据中心。和之前提到的冷却方式类似,热介质在循环回后门之前需要先行冷却。总的来说,RDHx的使用可以降低数据中心对传统空调系统(CRAC)的需求。
      
      4.三种冷却方式优势总结(见表2)
      
      四、怎样选择液冷方案
      
      1.选择数据中心冷却方案的决策点
      
      在选择数据中心液冷解决方案时,需要了解以下几个关键决策点:
      
      1) 系统和机架满负荷运行时,需要移除多少热量?
      
      预期的工作负载是否需要CPU/GPU长时间全负荷运行?
      
      服务器是否需要比数据中心现有冷却能力更高的冷却?
      
      是否有预算用于一次性的冷却基础设施建设费用?
      
      2)整个机架需要移除多少热量(以千瓦为单位)?
      
      如果热量在20-25千瓦以下,空气流动应该足够。
      
      如果热量在20千瓦到40-45千瓦之间,D2C(直
      
      接对芯片冷却,冷板)是一个极好的选择。
      
      如果热量超过40千瓦,或者数据中心空间受限(小于10米x10米x10米),则应采用浸没式冷却。
      
      3)是否有现成的基础设施来为多个机架冷却液体?
      
      另一种考虑液冷的方式是根据每机架的千瓦数来选择适当的热量消散方案,详见图5。
      
      不同冷却系统对PUE(电力使用效率)的降低效果是不同的。PUE是衡量数据中心能效的一个标准指标。
      
      它的计算公式是:PUE=数据中心总耗电量/(服务器、存储、网络设备运行所需的电量)
      
      PUE值越接近1.0,表明数据中心的能效越高,因为更多的电量被用于服务器、存储和网络设备。一个高效的数据中心PUE值大约在1.10左右,而一些老旧或设计不佳的数据中心PUE值可能在2.0左右。采用不同的冷却方案可以将数据中心的PUE值降低至接近1.0。当然,每个数据中心的实际PUE值都需要具体测量,但预计使用RDHx技术可以将数据中心的PUE值降低到1.2至1.3的区间,而采用浸没式冷却技术则可能将PUE值降低到1.02至1.03的区间。
      
      2.液冷落地应用情况
      
      2023年6月,我国三大电信运营商共同发布了《电信运营商液冷技术白皮书》,提出了未来三年的液冷技术发展目标:
      
      2023年进行技术验证;
      
      2024年开展规模测试;
      
      2025年及以后实现规模应用。
      
      在技术路径方面,电信运营商目前将重点推进D2C冷板式液冷和单相浸没式液冷(单相浸没液冷——来自立讯和中兴的联合开发)两种方案。目前,运营商的数据中心以低功率机架为主,但随着高功率机架需求的增长,液冷技术的需求可能会从大力发展AI的互联网企业开始,运营商在液冷产业发展链条中的位置原本应该相对靠后。白皮书的发布,标志着运营商主动承担起推动液冷产业发展的角色,这将进一步加快液冷技术和生态的成熟。
      
      根据《电信运营商液冷技术白皮书》和长江证券研究所的数据,服务器招标情况已经显示出液冷技术的乐观比例。液冷技术的落地需要服务器和机房基础设施的同步建设,因此液冷服务器的比例可以在一定程度上反映液冷技术的普及程度。
      
      从运营商的服务器招标情况来看:中国移动在2023年至2024年的新型智算中心(试验网)项目中,共采购了2454台AI服务器,其中液冷服务器占比高达87%;中国电信在2023-2024年的AI算力服务器项目中,共采购了4175台AI服务器,液冷服务器占比为25%,其中国产G系列服务器的液冷比例达到了47%,这一比例已经显著高于当前行业内的液冷技术普及率,详见图6。
      
      鉴于中国移动和中国电信在AI数据中心领域的重要地位,那么采用液冷技术的数据中心比例相当可观。
      
      1)中国移动长三角(苏州)云计算中心:这是中国移动首个液冷机房试点项目,采用冷板式液冷技术,有效降低了数据中心的能耗,使得散热能耗降低了50%-60%,数据中心的PUE值降低至1.25以下。这个项目展示了液冷技术在提升数据中心能效和降低能耗方面的潜力。
      
      2)中国移动智算中心(青岛):这是山东省内落地运营规模最大的智算中心,采用了液冷技术,配备了四重电力保障,创新性引入RDMA技术,参数网络带宽达200GB,数据吞吐量达TB/s级。该中心的建成将为青岛、山东乃至周边省份提供算力支撑,加速AI生态对接,构建起以AI算力为核心的产业新生态体系。
      
      3)中国电信粤港澳大湾区一体化数据中心:这是粤港澳大湾区首个大规模全液冷智能算力数据中心,位于韶关市浈江区。该项目是国家“东数西算”战略在大湾区的核心布局之一,也是全国一体化算力网络八大枢纽节点之一。项目一期总投资超过32亿元人民币,占地面积约98亩,总建筑面积约9.5万平方米,按照国家A级标准建设。该项目从2023年5月开工,到2024年5月已正式发布,成为韶关集群内“最早开工、最快施工、最先投产”的标杆项目,标志着韶关集群建设和智算产业发展迈出了坚实的步伐。
      
      4)中国电信中部智算中心:位于武汉,是中国电信湖北公司建设的先进自主液冷智算集群。该项目采用液冷技术,实现了全场景PUE≤1.15的绿色节能环保水平,能够支撑部署万亿参数大模型。智算中心的建设标志着中国电信在人工智能产业领域迈出了重要的一步。
      
      5)阿里巴巴:阿里巴巴的浙江云计算仁和数据中心是全球规模最大的全浸没式液冷数据中心之一,也是中国首座绿色等级达5A级的液冷数据中心。该数据中心采用了阿里巴巴自主研发的全浸没液冷服务器集群,能源使用效率(PUE)低至1.09。此外,阿里巴巴还推出了首款单相浸没液冷解决方案——磐久Immersion DC1000,整体能耗可下降34.6%,助力低碳绿色数据中心构建。
      
      6)京东:京东云采用了冷板液冷解决方案,这是从数据中心级到系统级的整体方案,涵盖了CDU、机架、服务器等不同层级的产品与技术。通过部署冷板液冷整体解决方案,京东云自建数据中心实现PUE降至1.1,每个14KW机柜每年节电31,031度,碳减排24.4吨。
      
      据悉,目前众多行业在新建或者扩建AI数据中心正积极考虑采用液冷技术进行冷却。在政策支持、技术进步和经济性考量的三重动力推动下,各大服务器制造商也纷纷液冷解决方案,尤其是针对那些高能耗的AI数据中心产品,液冷技术的应用正成为行业的新趋势。
      
      编辑:Harris
      
      

  •