一、芯片机柜功耗迅速提升,液冷成为唯一选择
市场主流芯片厂商NVIDIA、AMD、华为等芯片散热设计300-400W/颗。AI应用发展推动GPU需求增长,NVIDIA H100功率密度达到700W/颗,已突破传统风冷系统散热能力范围(芯片级)。
2024年3月,NVIDIA发布了GPU Blackwell,包括单芯B100和双芯B200,功率密度700~1000W/颗,CPU+GPU超级芯片GB200高达2700W/颗,GB200相较于上一代A100和H100在多个方面都有显著提升,详见表1所示。
随着人工智能、大数据、云计算、5G等由研发逐步迈向应用阶段,算力芯片功耗显著提升,单机柜功率密度提升到20kW以上,达到/超过机柜级风冷的极限。与此同时,风冷制冷难度与成本显著上升,使得液冷成为唯一的选择。
二、国家政策牵引,加速液冷落地
2020年9月,国家主席习近平提出我国力争2030年前实现碳达峰,2060年前实现碳中和。2021年7月,工信部发布《新型数据中心发展三年行动计划(2021-2023)》,到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。
2024年的各地最新政策,对制冷系统方案尤其是液冷方案的导向明显。国家政策已经提及并鼓励因地制宜推动液冷等高效方案。
国家政策的牵引,推动液冷解决方案在数据中心、智算中心的有效加速落地。
三、液冷技术的发展
液冷的方案最早从上世纪80年底,冷板式液冷技术源于IT设备散热源改进,随着技术应用成熟开始在服务器上规模应用。液冷系统追求稳定性及可靠性,核心器件、管路、水质尤为重要,对于可靠性、稳定性的持续追求和探索,推动液冷系统方案的持续发展,液冷方案从二次换热到一二次分离换热,到进一步形成以液冷CDU为核心的一二次分离液冷解决方案等,液冷技术的发展也改变着智算中心的整体架构、布局。
从分类上看,液冷大体可以分为冷板式、浸没式、喷淋式三种。
1)冷板式液冷解决方案
冷板式液冷解决方案,发热的IT设备电路、元器件不直接与冷却液进行接触,直接与冷板进行接触,通过冷板实现发热元器件与冷板的换热,冷板通过其内部流动的冷却液进行换热,IT设备外部的液冷CDU通过循环的方式,将热的冷却液带出,在液冷CDU进行换热,从而将热量带离开IT设备,详见图1所示。
冷板式液冷解决方案只能带走IT设备50~80%的热量,剩余20~50%还需通过风冷带走,因此还需保留原风冷方案(风冷配比降低)。虽然不能带走全部热量,但已经导出了大部分的热量,解决了IT设备散热的瓶颈问题,也大幅降低了散热功耗。
2)浸没式液冷解决方案
浸没式液冷解决方案,整体原理与冷板式方案相近,主要差别在于IT设备电路、元器件直接浸泡在冷却液中,直接与冷却液进行换热,液冷CDU将冷却液热量循环导出。浸没式液冷有单相和两相两种方式,单相浸没式方案,冷却液体在循环过程中仅发生温度变化,而不存在相态转变;两相浸没式液冷方案,冷却液在遇热时由液态转化为气态,然后通过冷凝器将气态冷却液转化回液态,详见图2所示。
浸没式液冷解决方案能带走IT设备100%发热,但以及有房间内维护结构、照明等热量,因此还需配置一定的风冷方案(但占比较小)。浸没式液冷解决方案,存在器件不支持浸没式、方案尚不成熟等不足,整体发展相对缓慢。
3)喷淋式液冷解决方案
喷淋式液冷解决方案,整体原理与浸没式、冷板式方案相近,主要差别在于冷却液通过喷淋的方式直接与IT设备电路、元器件进行换热,液冷CDU将冷却液热量循环导出,详见图3所示。
喷淋式液冷,原理和浸没式相同,能带走IT设备100%发热,但仍有房间内维护结构、照明等热量,因此还需配置一定的风冷方案(但占比较小)。喷淋式液冷解决方案同浸没式放羊一样,存在器件不支持浸没式、方案尚不成熟等不足,整体发展相对缓慢。
三种液冷技术路线,正处于快速发展和演进中,目前冷板式是最成熟、已经进入了大规模商用的阶段,浸没式、喷淋式处于技术攻关的阶段,详见表3所示。
四、液冷技术在智算中心的应用
液体冷却系统主要由一次侧和二次侧、液冷服务器(液冷部分)组成。一次侧包括液冷冷源、一次侧循环泵;二次侧则包括液冷CDU(Cooling Distribution Unit,冷却分配单元)、环形管路、mainfold等;服务器根据液冷形式不同,有冷板式液冷服务器、浸没式液冷服务器等不同类型。
在液冷技术的应用中,液冷CDU是液冷洗解决方案的核心,液冷CDU主要由液液换热器、二次额水泵、管理、传感器等组成,为二次侧冷却液提供再冷却和循环动力,对整个二次侧系统进行集中控制,详见图4所示。
另外一方面,整合液冷系统、IT服务器机柜、配电单元等的数据中心完整功能的微模块数据中心,在智算场景中,具有更好的适应性和推广性,未来具有广阔的市场。
液冷微模块数据中心解决方案是以单个模块为单位,采用模块化设计,整合液冷制冷单元、IT机柜、配电单元、封闭组件、布线、综合运维等功能独立单元,实现数据中心的完整功能。是一种采用液体冷却技术的高密度数据中心解决方案。
液冷微模块数据中心,深度融合液冷技术与微模块方案,尤其适用于智算中心场景。
五、展望
目前,液冷技术在智算中心的应用处于试用、试点验证的阶段,液冷技术的发展,主要依赖于:技术创新与成熟度提高、成本降低与效益提升、产业协同发展等。随着算力芯片、智算中心快速发展等需求的拉动、国家政策的牵引,液冷技术将迎来新的发展机遇,进入一个快速发展的阶段。
作者简介
苏宁焕,高级工程师,长期从事数据中心相关技术的研究及产品研发,主要研究方向包括UPS/HVDC、数据中心供配电技术、数据中心制冷技术等。现任科华数据股份有限公司高端电源软件总工程师。
编辑:Harris