一直以来,数据中心能耗都居高不下。尤其是我国数据中心行业发展比较晚,建设标准相对滞后,数据中心PUE值普遍在2.2~3.0之间。高能耗不仅给企业带来沉重负担,也给社会能源造成巨大浪费。
随着云计算和大数据技术的蓬勃发展,实际业务对底层基础设施的性能要求越来越高。性能的提高直接导致服务器功耗的不断增加,特别是作为服务器关键部件的CPU,随着性能提升功耗增加非常显著。在单机柜服务器数量不变的情况下,整柜的功耗几乎翻番,可以预见,这会给机房的散热带来多么大的挑战。
万物互联时代的来临会继续激发移动产品和其产生的数据总量持续高速增长,数据中心必须向高密度配置服务器迈进。为了应对这样的变化,冷却技术也需要随之革新。2013年,工业和信息化部发布《关于数据中心建设布局的指导意见》指出,国内的大型数据中心也开始往气候适宜、能源充足的地区建设,例如内蒙古、山西北部等,这些迁移确实给数据中心的节能带来了收益,但还是无法从根本上满足服务器大功耗高密度部署带来的散热需求。
1 液冷系统的优势
虽然大家都认可液冷的实用性,也有较好的实践成果,但由于在较低热度负荷时风冷的成本很低,且安装部署更为简单,所以IT产业多年来大规模使用的是风冷散热系统。随着时间的推移和技术的进步,计算机芯片的密度越来越高,所要处理的计算工作也越来越复杂,热度负荷节节攀升,液冷技术逐渐被产业界拉出来“救火”。在液冷越来越频繁地出现在数据中心时,它相较于风冷散热的优势也逐渐显现。
①比热容大,散热效率高效
液冷是指使用液体作为热量传输的媒介降低数据中心温度,液体可以直接导向热源带走热量,不需要像风冷一样间接通过空气制冷。液冷将大部分热量通过循环介质带走,单台服务器需求风量降低,机房整体送风需求也随之降低,大大减少机房回流导致的局部热点。液冷有效抑制了CPU等元件内部温度的瞬间提升,因此可以在一定程度上允许CPU超频工作,增大部署密集,提高集成度。此外,液体的比热容远远高于气体,可以吸收大量的热而保持温度变化不大,散热效率得到极大提升。
②降低能耗,减少支出成本
采用液冷技术后,风扇、空调等不间断耗电的风冷方式可以被全部或部分取代,能耗迅速降低。以市面上某款液冷服务器为例,在CPU芯片和内存上安装了固定水冷板以解决服务器核心部件散热问题。与风冷相比,该服务器CPU满载工作时的核温降低了20℃,整机能耗降低了5%。
③节能环保,降低噪音指标
电力在数据中心的能源消耗只有小部分是供给IT负荷,绝大部分都来自散热负荷,散热能耗远高于IT设备能耗本身。通过液冷系统削减散热系统的消耗,可以大大降低整个数据中心的能源消耗,极大优化PUE。此外,由于液冷系统的泵等元件比风扇的声音更小,整个液冷系统的噪音比风冷系统大幅降低,基本可达到“静音机房”的效果。
2 液体冷却方式
数据通信设备的液体冷却系统的冷却子系统可以认为是一种液体回路,其中冷却液体与要冷却的部件做热交换。有些情况下,冷却系统的水由机架由CDU提供,也可以由服务多个机架的外部CDU提供。
有关数据中心内潜在的液体冷却系统和回路以及使用的术语的详细信息参见图1。目前来看液冷主要有冷板、浸没和喷淋三种技术路线。
①冷板式液冷
冷板式液冷的主要部署方式是在液冷机柜上配置分水器,给液冷计算节点提供进出水分支管路,分支管路进出水管分别与液冷计算节点的进出水口通过接头对接,与液冷计算节点的内冷板管路连通,实现液冷计算节点内液冷循环。液冷计算节点的液体在机柜级汇聚,机柜级有一进一出两个与外部管路连接的接头,该接头与外置或内置CDU连接,实现液冷整机液冷循环,并带走液冷计算节点的热量。在冷板式液冷系统里的液冷节点中,CPU等大功耗部件采用液冷冷板散热,其它少量发热器件(如硬盘、接口卡等)仍采用风冷散热系统。
这种散热方式与风冷相比,密度更高、更节能、防噪音效果更好。由于冷板式液冷技术不需要昂贵的水冷机组,所以部署后,在减少总体拥有成本的同时,数据中心的能源利用效率显著增加。
目前,在风冷技术下,每机柜的功耗最多只能到30kW。而冷板式液冷在每分钟60升的流量配置下,能达到总功耗45kW每机柜,可以实现更高密度的数据中心。
②浸没式液冷
浸没式液冷是近年备受业界关注的新型散热技术,浸没式液冷具有明显的优势。首先,在浸没式液冷中,冷却液与发热设备直接接触,具有较低的对流热阻,传热系数高;其次,冷却液具有较高的热导率和比热容,运行温度变化率较小;再次,这种方式无需风扇,降低了能耗和噪音,制冷效率高;最后,冷却液绝缘性能优良,闪点高不易燃,且无毒、无害、无腐蚀。所以液冷技术适用于对热流密度、绿色节能需求高的大型数据中心、超级计算、工业及其他计算领域和科研机构,特别是对于地处严寒、高海拔地区,或者地势较为特殊、空间有限的数据中心,以及对环境噪音要求较高,距离人群办公、居住场所较近,需要静音的数据中心具有明显的优势。
浸没式液冷系统为一种新型高效、绿色节能的数据中心冷却解决方案,相较于冷板液冷,它能够更加直接地进行热交换,散热效率会更高,但也会因直接接触带来更高的技术挑战。
③喷淋式液冷
喷淋式液冷作为液冷的一种,其主要特征为绝缘非腐蚀的冷却液直接喷淋到发热器件表面或者是与发热器件接触的扩展表面上,进行吸热后排走,排走的热流体再与外部环境大冷源进行热交换。
喷淋式液冷需对IT设备进行改造或部署相应的喷淋器件。在设备运行时,有针对性地对发热过高的器件进行冷却。这种方式的特点是不需要对机房基础设施做太大的改动,只需要对服务器进行少量的改造就能实现较好的冷却性能。
喷淋式液冷机柜系统包括喷淋式液冷机柜系统(含管路、布液系统、回液系统和PDU等部件)、液冷服务器、冷却液三部分。喷淋式液冷机柜通过管路与室内热交换器相连接,即机柜内芯片的废热被冷却液吸收后传递到到室内热交换器并与室外热交换器进行换热。在该系统中,服务器内部各个发热器件要求采用分布式布局,建议发热器件的传热表面的方向不与重力方向相同;机柜内部器件电功率建议不超过56kW;服务器内部无风扇,存储硬盘需要保护和隔离;各个接口可以实现快拔快插。
喷淋液冷系统具有器件集成度高、散热效率强、高效节能和静音等特点,是解决大功耗机柜在IDC机房部署以及降低IT系统制冷费用、提升能效、降低TCO的有效手段之一。
3 国外的尝试
回顾国外液冷技术在数据中心领域的发展,大概可以追溯到20世纪60年代。
1966年,IBM推出了System/360型91大型计算机,这款巨无霸产品以高速度和高性能优势被运用在大型科学计算中,如太空探索、全球气候预测等。为了保证这个史无前例的大型机的稳定性和高效性,IBM专门研发了水冷系统。随后的几十年里,由于在热负荷不高的场景下风冷成本更低、技术更简单易行,液冷渐渐消沉。虽然IBM也先后在3081大型机和Power575超算上应用了新型水冷技术,但真正较为系统和成熟的应用是在2010年7月,IBM的“热水”降温超算Aquasar。它的出现再次开启了液冷时代的新纪元,也助推IBM重回液冷巅峰。如今,IBM在德国慕尼黑部署超算中心(LRZ)SuperMUC,采用了40℃的温水作为IT设备制冷的冷媒工质,散热效率比普通风冷高4000倍,其产生的热水可以给LRZ超级计算机中心园区的其他生活建筑供热,每年可节省约125万美元开支。
与IBM直接用水制冷不同,Intel与Green Revolution Cooling(GRC)历经一年合作后,推出了矿物油浸没散热系统。这套系统中的矿物油比热容是空气的1200倍,试验数据表明冷却效果比传统的空气冷却的耗能要低90%~95%。
除了Intel和GRC,美国的3M公司也在浸没式液冷上有所突破。研制了一种被称为NOVEC的绝缘冷却液,这种液体比一般的去离子水、矿物油的沸点更低,能在较低温度下沸腾和气化。在3M的液冷系统中,NOVEC吸热沸腾变为蒸汽到顶部冷凝端,释放热量冷却为液态,循环往复逐渐降热。
2018年,在I/O开发者大会上,Google推出了专为机器学习设计的芯片TPU的第三代,一个TPU3.0部署可提供超过100Petaflops的运算能力,高密度的设计和高性能的计算速度让Google不得不在其数据中心中引入液冷技术。
国外在液冷技术上的尝试多多少少都是受性能所迫,当传统的配套设施无法满足日益增长的计算和性能需求时,新的技术势必会被催生,液冷也是在这个情境下重整旗鼓逐渐被厂商们重视起来。
4 问题和思路
目前来看,部署液冷还需要面对很多问题。
①原有机房适配的问题。传统机房的承重、管路等设计均来自传统机柜的规格。而在液冷方式下,由于制冷方式的转变,部署环境将会有很大的不同。如果在传统机房部署液冷系统会带来部署成本、部署难度等方面的问题。
②由于浸没式和喷淋式会直接接触发热器件,液体和IT部件之间的兼容性是需要考虑的一个重要问题。IT部件长期浸泡在相关液体中,是否会对其功能和性能带来影响需要关注和验证。另外,液体对人体和环境的友好性也至关重要。
③液冷的行业标准缺失将会阻碍技术的发展。目前,各企业关于液冷的研发处于各自为战野蛮生长的状态,亟需相关的行业标准组织对液冷的标准化进行管理。对液体、供配电、管控、安防和运维等各个方面制定明确的技术要求,促进液冷技术的良性发展。
④我国各大服务器厂商基本都在进行液冷服务器的研发。如果国家能有相关专项进行研发资金的支持,将会更好地推动液冷技术国产化的发展,拉近我国与国际先进水平的距离,更好地实现液冷由中国制造向中国智造的转变。
液冷是一项投入巨大、产出过程较慢的高技术系统工程。除了必须具备传统服务器的设计研发能力之外,还需要有流体相关的经验积累。目前,国内仅有曙光、华为、联想、浪潮等几个传统服务器厂商具有相关产品,此外绿色云图、广东合一也在浸没式和喷淋式液冷方面积累了一定的经验。
我国数据中心行业组织开放数据中心技术推进委员会(ODCC)于2017年成立了液冷项目组,组织系列规范的编写,系列规范已于2018年10月16日“2018开放数据中心峰会”上正式发布。
5 结束语
液冷技术起步不久,还有很多问题亟待解决。例如,机房的承重问题,每平方米1.5吨以上的载荷会对老旧机房的地板带来巨大压力;还有硬盘的失效率问题,从目前技术来看,硬盘的失效率并不会因为温度降低而降低。另外,液冷的行业标准目前还一片空白,虽然标准上的开放可以助推更多创新技术出世,但这对于液冷的性能安全、配套设施、人员监管、市场推广等长远发展其实都很不利。
液冷服务器的部署对于数据中心机房的要求、制冷的要求、服务器部件的要求等都完全不同于风冷,它将会给服务器甚至数据中心的整条产业链带来一次重构,这也体现了数据中心行业多专业融合的趋势,对于整个行业来说将是巨大的挑战。
作者简介
谢丽娜,中国信息通信研究院云计算与大数据研究所数据中心部高级项目经理,开放数据中心委员会(ODCC)新技术与测试工作组项目经理。
郭亮,中国信息通信研究院云计算与大数据研究所数据中心部副主任,高级工程师。开放数据中心委员会(ODCC)新技术与测试工作组组长。
编辑:Harris