液体冷却方案有望进入更多的企业数据中心。在本文中,我们就将从五个方面的原因入手与广大读者朋友们共同展开探讨。
当前,那些在传统上曾经主要是被用于大型主机和学术型超级计算机的液体冷却方案可能很快就会渗透到更多的企业级数据中心了。现如今,有鉴于新的、要求更高的企业工作负载正在持续的推高数据中心服务器机架的功率密度,使得企业数据中心的管理运营人员们迫切需要寻找比空气冷却系统更有效的替代方案。
我们已经采访了一系列的数据中心操作运营人员和供应商,询问了他们关于将液体冷却方案推广到主流应用的看法。受访者中的一部分人并不想透露其所在数据中心所采用的具体的应用程序,并声称他们将这些工作负载及其冷却方式视为其所在企业的竞争优势。
一系列的超大规模云服务运营商,包括诸如微软、谷歌的母公司Alphabet、脸书Facebook和百度,已经组建起了一只专门致力于打造采用液体冷却服务器机架的开放式规范的群体,但该群体目前并没有说明他们将会使用的具体方案。然而,在这些超大规模数据中心中,至少有一类工作负载明显需要采用液体冷却方案,即:由GPU加速的机器学习系统(或者对于谷歌公司而言,便是其最新的TPU张量处理器,该公司曾公开表示其TPU现在使用的是直接冷却芯片的液体冷却设计)。
尽管当前的企业数据中心运营商们对于液体冷却方案的采用这一主题感到疑虑和担忧,但目前已经有一些使用趋势开始出现了。如果您企业在数据中心支持以下任何工作负载,那么您的数据中心在未来也可能采用液体冷却方案:
1、AI和加速器
近年来,由摩尔定律所描述的年度CPU性能增长的速率已经呈现出大幅放缓的趋势。部分的原因是由于加速器处理器(主要是GPU),以及FPGA和专用ASIC正越来越多地进入企业数据中心。
GPU驱动的机器学习可能是除HPC(高性能计算)领域之外最为常见的硬件加速使用案例。然而,在由市场调研机构451Research最近所进行的一项调查中,大约有三分之一的IT服务提供商表示说,他们所在的企业计划在在线数据挖掘、分析、工程模拟、视频、其他实时媒体、欺诈检测、负载平衡以及类似延迟敏感的服务中采用该加速系统。
硬件加速器具有比CPU高得多的热设计点(TDP,thermaldesignpoints),通常需要消耗200W或更多的功率来对其实施冷却;而添加高性能服务器CPU,那么您企业数据中心的一款单一的系统就将需要超过1kW的功率来对其实施冷却。
英特尔公司也在积极的突破其传统设计的服务器处理器的150W功率的限制。“越来越多的企业客户想要更强大的芯片产品,我们开始看到这些芯片产品所消耗的功率瓦特数量正在逐渐上升。”来自UptimeInstitute的执行董事安迪劳伦斯(AndyLawrence)表示说。
当前企业数据中心服务器的机架密度正在不断上升。大多数数据中心正常运行轨道上现在至少有一些超过10kW的机架,而20%的机架上甚至还有30kW或更高功率密度的机架。但这些工作负载并不被视为高性能计算。“他们只是表示他们的工作负载有更高密度的机架而已。”劳伦斯表示说。
“如果将GPU与英特尔处理器放在一起,他们的功率密度可能会达到以前的三倍。”他说。液体冷却方案显然非常适合这些加速器,特别是浸入式冷却方案,可以冷却GPU和CPU。
2、冷却高密度存储
随着当前企业数据中心的存储密度的持续增加,可能会使得有效的冷却存储变得更加困难。数据中心所安装的大部分存储容量都是由非密封的硬盘驱动器所组成的,不能采用液体冷却方案。然而,较新的技术在这方面则为业界的企业用户们带来了希望。例如,固态的驱动器可以使用全浸入式的解决方案进行冷却。此外,在最新一代的存储硬件中创建支持高密度,高速读/写头的氦气要求密封单元,使其适用于液体冷却方案。
正如在451 Research所发布的报告中所指出的那样,固态硬盘和充满氦气的硬盘驱动器的组合意味着无需将空气冷却存储与液体冷却处理方式分开。硬盘驱动器的可靠性的提升还带了一大益处,即:在冷却液中浸入驱动器可以有助于减少热量和湿度对组件的影响。
3、网络边缘计算
减少当前和未来应用程序延迟的需求进一步的推动了对网络边缘新一代数据中心的需求。这些可以是在无线塔、工厂操作车间或零售店中所部署的高密度的远程设施。而且这些设施可能会越来越多地托管高密度的计算硬件,例如用于机器学习的GPU打包集群。
虽然并非所有的边缘数据中心都是采用的液体冷却的方案,但许多边缘数据中心将被设计用于支持在无法使用传统冷却方案的密闭空间中的繁重工作负载,或者在没有使用传统的先决条件的新部署环境中实施冷却。由于降低了能耗,液体冷却方案使得在没有大容量供电的地方更容易部署边缘站点。
而根据劳伦斯的预计介绍,多达20%的边缘数据中心可以使用液体冷却方案。他设想远程的微模块化高密度数据中心站点支持每台机架40kW。
4、高频交易和区块链
许多现代金融服务行业企业的工作负载都是计算密集型的,需要高性能的CPU以及GPU。这些工作负载包括高频交易系统和基于区块链的应用程序,如智能合约和加密货币。
例如,绿色革命冷却技术公司(GRC,Green Revolution Cooling)的某家企业客户便是一家高频交易公司,该企业客户公司正在测试其浸入式冷却解决方案。当绿色革命冷却技术公司推出了用于加密货币采矿的浸入式冷却产品,同时比特币的价格也从2017年底开始飙升时,该公司也经历了有史以来最大幅度的销售飙升。
GRC的首席执行官Peter Poulin告诉记者说,GRC公司的另一家位于特立尼达和多巴哥的企业客户正在以每台机架100kW的功率运行加密货币服务,并将一个温水冷却回路连接到蒸发塔。由于温水冷却比冷水冷却方案更加节能,因此该冷却方案可以在没有机械冷却器的热带环境条件下正常运行。
5、传统冷却方案的成本费用昂贵
当基于空气的冷却系统无法处理高密度的冷却需求时,液体冷却方案便开始凸显出其意义了。
例如,地球科学公司CGG使用了GRC的浸入式液体冷却系统,以便为其位于休斯顿的数据中心提供冷却降温,CGG在该数据中心主要进行地震相关数据的处理分析工作,他们在商用服务器上使用的是功能强大的GPU,每台机架消耗高达23kW的功率。这种功率密度是相对较高的,但这种密度通常采用的是空气冷却方案。CGG的高级系统部门经理TedBarragy表示说:“我们将沉重的计算服务器放入沉浸式水箱进行冷却。但事实上,与其说是此举是为了满足应用程序的工作负载,还不如说沉浸液体冷却方案更符合成本经济。
在其升级过程中,浸入式的液体冷却方案取代了CGG公司旧数据中心过去所采用的传统冷却设备。根据Barragy的介绍,由于进行了升级,该团队恢复了几兆瓦的电力容量。“即使在添加了服务器和沉浸式水箱几年之后,我们仍然拥有半兆瓦的电力资源尚未使用。”他说。“这是一个老旧的传统数据中心,其大约有一半的功率消耗都用于低效的空气冷却系统。”
Barragy还表示,浸入式冷却数据中心的PUE值大约为1.05。这比该公司位于休斯顿的另一处新建的、但却采用的是空气冷却方案的数据中心的冷却效率更高,后者的PUE值为1.35。
“很多人认为这种液体冷却仅仅只是适合于每台机架的计算功率密度真正达到60kW至100kW的高密度的冷却解决方案,但对于我们的主流企业客户来说,该方案还有其他方面的显著优势,”Poulin说。
来自Uptime Institute的首席技术官克里斯布朗(Chris Brown)表示说,他们目前已经看到业界对于液体冷却方案的兴趣的普遍增加。而这正是由当前企业数据中心迫切要求实现更高的能效和更低的运营成本所推动的。
“液体冷却方案这方面的重点不再是围绕着超高密度,而是一般的企业级数据中心的运营管理人员们可以用于冷却任何IT资产的方案。”他说。“该方案目前正在进入更常见的密度解决方案和更多普通的数据中心。”
编辑:Harris