为提高计算密度而保持工作温度的追求,使企业从空气冷却过渡到液体冷却,本文将评估这两种方法。
数据中心继续将更多的计算能力整合到更小的空间中,以整合工作负载并容纳处理密集型应用程序,例如人工智能和高级分析。其结果是,每个机架消耗更多的能量并产生更多的热量,从而对冷却系统施加更大的压力,以确保安全和高效的运行。
过去,当机架功率要求远低于20千瓦时,数据中心可以依靠空气冷却来维持安全的工作温度。但是如今的高性能机架很容易超过20千瓦、30k千瓦或更多。这在很大程度上是因为这些机架中的计算系统配置了CPU和GPU,其热功率密度比前几代产品高得多。虽然一些空气冷却系统可以支持需要超过20千瓦的机架,但它们效率低且维护复杂,导致很多企业开始采用液体冷却技术。
在讨论液体冷却技术与空气冷却技术时,需要考虑许多因素。以下将介绍这两种主要类型的数据中心冷却方法,比较它们的优缺点,然后讨论在两者之间进行选择时要考虑的因素。
什么是风冷?
数据中心自从出现以来一直在使用空气冷却技术,并继续广泛使用。尽管该技术多年来不断发展,冷却系统的效率越来越高,但基本概念保持不变。冷空气被吹过或在硬件周围循环,通过将较热的空气与较冷的空气交换来散发热量。
空气冷却系统之间的主要区别在于它们如何控制气流。这些系统通常分为三种类型:基于机房、基于行和基于机架。
基于机房的冷却系统使用机房空调将冷空气推入机房。空气可能在整个房间内循环,或通过设备附近的活动地板排出。现在,许多基于房间的系统都采用了冷热通道配置,以更好地控制气流并冷却设备,从而有助于节约能源,并降低成本。该配置还可能使用某种形式的遏制来更好地将热通道和冷通道彼此隔离。
热通道和冷通道使数据中心能够更好地控制气流并冷却设备。
基于行的冷却比基于房间的系统更具针对性。每排都包含专用冷却单元,可将气流集中在特定设备上。有时称为行内冷却,基于行的方法提高了冷却效率,并减少了引导气流所需的风扇功率,有助于降低能源使用和成本。基于行的冷却能够以不同的方式实现,例如将冷却单元放置在服务器机架之间或将它们安装在头顶上。
基于机架的系统更进一步,将冷却单元专用于特定的机架,与其他空气冷却方法相比,可以实现了更高的精度和效率。冷却单元通常安装在这些机架之上或之内。通过这种方式,可以配置冷却能力以满足机架的特定要求,从而实现更可预测的性能和成本。然而,基于机架的系统需要更多的冷却单元,并增加整体复杂性。
多年来,空气冷却已被证明是保护数据中心设备的宝贵工具。它背后的技术广为人知、广泛部署,并且仍在世界各地的数据中心中广泛使用。数据中心人员熟悉空气冷却以及保持其运行所需的条件。维护这些系统是一个简单的过程,背后有大量的行业经验。
空气冷却的缺点
然而,空气冷却也面临一些挑战。最重要的是它无法满足现代工作负载需求。空气冷却根本无法跟上增加的密度和繁重的处理负荷。在某些时候,空气冷却的资本支出以及增加的复杂性不再是合理的。空气冷却已经占数据中心运营支出的很大一部分。不断上涨的能源成本只会加剧这个问题。
水的限制和成本也可能对依赖蒸发冷却或冷却塔的空气冷却系统提出挑战。此外,更高的计算密度意味着更多的冷却风扇和水泵,使数据中心变得如此嘈杂,以至于工作人员必须佩戴听力保护设备。
根本的问题是,尽管空气被广泛使用,但它并不是一种有效的传热介质,需要一种更好的冷却方法来满足现代工作负载的需求。
什么是液体冷却?
数据中心已经开始采用液体冷却,而不仅仅是大型机和超级计算机。水和其他液体在传热方面的效率比空气高得多——效率高出50到1000倍。液体冷却有望帮助解决空气冷却系统带来的许多挑战,尤其是随着计算密度的增加。
液冷GPU具有直接到芯片的冷却器,这些冷却器通过冷却剂分配模块回路路由到冷却分配单元。
数据中心使用的液体冷却技术通常分为三类:直接到芯片冷却、后门热交换器和浸没式冷却。
直接对芯片冷却将冷却系统直接集成到计算机的机箱中。冷却液通过管道输送到直接位于CPU、GPU或存储卡等组件旁边的冷板。小管将冷液体运送到每个板上,液体从下面的组件中吸收热量。然后将温热的液体循环到冷却装置或热交换装置。在冷却之后,液体将循环回冷板。
使用后门热交换器可以在机架级别应用类似的概念。在这种情况下,交换器安装在机架的背面以代替其后门。服务器风扇将热空气吹过交换器,从而散发热量。液体通过一个进行热交换的闭环系统循环。尽管具体过程因系统而异,但后门冷却方法通常包括流过交换器的封闭冷却剂和用于在冷却剂循环时降低冷却剂温度的系统。该系统可能只不过是一个局部冷却装置,但它也可能是更大操作的一部分。例如,冷却剂可能通过管道输送到地下以降低其温度。
一项取得进展的新技术是浸没式冷却。在这种方法中,所有内部服务器组件都浸没在不导电的介电流体中。组件和流体封装在密封容器中以防止泄漏。来自组件的热量被传递到冷却剂,这个过程比其他方法需要的能量少得多。浸没式冷却可以是单相或两相的。采用单相冷却,冷却液不断循环冷却以散热。在两相系统中,使用低沸点的冷却剂。当冷却剂沸腾时,它变成蒸气并上升到容器盖,在那里它被冷却并冷凝回液体。
由于液体冷却可以比空气更好地传导热量,因此它可以更有效地处理数据中心不断增长的密度,从而有助于适应计算密集型应用程序。此外,液体冷却显着降低了能源消耗,并且与许多空气冷却系统相比,它使用的水更少,从而降低了运营成本并提高了数据中心的可持续性。液体冷却还占用更少的空间,产生更少的噪音,并有助于延长计算机硬件的使用寿命。
液体冷却的缺点
尽管有这些优点,液体冷却也有其缺点。除了潜在的更高资本支出外,泄漏风险是许多IT专业人员的一个大问题,尤其是直接芯片冷却。如果发生泄漏,可能会对硬件产生破坏性影响。
液体冷却还要求IT和数据中心运营商学习新技能并采用新的管理框架,这可能意味着一项重大任务和额外的运营成本。
这也可能意味着引入新的人员或顾问,从而进一步削弱运营成本优势。此外,液冷市场仍处于成熟期,技术种类繁多,导致专有产品和厂商锁定的风险。
选择空气冷却与液体冷却时要考虑的因素
建立新数据中心或更新现有数据中心的组织可能正在评估是否是实施液体冷却或坚持使用久经考验的空气冷却的好时机。要在两者之间做出决定,他们需要考虑几个重要的因素。
(1)价格
成本是选择数据中心冷却方法的决定性因素,但获得真正的总拥有成本(TCO)可能是一个复杂的过程。液体冷却通常被认为具有更高的资本支出;然而,一些业内人士开始质疑这一假设。根据行业厂商进行的一项成本研究,用于10千瓦机架的基于机箱的浸入式冷却的资本支出与使用热通道封闭的空气冷却机架相当。液体冷却带来的更高效率也可以转化为更低的运营支出,尤其是随着密度的增长。
此外,液体冷却使用更少的电力和水,这在缺水地区尤为重要。另一方面,供应商锁定的风险可能会影响长期总体拥有成本(TCO)。此外,液体冷却通常需要特殊培训或人员来实施和维护,并且管理系统更加复杂和耗时,这会增加运营成本。IT管理员和站点操作员熟悉风冷系统,支持它们的成本通常较低。
在评估总体拥有成本(TCO)时,还应考虑计算机本身。液体冷却可以支持更高的计算密度,同时减少数据中心的占地面积,从而提高空间利用率并降低成本。对更高密度的支持可以使因空气冷却限制而无法实施处理密集型工作负载的组织受益。支持这些工作负载可以转化为额外收入,帮助抵消资本支出和运营支出。
(2)易于安装和维护
另一个重要的考虑因素是部署和维护冷却系统需要什么,这与运营支出的考虑密切相关。使用空气冷却,操作设备和更换组件通常很简单,而且它们很少影响计算机组件本身。这并不是说空气冷却本身不存在挑战,例如持续的水处理或机械维护,但它是一个具有悠久历史的知名实体来支持它。
液体冷却需要新的思维方式和新的工作方式。IT和数据中心团队将有一个陡峭的学习曲线,在某些情况下,可能依赖供应商进行日常维护。例如,如果IT必须更换使用浸没式冷却的服务器中的内存板怎么办?服务器必须从介电液体中取出——这本身就是一项不小的任务——并且液体会清除组件。流体可能还需要特殊处理,因为它是危险的或引起环境问题,从而导致进一步的复杂性。在分析成本时,组织必须评估部署和维护冷却系统的所有影响。
(3)可持续性
数据中心运营商比以往任何时候都承受着更大的压力,要求他们的数据中心更具可持续性。这种压力不仅来自客户,还来自员工、股东、投资公司、政府和广大公众。与此同时,运营商正在努力应对工作负载密度增加和数据量增加带来的挑战,这些挑战可能会影响资源的使用。
转向更环保的数据中心实践的组织应该考虑液体冷却而不是空气冷却,因为它使用更少的电力和水,并且可以更容易地适应更密集的工作负载和数据量。鉴于支持更大可持续性的压力越来越大,液体冷却可能成为唯一可行的选择,因此组织应该为过渡做好准备。
(4)地点
在空气冷却和液体冷却之间进行选择时,位置可能是一个重要因素。例如,北极附近的数据中心可以利用充足的冷空气来降低运行温度。但是,它们仍必须过滤外部空气并调节其湿度,这会削弱使用该空气的一些好处。另一方面,在气候温暖或靠近工厂或其他恶劣环境(无法使用外部空气)的数据中心可能难以维护其空气冷却系统,因为机架密度增加,这使得液体冷却更可行选项。拥挤的城市环境中的数据中心也是如此,它必须增加计算密度以最大化占地面积。地方法规、税收优惠或类似问题也可以在空气冷却和液体冷却之间进行选择。
(5)未来发展
一些组织不支持需要高处理密度的高级工作负载类型,因此可能不需要切换到液体冷却。也就是说,随着数据中心争先恐后地更好地利用占地面积和IT整合工作负载以提高效率,未来几年的密度只会增加。此外,大多数组织可能会转向更可持续的数据中心,这也带来了一系列挑战。在某些时候,液体冷却可能成为唯一可行的选择,尽管这并不意味着组织必须急于采用。但是,他们应该为它的到来做好准备。
技术成熟度在冷却选择中的作用
后门式热交换器在数据中心变得越来越普遍,其他形式的液体冷却也开始取得重要进展。然而,除了大型机和超级计算机之外,液体冷却仍然是一个相对年轻的行业。因此,很难衡量哪些技术将成为领导者,这些技术如何标准化,或者从现在起四五年后会发生什么。
通过空气冷却,很多组织知道他们正在进入什么领域,但它的长期实用性可能会受到限制。不需要急于做出决定的组织可能希望给液体冷却更多的时间来成熟。而有些组织可能会考虑采用分阶段的液体冷却方法。
编辑:Harris