数据中心行业已经能够有效地管理不断增长的需求,并确保业务可持续增长。采用整体方法是超越传统的孤立视图和增强人们对数据中心多目标优化路线图的理解的关键。
本文探讨了2025年颠覆数据中心的趋势,重点介绍了数据中心领域的动态和不断发展的前景。在深入研究主要趋势之前,将对能源和消耗进行概览。
1.能源是人类进步的基石
能源一直是并将继续是人类进步的基石。未来几年,在经济增长和需求上升的推动下,能源产量预计将继续增长。2023年,全球一次能源供应量达到约17.2万太瓦时,严重依赖石油、煤炭和天然气,合计约占81%,而可再生能源约占15%,核电约占4%。
电力是由一次能源产生的二次能源。2023年,全球用电量达到接近30,000太瓦时的创纪录水平,高度依赖煤炭、可再生能源、天然气和核能。在全球电气化的推动下,预计2024年和2025年的电力需求将以每年3~4%的速度增长。
数据中心对许多地区不断增长的电力需求做出了重大贡献。2022年,全球数据中心和加密货币消耗约460太瓦时,约占全球电力需求的2%。预计到2026年,这一消费量将超过1000太瓦时。虽然全球数据中心用电量略有增加,但一些数据中心市场不断扩大的国家正在经历快速增长。
快速增长的计算密集型工作负载、满足更高功率要求的新方法、液冷的采用以及可持续性和效率的努力,预计将成为2025年继续颠覆数据中心的主要趋势。然而,重要的是要认识到,没有一刀切的解决方案来应对这些挑战。
2.计算密集型工作负载正在飞速增长,并产生个拐点
数据中心工作负载受到最近计算密集型工作负载(包括高性能计算、人工智能和生成式人工智能)爆炸式增长的深刻影响。这些工作负载正在推动新IT设备的生产,同时也通过增加AI就绪或专用AI数据中心的数量来改变数据中心的格局。
计算密集型工作负载的多样性和演变带来了新的挑战。为了适应具有更高热设计功率(“超级芯片”超过1kW)和更高机架功率密度(每个机架50+kW,100+kW,300+kW)的新IT设备,数据中心必须采用更高效的冷却和电源解决方案。
作为生成式人工智能工作负载的一个例子,OpenAI于2019年发布的ChatGPT-2模型的参数范围从1.17亿到15亿个不等。2020年发布的GPT-3包含1750亿个参数,而2023年推出的GPT-4估计有大约5000亿个参数。参数的数量表示模型的学习和文本生成能力。
通常情况下,模型越大,它的理解和生成能力就越复杂,这意味着对训练和操作的计算资源的需求要高得多。我们需要记住,这些是从未处理过的新工作负载,应用程序刚刚开始涌入市场。
专用人工智能数据中心正日益成为现实,提供优化的计算、网络和功率密度,以处理新的计算密集型工作负载,同时满足效率、可靠性、可扩展性、安全性和可持续性的目标。与传统数据中心相比,功率密度要高得多,但由于工作负载和应用程序呈指数级增长,设施的规模也在增长。到2026年,专用人工智能数据中心预计将消耗100至300太瓦时的电力。
英伟达在人工智能芯片市场占据主导地位。然而,随着竞争对手推出自己的解决方案,该领域的机遇已经成熟。这些公司从初创公司到谷歌、微软、亚马逊和Meta等公司,再到英特尔、AMD、博通、安培和Cerebras等芯片设计公司。
3。满足更高功率要求的新方法正在成熟
数据中心消耗的能源与处理的工作负载相关。由于各种因素,包括模型大小和复杂性、使用的基础设施和应用的优化技术,很难准确地量化生成式人工智能(如ChatGPT查询)的能耗。经过大量文本数据的训练,它可以理解并生成类似人类的文本。我们可以认为,ChatGPT查询所消耗的能量可以从1到10Wh不等。假设平均4.5Wh,这大约是标准谷歌搜索消耗的能量的15倍,估计为0.3Wh。值得注意的是,该行业正在积极努力提高人工智能系统的能源效率。
在制定技术选择策略时,数据中心位置、电源可用性和电源需求是需要考虑的关键变量。需要决定是继续建设新设施还是改造现有设施。现有数据中心可能会对其部分设施进行改造,以支持人工智能工作负载,由于人工智能培训工作负载对延迟不敏感,因此可以在成本较低的地区的设施中进行处理。另一方面,低延迟、可靠性和可扩展性对于处理AI推理工作负载至关重要,因此首选位置可能涉及更高的成本。
毫不奇怪,包括专用人工智能数据中心在内的新数据中心开发规模正在扩大到数百兆瓦,将新项目的电力需求推向千兆瓦范围。这些巨大的电力需求带来了挑战,但机遇也以各种解决方案的形式出现,以满足这些需求,如微电网(分布式能源)、储能系统、具有电网交互能力的UPS、涡轮机、发电机组、燃料电池、核能和可再生能源。
包括施耐德电气、Vertiv、伊顿、ABB和华为在内的数据中心行业的顶级企业已经提供了创新的解决方案,以满足数据中心不断增长的电力需求。在特定技术领域,许多专门从事这些领域的公司处于行业的前沿。
主要挑战包括:
•避免数据中心电力短缺
•评估电网的可靠性
•提高电网的弹性
•考虑离网解决方案
•评估混合方法的可行性
•理解并遵守法规和可持续发展要求
4.液体冷却的采用正在增加
随着数据中心处理更多的计算密集型工作负载,由于更高的热设计功率和更高的功率密度,它们的传热要求变得更加严格。热行为受IT设备的功率需求的影响,这取决于所处理的工作负载。液体冷却已成为管理新IT设备传热的主要解决方案,同时提高了运行效率并降低了能耗。下表显示了数据中心液体冷却的主要驱动因素和挑战。
不同的液体冷却方法已经成功测试,单相直接到芯片成为领先者,促进了空气和液体冷却的混合解决方案。同时,各种技术正在走向成熟,在可预见的未来没有明确的领导者,如传统的冷板、微流控微通道、微对流或其他方法。也有正负压系统,单相和两相冷却,浸泡,喷雾,冷板和浸泡的组合,或全新的方法。在接下来的几年中,预计大多数数据中心将至少部分实现某种形式的液体冷却技术。
各国政府在推动创新技术方面发挥了积极作用。例如,美国能源部的ARPA-ECoolerchips计划旨在在任何时间、任何地点,将一个典型数据中心的IT负载的总冷却能耗降低到5%以下”。这一举措专门支持颠覆性液体冷却解决方案的开发。
液冷市场正受到众多公司的推动,每家公司都提供自己的创新解决方案。从数据中心冷却领域的顶级供应商,很多公司都在直接向最终用户提供液冷IT设备解决方案。
数据中心在可持续性和效率方面的努力将会增加
数据中心行业的行动和承诺,再加上创新技术和支持性政府政策,对于推动效率和可持续性的持续进步至关重要。随着脱碳动力的增强,人工智能已成为向低排放或净零未来过渡的关键参与者,具有加强可持续发展努力和减少温室气体(GHG)排放的潜力。然而,信息收集和利用的碎片化阻碍了应对可持续性和气候变化的挑战。
人工智能提供了一种革命性的方法,不仅可以处理、聚合和分析大量数据集,还可以以惊人的效率优化复杂的系统,以改善预测。例如,谷歌正在推动更节能的计算基础设施,并确定能够显著减少训练人工智能模型所需能源的实践。他们的第六代张量处理单元(TPU)Trillium比上一代TPUv5e.1节能67%以上。2023年,谷歌的年平均PUE为1.1,自从2017年以来,其年用电量的100%与可再生能源相匹配。
谷歌正在利用人工智能模型来减少温室气体排放,包括考虑交通、地形和车辆发动机的节油路线模型;可以提前7天预测洪水的水文模型;以及优化交通灯时间的交通模型,减少走走停停的交通和燃料消耗。谷歌的目标是到2030年在其整个运营和价值链中实现净零排放。
在对人工智能对优化和性能产生积极影响的潜力保持乐观的同时,我们需要对环境足迹和应对这一快速发展的环境所需的协作努力保持现实。对人工智能的资源消耗进行负责任的管理至关重要。人们清楚地掌握了它目前的需求,但它未来的道路仍不确定。
倡导更加节能和可持续的数据中心是关键。策略包括:
•减少设计和施工过程中的隐含碳排放以及运营排放。
•实施高效和可持续的电力和冷却解决方案。
•优化资源利用。
•使用低排放能源。
•提高能源效率。
•负责任的使用水资源。
•释放余热再利用的潜力。
•建立循环经济实践。
•集成模块化与预制工程和预制基础设施-采用环保材料和技术。
可持续发展报告将成为最佳实践,包括具体的可持续发展和效率指标。利益相关者越来越多地要求提高可持续性实践的透明度,以减少温室气体排放,同时也采用更节约资源的方法,将其视为一种竞争优势。
2024年3月,欧盟委员会通过了一项法规,以评估欧盟数据中心的可持续性。其目标是提高数据中心的透明度和效率,减少能源和水的消耗,促进可再生能源的使用,提高电网效率,并促进废热的再利用。
编辑:Harris