随着有关人工智能系统的全球支出在2023年至2026年间翻了一番,数据中心的容量显然将会迅速增加以满足不断增长的需求。
然而令人惊讶的是,在过去的一年里,一些数据中心运营商中止或取消新的项目,或者投资放缓,例如伦敦数据中心的空置容量在2022~2023年期间增加了6.3%。
这种违反直觉的发展趋势的背后原因是什么?为了解释这一点,需要了解围绕人工智能计算和支持它的数据中心基础设施的一些问题。
人工智能如何改变数据中心基础设施
数据中心历来都是围绕CPU驱动的机架设备构建的,以处理传统的计算工作负载。然而,人工智能计算需要采用GPU驱动的机架设备,与同等CPU容量相比将会消耗更多的功率,散发更多的热量,占用更多的空间。
实际上,这意味着人工智能的计算能力通常需要更多的电源连接或替代冷却系统。
由于这是嵌入式基础设施,因此它被内置到数据中心综合体的结构中,因此更换它的成本通常非常高。
在实践中,数据中心运营商必须“分割”新的数据中心中用于人工智能和传统计算的空间。
如果数据中心运营商在这一点上犯了错误,并过度投入人工智能技术,可能会永远承受未充分利用和无利可图的容量。
人工智能市场尚处于起步阶段,这加剧了这一问题。调研机构Gartner公司指出,人工智能目前正处于炒作周期中预期过高的高峰期。因此,许多数据中心运营商选择在设计阶段有所保留,而不是过早地在他们的新数据中心项目中应用人工智能计算。
人工智能在数据中心的应用已经有很长一段时间了,这项技术能够以极高的精度和质量承担工作流程。
在数据中心的设计阶段采用整体方法
然而,数据中心运营商敏锐地意识到,在失去市场份额和竞争优势之前,他们只能冒着推迟投资的风险。但考虑到数据中心基础设施的许多基础正在被实时重写,这是一项艰巨的任务。
为了平衡先行者的需求,同时抵消风险,数据中心运营商需要设计他们的数据中心,使其在人工智能计算时代具有最大的效率和弹性。这需要一种全新的整体设计方法。
(1)让更多的利益相关者参与进来
无论数据中心运营商决定人工智能和传统计算之间的确切划分,具有人工智能计算能力的数据中心都将比传统设施复杂得多。更复杂通常意味着更多的故障点,特别是因为人工智能计算比传统计算有更多的需求。
因此,为了保证人工智能正常运行时间,并降低其生命周期中代价高昂的问题风险,团队需要在数据中心的规划阶段更加彻底。
特别是,数据中心设计阶段应该在项目开始时从更大范围的团队和专业知识中寻求投入。除了寻求电源和冷却方面的专业知识之外,设计人员还应该尽早与运营、布线和安全团队合作,以了解潜在的瓶颈或故障来源。
(2)将人工智能构建到数据中心运营中
由于一些数据中心运营商应用人工智能计算,他们应该利用自己的能力来利用人工智能来提高运营效率。人工智能在数据中心的应用已经有很长一段时间了,这项技术能够以极高的精度和质量承担工作流程。例如,人工智能可以帮助:
•温度和湿度监测
•安全系统运营
•电力使用监控和分配
•硬件故障检测和预测性维护
通过在数据中心生命周期的每个阶段主动使用该技术,数据中心运营商可以显著提高其运营的效率和稳健性。人工智能非常适合帮助解决新一代数据中心采用新颖和复杂布局的新挑战,例如通过故障检测和预测性维护。
(3)避免虚假的节约
人工智能在高峰期给数据中心带来了更大的负载,例如在培训运行期间或在生产中运行企业级模型时。在此期间,人工智能计算在功耗、冷却需求和数据吞吐量方面通常会远远地超出传统的预期。
在最基本的层面上,这意味着数据中心的底层材料承受更大的压力。如果这些底层材料或组件质量不高,这意味着它们更容易出现故障。由于人工智能计算意味着数据中心的组件和连接数量的急剧增加,这意味着在传统数据中心上运行良好的更便宜、更低质量的材料可能会使运行人工智能计算的数据中心陷入停顿。
为此,数据中心运营商应该避免为了节省成本而购买低质量的材料,例如不合格的电缆。这样做的风险是虚假的节约,因为这些材料更容易损坏,需要更频繁的更换。但是,更糟糕的是,不合格的材料和部件的故障通常会导致停工或减速,从而影响他们的盈利能力。
(4)解决基础设施难题
虽然人工智能计算的基础设施需求可能是数据中心运营商拖延投资的主要原因,但从长远来看,情况并非如此。
随着市场不确定性的提升,企业将在其数据中心的传统计算和人工智能计算之间的分歧实现一种平衡。
当这种情况发生时,企业需要确保他们在学习和成熟的过程中,在他们运营的数据中心中拥有一切可能的优势。
这意味着从一开始就进行整体设计,利用人工智能本身来发现数据中心的新效率,并投资于能够满足人工智能计算更高需求的高质量材料。
编辑:Harris