在过去的几十年里,传统数据中心的设计基本保持一致,通常每个机架支持约8到10kW的功率,设计特点是凸起的地板和周边冷却。然而,随着人工智能和加速高性能计算需求的不断增长,数据中心设计正经历显著转变,以支持更高的功率密度(每个机架高达100kW)。
这种转变不仅允许更大的处理能力,还带来了更高的收入潜力,无论是来自托管租户还是人工智能模型用户。尽管传统数据中心的核心结构可能会持续存在,但关键组件将需要不断发展,以满足当前和未来不断变化的需求。
施耐德电气公司创新和数据中心副总裁Steven Carlini分享了新兴技术趋势如何挑战传统基础设施的见解。
传统数据中心的挑战
随着对更高功率和冷却效率需求的不断发展,现有的传统设计难以帮助数据中心跟上步伐。例如,在旧设施中使用凸起的地板,最初用于布线和冷却系统,在当时是可行的。然而,Carlini解释了为什么这种设计可能会在未来的数据中心中逐步淘汰。
他说,“我不认为高架地板会被纳入新的加速计算人工智能数据中心,因为数千公斤的大功率GPU服务器的重量,而且它们很可能是液冷的,这意味着高架地板无法支撑它。”他补充道:“大部分配电和冷却管道实际上将在IT机架之上,数据中心将会垂直堆叠。””
随着数据中心越来越需要更高的功率密度,架空地板的局限性变得更加明显,特别是因为它们已经承受了如此大的重量。这使得改造传统数据中心特别具有挑战性,因为配电必须变得更加密集才能满足现代需求。未来的数据中心设计将大不相同;拥有成千上万的机架将不再令人印象深刻或可取。
面向未来的数据中心趋势
随着对高密度计算需求的不断增加,数据中心的设计也在不断发展,以适应更大的功率需求。Carlini强调了这种转变,他指出:“由于机架的设计是为了支持不断增长的电力需求,我们正在从部署100个10kW的机架转变为为AI集群部署10个100kW的机架。这大大减少了所需的IT占地面积和相关的配电。”
Carlini继续说道:“例如,考虑下一代NvidiaRuben架构,这意味着每个机架的容量为240kW。每个机架240kW,运行功率只有40kW,这是不切实际的;这种方法正在推动致密化和冷却能力的极限。这种转变反映了数据中心体系结构中更广泛的趋势,其中效率和空间优化变得至关重要。未来的数据中心将以更少的空白空间或IT室空间为特色,更加强调外部设备。”
这种转变意味着在设施外放置的冷却器将会增加,而对传统配电系统和中低压开关设备的需求将随着负载更加集中而减少。这些变化不仅可以简化操作,还可以在日益耗电的环境中提高数据中心管理的整体效率。
主要垂直领域的应用:医疗保健和金融
人工智能应用正日益影响包括医疗保健在内的一系列关键行业。随着大量医疗数据在线存储,人工智能改善诊断的潜力是巨大的。Carlini指出:“看诊断真的很有趣,如果你是一名医生,你知道没有办法阅读所有的诊断结果,也没有办法回顾每一个成功和不成功的病例。聪明的医生可能不会直接使用人工智能进行诊断,但他们会利用它来收集历史数据,并以更高的成功率确定治疗趋势。”
这一概念也延伸到了其他领域,凸显了人工智能在个性化服务方面的美好未来,比如量身定制的医疗保健和个性化的财务建议。为了有效地管理这些高级工作负载,Carlini概述了传统数据中心实施人工智能模型的三种潜在选择:
(1)现成的模型:利用云提供商预构建的人工智能模型,并根据使用情况付费。
(2)私有云:在私有云环境中部署人工智能模型,实现定制化,提升效率,优化用电量。
(3)内部开发:从头开始构建自定义人工智能模型。这是最耗时的选择,需要专门的团队为特定的应用程序开发、培训和优化模型。
遗留数据中心的实用解决方案
随着设备陈旧的公司面临着数据处理能力现代化的挑战,一个关键问题出现了:他们如何确定管理数据的最佳方法,以满足当前和未来的需求?
为了应对这些挑战,公司通常从评估其特定的应用程序需求开始。Carlini解释道:“例如,一个制造工厂要转型为智能工厂,就需要集成各种IT系统,如销售点、客户关系管理和供应链管理。一旦他们确定了必要的IT基础设施,他们就会向施耐德咨询他们想要的设置,重点是电源、冷却,尤其是备份时间。”
他补充说,虽然大型云提供商提供了广泛的备份选项,但在本地部署的组织必须仔细考虑其电力可用性和与潜在中断相关的成本。
在目前的情况下,许多企业并不从事数据中心业务,而是寻求现成的解决方案来简化其操作。
Carlini指出:“我们提供模块化的预制系统,这些系统在工厂建造和测试,然后在现场部署所需的IT设备。”
这些系统配备了远程监控和管理软件,这对缺乏内部数据中心管理人员的公司至关重要。因此,组织可以越来越多地依赖施耐德来解决他们的电力需求,谈判公用事业合同,并部署电力和冷却系统,特别是对于高密度的人工智能应用。
然而,除了运营方面的考虑,企业还必须面对部署人工智能应用程序的复杂性。对于网络安全来说,使用网络分段、隔离或气隙非常重要,这可能会阻碍人工智能提取和报告敏感信息并有效保护其敏感数据的能力。
同样重要的是,企业网络上所有受管理的物联网设备都不能提供对敏感数据的访问。Carlini强调了施耐德电气公司在这一领域的积极作用,他说:“我们使用DCIM软件不仅监控所有关键设备,还确保它们拥有最新、最安全的加密技术,其中包括UPS设备、配电和冷却系统,以确保包括网络接入卡在内的所有设备都配备了最新的加密技术,并防范潜在的安全漏洞。”
此外,他还强调了看似无关的系统中可能出现的经常被忽视的漏洞。Carlini解释说:“例如,用于维护的空调机组可能无意中为攻击者提供了访问点,从而扩大了公司的‘攻击面’。”施耐德协助组织评估这些漏洞,确保基础设施的各个部分(包括边缘人工智能数据中心)安全连接,而不会使其他系统暴露于风险之中。
总之,随着数据中心面临日益增长的需求,组织应该采用创新的解决方案,从传统设计演变为支持人工智能的高功能设施,同时优先考虑网络安全。采用这些变化将提高运营效率,并释放人工智能在医疗保健和金融等关键领域的潜力。
编辑:Harris