虽然超大规模企业已经使用人工智能来改善运营,但大多数其他数据中心的集成度还不够高,无法使其发挥作用。
数据中心管理的工作正在迅速变化。有混合环境和多云需要处理、边缘计算以及快速发展的网络安全威胁的持续冲击。
人工智能承诺解决他们所面临的所有复杂问题。自学习系统将自行适应快速发展的环境,抵御已知和未知威胁,以超人的准确性即时响应,并且以低廉的成本完成所有工作。
由于孤立的系统和缺乏集成管理平台,目前还没有,而且可能不会持续很长时间。
安永咨询服务董事总经理AmrAhmed表示,数据中心的复杂性呈指数级增长。过去,一家公司可能只有一台大型机。然后,有了客户端-服务器,环境增长到数十、数百或数千台机器,他说。“分布式环境——数十万;虚拟化——数百万;云——数千万。”这超出了人类的管理能力。“人工智能是必不可少的,”他告诉DCK。“没有办法解决它。这不是一种选择。它不是可选的。”
最大的云提供商,超大规模者,已经将机器学习(一种人工智能)应用于这个规模问题已经有一段时间了。“预测故障、自动转移工作负载——这些事情不会在未来十年内发生,”他说。“它已经存在。云服务提供商已经在他们的云环境中使用它。这就是他们可以大规模提供服务的方式。”
多年来,特别是在数据中心电力和冷却领域,高级分析已被用于降低能源成本。“有许多工具可以分析这些数据并做出决策,”艾哈迈德说。
当人工智能可以帮助提高数据中心的正常运行时间时,这是一个明显而明显的好处——也是大型数据中心运营商关注的一个重要领域。Capgemini人工智能和分析副总裁DanSimion表示,人工智能和机器学习可用于预测关键任务的失败,并避免意外的系统和服务故障或数据中心中断。“这种方法创造了一种自我修复机制,”他告诉DCK。
他补充说,虽然大型数据中心供应商在这方面处于领先地位,但高科技公司也可能会从头开始构建这类人工智能系统,如果它在他们的驾驶室里。
他说,数字化程度最高的公司已经从他们的人工智能投资中看到了价值,拥有大型数据中心的公司也是如此。
人工智能需要态势感知
对于较小的数据中心,开始部署人工辞退的最简单方法是依赖技术供应商。但是,这种方法存在局限性,即难以处理相互依赖和业务环境。
为了发挥最大的作用,人工智能需要态势感知。对于仅限于单个供应商的产品及其功能的人工智能系统来说,这是很难做到的。
“当我看到我的网络、我的计算或电源使用量激增时,这可能与我的劳动力变化有关,”艾哈迈德说。例如,更多的人可以在家工作。这可能是由于正在推出重大平台升级-或者是一些邪恶的事情。“添加该业务环境为复杂性增加了第三个维度。”
大多数供应商仍处于将人工智能和机器学习功能添加到单个产品的早期阶段。例如,产品可能会提供异常活动的警报(机器学习最常见的用例之一),但除此之外没有其他太多。更高级的供应商可以提供预测分析、行动建议,甚至自动修复问题。
一种更全面、更有效的人工智能方法是领域不可知的,从所有系统中提取数据。在大多数情况下,实现这种能力还处于早期阶段。
首先,通常存在组织障碍。“这一切都在孤岛中,”艾哈迈德说。“有网络团队,有管理这个的基础设施团队,还有管理它的运营团队。将它们整合在一起并使用AI和ML来理解它需要时间。”
在单个系统上部署人工智能工具更简单,但一些组织开始采用更集中的方法。“他们正在改变他们的运作方式,”他说。
尽早打好基础
有远见的数据中心经理在设计他们的系统时考虑到了人工智能。
一个有吸引力的用例是预测设备何时可能会提前损坏,以便在它导致数据中心宕机之前对其进行修复或更换。
美国主要数据中心提供商QTSRealtyTrust的产品首席技术官BrentBensten表示:“供应商都在谈论人工智能或机器学习的这种必杀技,以预测何时会发生故障。”
此功能需要跨不同系统的整体视图,而这种视图仍然很难获得。要确定设备何时可能发生故障,您可能需要温度数据、利用率历史记录、功耗数据等。
Bensten说,“孤立让事情变得困难,直到你可以将系统与其他系统融合在一起,让它们变得更智能,人工智能和机器学习才会变得强大。这就是我的观点。”
在过去四年中,QTS一直在投资于统一平台以满足其基础设施管理需求。他说。“我们把它们全部拿来,把它们合而为一,然后我们就可以在它上面做人工智能和机器学习。”
编辑:Harris