如何通过人工智能应用程序加强和扩展数据中心IT团队
- 2019/5/22 7:06:33 作者: 来源:机房360
-
在整个数据中心领域,当向专业人士询问他们最关心的问题时,他们可能会回答一个问题:停机时间。
在整个数据中心领域,当向专业人士询问他们最关心的问题时,他们可能会回答一个问题:停机时间。即使拥有最勤勉的团队和全面的操作协议,也需要考虑太多因素来完全防止中断,尤其是在涉及人为错误的可能性时。由于停机时间损失巨大(报告显示,在2017年和2018年,平均一小时的计划外停机成本可能高达500万美元,更不用说由于不可靠而造成的声誉受损成本),数据中心专业人员正在寻求新的和创新的解决方案,以防止代价高昂的停机。
在保护数据中心系统免受故障影响方面,通过对日常操作进行仔细监控和警惕,可以解决许多问题。但是,如果没有某种方法来增强数据中心现有的技术人员和工程师团队,那么维持如此高水平的持续监督是不可行的。幸运的是,基于人工智能(AI)的新技术的开发将使数据中心能够成功解决停机等问题,使其能够满足正常运行时间保证并防止代价高昂的停机。在描述2018年十大战略技术趋势时,Gartner公司分析师预测人工智能将成为主要的行业参与者。位于蒙特利尔的下一代数据中心公司ROOTDataCenter首席执行官AJByers表示,“利用人工智能来加强决策、重塑商业模式和生态系统,重塑客户体验的能力将推动数字化的回报,直到2025年。“
ROOTDataCenter调查了使用人工智能作为其数据中心运营团队的眼睛和耳朵的前景,增加了可以预见并可能纠正问题的额外自动监控层。ROOTDataCenter自己制定计划,利用人工智能传感器和机器学习来预测可能的故障,消除人为错误,减少停机时间,并提高整个数据中心的效率。
如何把握机遇或应对挑战
ROOTDataCenter制定了一项由4个相关项目组成的五年战略,其中第一个项目于2017年启动,并持续到2018年底。该初始项目的重点是在一个电力容量为5MW数据大厅的发电机平台内安装和部署传感器。通过部署这些传感器,收集数据并使用机器学习来建立基准操作级别,这将允许它们向数据中心人员提醒基准指数之外的操作。自人工智能技术实施以来,在发电机方面对人工智能进行了3000多次培训,这意味着实施250小时的增强监测。
在随后的阶段和项目中,ROOTDataCenter制定了目标,并概述了增强数据中心趋势分析的计划,增强了人工智能数据中心控制,并最终转向具有人工故障安全的操作系统。以逐步的方式,人工智能人员计划扩展到主要监控系统,在那里它将预测发电机故障,并允许预防性维护。从那里开始,它将以整体的方式被纳入,其中运营商将不再做出决定,只确认人工智能的评估和决策。
人工智能系统利用3,000个培训课程和25,000个工作单元来扩展传感器的领域知识,使他们能够在各种操作条件下感知、识别和了解发电机维护问题。
这个项目是世界上第一个在托管数据中心使用人工智能来测量和减少客户停机时间的实例。根的团队将人工智能系统命名为Alex,它已经成为数据中心运营的一个有效集成部分。
倡议的好处
通过制定和实施其五年计划的第一阶段,ROOT成功开发了一种经济高效的创新战略,以降低人为错误的风险,并最大限度地减少停机时间。AIex成功维持了ROOT客户的正常运行时间。
ROOT的人工智能能够克服重大的技术障碍,其中包括变化的环境噪声、个体噪声特征以及一系列需要动态方法和发电机运行调整策略的事件。在整个项目中,ROOT不仅降低了停机风险,还在其数据中心设施内实现了100%的正常运行时间,同时提高了持续维护的运营效率。
总体而言,Alex开创了一个先例,可以在全球其他数据中心应用,从而使依赖数据中心正常运行时间的行业及其客户受益。ROOT关于此用例的详细阅读白皮书导致其他数据中心跟随公司的脚步,清楚地表明人工智能如何降低停机风险。
编辑:Harris
在整个数据中心领域,当向专业人士询问他们最关心的问题时,他们可能会回答一个问题:停机时间。