AIOps进行时 数据中心运维也要智能化
- 2019/4/9 7:16:37 作者: 来源:中关村在线
-
数据中心的软件智能化已成为共识,但背后的IT运维到底要进化到何种程度?现实情况是,一方面随着企业所面临的运维数据在时间、空间、架构、规模等方面越来越复杂,另一方面新旧业务之间的平滑对接对传统IT流程也是不小的考验,如果运维的AI化落后于数据中心的AI,无疑会拖累数字化的进程。
数据中心的软件智能化已成为共识,但背后的IT运维到底要进化到何种程度?现实情况是,一方面随着企业所面临的运维数据在时间、空间、架构、规模等方面越来越复杂,另一方面新旧业务之间的平滑对接对传统IT流程也是不小的考验,如果运维的AI化落后于数据中心的AI,无疑会拖累数字化的进程。
如果按照字面意思,AIOps即Artificial Intelligence for IT Operations,不过Gartner对它的解释是Algorithmic IT Operations,也就是基于AI算法去解决IT运维流程中的问题,例如性能监控、可用性分析、关联事件、自动化,以及日志、应用状态等运维数据信息。这一过程中,并不涉及人为的干扰因素。
调查显示,全球有超过3000名CIO将数字化业务列为工作重点,预计AIOps的全球部署率会从2017年的10%升至2020年的50%,所覆盖的行业将涉及金融、电力、医疗、航天、通信、HPC等领域。其背后的挑战可以从几个方面来看,首先是规模倍增,设备端可能有数十万台主机需要监控至少数千个运行状态,所处理的数据量日均也是T4B级,而且还是实时的。
其次,IT运维对连续性的高要求使得持续的交付、集成、调度成为首选,再加上海量的数据,对已有的运维成本存在较大挑战,例如当前IT业务中充斥着公私混的云环境,以及第三方的SaaS类应用,传统的管理办法再弹性环境中难以适应,而借助人工去监督、统计、追踪、分析是很大的工作量,情况只会越来越糟。
此外,更多的感知行为正在向网络边缘移动,使得云基础架构成为了IT解决方案部署的首选平台,从而让开发人员获得了较以往更大的权力,IT人员还要在ITOps的层面承担更多责任,例如了解业务是如何在服务和底层架构之间进行交互的。
从脚本运维到工具运维,再到智能运维,特点可以体现以下方面:数据源搜集、大数据分析、规则及模式识别、域算法、AI算法、自动化。需要注意的是,AIOps并没有改变AI应用本身,而是强调对流程、规则的AI化。例如,AIOps可以从无到有先对单点进行击破,然后形成局部方案以此类推到面,由多个单点模块组成完整的AIOps流程。其优势是,可知悉、可重用、可升级。
与此同时,运维团队的角色也在转变,要加入数据工程师、开发工程师甚至是AI工程师,除了继续承担质量、成本、效率方面的工作,还要在AIOps的实施过程中变身为需求的发起方和结果收验方。其中,运维AI工程师也要学会利用机器学习对运维产生的数据、经验进行整理和分析,最终让数据发挥应用的价值。
当然要想具备运维AI的技能并不容易,对TensorFlow、Caffe、CUDA这些框架要有基础,还要对交叉验证、验证曲线等模型评估有基本的判断。要知道在基础运维平台中,除了在运维时要提供标准化的运维数据和操作,在AIOps时的一些接口仍需要同时支持人工和自动数据获取和运维操作。
无论多么智能,AIOps的核心还是Ops,这就决定了其会是跨领域的技术理念,因此在企业内部开发者智能运维的时候,要结合业务特点来制定AI机制,不排除做二次开发的可能。如果运维不能AI化,那数据中心再怎么智能也只会停留在表层。
编辑:Harris
数据中心的软件智能化已成为共识,但背后的IT运维到底要进化到何种程度?现实情况是,一方面随着企业所面临的运维数据在时间、空间、架构、规模等方面越来越复杂,另一方面新旧业务之间的平滑对接对传统IT流程也是不小的考验,如果运维的AI化落后于数据中心的AI,无疑会拖累数字化的进程。