从扁鹊医术看华为数据中心智能化运维之道
- 2020/1/13 8:27:08 作者: 来源:数据中心运维管理
-
数字化、网络化、智能化让数据中心市场的进化和迭代"迫在眉睫",而华为网络能源通过技术创新,做到了真正为数据中心市场未来的持续发展贡献更高的价值。数据显示,近几年华为的数据中心能源业绩稳健增长,取得了华为模块化UPS连续4年取得中国市场份额第一、微模块连续4年中国市场份额第一的成绩。
根据典记,魏文王曾求教于名医扁鹊:“你们家兄弟三人,都精于医术,谁医术最好呢?”扁鹊:“大哥最好,二哥差些,我是三人中最差的一个。”文王又问:“那为什么就你最出名呢?”扁鹊回答:“长兄治病于病情发作之前,由于一般人不知道他事先能铲除病因,所以他的名气无法传出去;仲兄治病于病情初起之时,一般人以为他只能治轻微的小病,所以他的名气只遍及乡里;而我是治病于病情危急之时,一般人都看到我在经脉上穿针放血等大手术,以为我的医术更高明,因此名气响遍全国。”
这段关于医术与治病救人的话题,蕴含着值得深思的数据中心智能运维之道。
一数据中心智能化新使命:新应用正带来新挑战
伴随着5G、云计算、大数据、物联网、智慧城市的飞速发展,作为基础设施承载业务的数据中心规模随之越来越大,机柜、服务器数量也进一步增多,数据中心动环系统、运营监控等系统也变得越发的复杂。如此多的信息系统,必定会增加日常运维的难度。因此在数据中心内实现智能化、简单化的运维管理,是数据中心未来更加迫切的需求。在华为以“智能DC,预建未来”为主题的第五届智能数据中心基础设施技术峰会上,华为数据中心能源总裁何波从数据中心管理的维度,结合华为多年来数据中心运维的管理经验,为我们分享了数据中心的智能化运维实践。传统的数据中心在风险识别上,往往依赖于人力、经验,效率低。华为DCIM+融合了IoT、云平台、AI等算法,就像天气预报提前预报可能到来的暴风雨一样,可以提前获知潜在风险,并且把传统的被动式故障处理为主动式的风险预防。可以在数据中心故障告警数据上,智能筛查需要关键处理的告警信息,比起人工筛查减少80%时间,极大的节约的运维工程师的故障筛查时间。同时,将故障部件主动隔离,过保部件提前提醒采购,从而减少50%的告警,减少100%的重大事故风险。华为DCIM+,在智能化识别风险、提升数据中心运维效率方面,起到事半功倍的作用。
二DCIM+,开启数据中心运维的智能时代
如果把扁鹊对兄弟三人医术的评价,看成数据中心运维的事前预防、事中防微杜渐和事后控制和解决。那么智能化运维既需要扁鹊,更需要扁鹊的长兄与中兄,需要灵活运用三兄弟的能力来切实保证数据中心的智能化运维。DCIM作为数据中心基础设施管理工具近年来逐渐被认知并接纳,对数据中心生命周期的管理、运维、节能会产生一定作用,但如果要实现智能化运维,传统的DCIM则无法实现。华为数据中心智能管理系统(DCIM+)为数据中心基础设施提供高可靠运维与精细化运营方案,融合了3D、AI等先进技术,提供可视化管理、AI能效管理、数字化运维和智能化运营等,提升数据中心的管理效率,实现数据中心价值最大化。首先,确保数据中心流程遵从可靠性;其次,加强过程管理,辅助经营分析提升数据中心收益,极致优化能效而节约运营成本。最后,面对出现的问题,彻底解决问题。把握好事前、事中、事后三个节奏点,在不同的阶段运用好不同的控制手段,把数据中心的风险控制在预定范围内,确保数据中心安全运行。DCIM+,支持与安防、消防、BA、动环、电力、AI等多种系统的生态集成。统一信息,统一管理,有效避免了传统的管理割据。
首先,智能巡检运维提升效率与可靠性。传统的巡检任务需要运维人员每天到数据中心去做定期巡检,日复一日、重复枯燥的数百次或上千次抄表工作,并且要随时保持警觉性,从中发现隐患。数据中心运维工作中,人是最关键的因素,摆在我们面前的问题是运维人员如何在重复枯燥的抄表工作解脱出来。华为希望通过DCIM+云计算、大数据、人工智能的方式,通过智能化的手段逐步减少人工巡检等例行重复工作,在运营层面超越人,提高数据中心运维效率,成为数据中心运营、投资决策的重要支撑系统。华为DCIM+,通过打造设备和管理系统一体化的智能解决方案,实现从基础管理到智能运维的飞跃。在通过DCIM+的综合服务平台进行巡检时,对检查过程中发现的隐患,可通过平台的故障处理工具进行修复;如需要现场处理的,通过服务平台触发问题升级,并发送短信或者邮件给现场维护人员处理。在接收到平台触发的告警信息,或者收到平台触发的问题升级信息后,相应维护人员可远程登录处理告警,诊断系统发生的错误等。以便在系统发生故障后,尽快恢复错误,减少损失。其次,基于AI的iCooling能效优化技术,助力数据中心精益运营,为消除无用能耗提供可能除IT设备外,制冷系统的电力消耗是数据中心运营成本的重要组成,管理粗放和为保证系统可靠性而导致的制冷需求被层层放大,造成了难以估量的能源浪费。华为DCIM+,采用了通过AI大平台训练出的精确预测PUE的“神器”——基于人工智能算法的iCooling@AI能效优化技术,为消除无用能耗提供了可能。针对数据中心制冷效率提升瓶颈,系统精确监控各关键节点的能效水平,通过机器深度学习,对历史同期和同地区同类设备能效的比较,识别能效异常设备,帮助运维人员判断异常原因并提供优化建议,确保数据中心整体系统运行在能效最优状态,降低用户运营成本。在保证制冷可靠性的前提下最大限度降低制冷需求,iCooling@AI能效优化技术提升8%。在华为廊坊数据中心,采用iCooling能效优化技术后,全年PUE由1.42降为1.30以下,每年可节省电费近千万元,实现了从“制冷”向“智冷”的转变,切实提升了效益,为未来降低数据中心能耗奠定了新方向。未来也会在更多的数据中心和场景去复制,比如说间接蒸发冷却叠加iCooling,面对中小的边缘DC,不一定是大型的冷冻水系统,可能是风冷直风系统,也可以用AI的方式智冷,在这一块必定大有可为。搭载了iCooling@AI能效优化技术的华为DCIM+,不仅因为意味着更为智能的运维、更精细化的运营,更意味着AI技术的应用、云化的管理,释放传统DCIM更多的潜力。最后,智能化识别风险类型,及时妥善处置关键风险数据中心管理人员除了通过智能化巡检提高运维效率、使用有限的电力和制冷系统将计算资源在有限的空间发挥到极致之外,还要不断地与面临的风险进行斗争。这意味着需要识别和管理各种来源的风险。
传统的数据中心在风险识别上,往往依赖于人力、经验,效率低。华为DCIM+融合了IoT、云平台、AI等算法,就像天气预报提前预报可能到来的暴风雨一样,可以提前获知潜在风险,并且把传统的被动式故障处理为主动式的风险预防。可以在数据中心故障告警数据上,智能筛查需要关键处理的告警信息,比起人工筛查减少80%时间,极大的节约的运维工程师的故障筛查时间。同时,将故障部件主动隔离,过保部件提前提醒采购,从而减少50%的告警,减少100%的重大事故风险。华为DCIM+,在智能化识别风险、提升数据中心运维效率方面,起到事半功倍的作用。
三面向看得见的未来:继续披荆斩棘,勇往直前
数字化、网络化、智能化让数据中心市场的进化和迭代"迫在眉睫",而华为网络能源通过技术创新,做到了真正为数据中心市场未来的持续发展贡献更高的价值。数据显示,近几年华为的数据中心能源业绩稳健增长,取得了华为模块化UPS连续4年取得中国市场份额第一、微模块连续4年中国市场份额第一的成绩。华为数据中心能源领域总裁何波表示:“华为网络能源能够不断突破、不断成长的关键既有外部产业环境带来的机会,也与华为的定位和创新是分不开的。华为每年将销售收入的10%-15%投入研发,持续创新。但是华为的创新不是盲目的,网络能源3000多名研发人员,围绕客户价值创新,帮助客户解决问题。”回首过往,华为一路披荆斩棘!展望未来,华为将在智能化的道路上迈出更加坚实的步伐,继续奋勇向前,借鉴扁鹊兄弟在患者的不同阶段,及时处理、防微杜渐,尽力把故障消灭在萌芽阶段,确保数据中心以最快的故障处理速度,最少的故障率,最低的营维成本,最先进的营维技术与生态伙伴、客户、院校、研究机构和其它社会力量一起,共同助力智能化营维的发展,迎接未来数字化的时代洪流。
编辑:Harris
数字化、网络化、智能化让数据中心市场的进化和迭代"迫在眉睫",而华为网络能源通过技术创新,做到了真正为数据中心市场未来的持续发展贡献更高的价值。数据显示,近几年华为的数据中心能源业绩稳健增长,取得了华为模块化UPS连续4年取得中国市场份额第一、微模块连续4年中国市场份额第一的成绩。