随着银行数字信息化进程的加快,数据中心机房的设备和规模也日趋扩大,设备运行维护已成为银行数据中心机房巡检中不能忽视的问题。在基础技术飞速发展和金融业务安全创新的要求下,如何提高巡检效率和巡检记录的准确度,将巡检工作无纸化、信息化,从桌面巡检到移动巡检成为了我们的目标。
1 数据中心巡检现状
(1)数据中心巡检模式
当前数据中心的巡检模式主要分三种:人工现场巡检、运维监控系统实时监控远程巡检和运维监控系统报警信息发送巡检人员的报警巡检。
人工现场巡检主要是通过安排巡检人员每天固定时间前往机房查看设备状态,填写相应的纸质巡检表。巡检表需要记录关键配电设备的电压、电流、功率、电能等参数,记录UPS、空调等的运行状态,记录环境温湿度、漏水等信息。填写的纸质巡检表需要人工录入到电脑,以便进行维修派单或进一步统计分析。
运维监控系统实时监控远程巡检主要是机房管理人员通过运维监控系统开展远程巡检,实时监测机房的环境状况,动力设备使用情况,并导出相应数据报表进行进一步分析。
运维监控系统报警信息发送巡检人员的报警巡检主要是通过运维监控系统的告警功能将告警信息实时发送给机房巡检人员,机房巡检人员收到告警信息后前往机房解决告警。
(2)巡检模式存在的问题
人工现场巡检主要存在的问题:
a)无法确定巡检人员是否按时到岗;
b)无法确保巡检数据的真实性和准确性;
c)采用纸质表单手工汇报,需要二次录入系统,信息采集效率较低;
d)巡检数据反馈滞后,无法第一时间通知抢修,可能造成潜在损失;
e)制定设备巡检报表时效性差,需花费大量的人力及时间成本;
f)各网点的设备巡检数据无法在总部层面集中管理和查询;
g)故障处理响应不及时,缺乏对设备厂家的有效监管;
h)无法准确的对设备厂家的售后服务情况进行掌握,不能对设备厂家的响应情况进行有效评估。
远程巡检存在的问题:
a)实时监控数据存在不确定性,监控系统可靠性达不到要求;
b)监控系统界面繁多,数据量庞大,可巡检性不高;
c)巡检数据直接导出,无法保证巡检人员是否认真查看数据;
d)需要依托运维管理系统,只能在能访问到运维管理系统的PC上才能实现远程巡检。
报警巡检存在的问题:
a)实时报警数据存在不确定性,监控系统可靠性达不到要求;
b)只能被动接收报警信息,无法主动巡检查看某个设备参数;
c)报警产生后才能得到反馈,无法提前处理隐患防患于未然,可能造成潜在损失;
d)无法有效记录巡检信息,查看相应记录需要访问运维管理系统。
综上,现有的数据中心巡检模式存在以下特性:
缺乏及时性:对反映运行状态和设备缺陷等的信息得不到及时反馈,设备隐患不能及时发现引发设备故障;
缺乏真实性:利用传统的巡检管理方法难以有效监督巡检人员,巡检不到位而引发的设备事故屡见不鲜;
缺乏规范性:传统的巡检方法人为修改多,流程难以规范化、智能化,难以实现科学管理;
2 移动巡检系统概述
随着智能终端便携设备以及5G、WIFI网络的普及,使得手机作为移动巡检终端成为了可能。深圳计通公司依靠强大的自主研发实力,基于已有的动环监控系统并结合移动平台,构建了一个集数据监控、移动巡检、移动运维、实时告警、数据查询统计于一体的全方位移动巡检管理系统——JITON-AMS移动巡检系统,见图1。
以动环监控系统实时的数据为支撑,利用多种技术,让巡检人员可以实时准确的掌握机房设备信息,并通过手机移动巡检功能,提高设备巡检工作水平和设备运行状况的监测水平。
同时系统可掌握服务外包商对售后服务的响应情况,让服务外包商的服务质量做到有据可循,管理层可以随时查看统计信息,及时了解设备的问题状况和故障处理完成情况。为公司的决策提供依据,也为监督员工、加强员工绩效考核提供数据依据。
(1)系统功能
动环模块是针对机房动力环境系统进行数据对接,从动环监控系统中获取监控参数并对配置选择参数进行浏览,实现查看实时报警、实时数据、查看控制记录、历史报警并且可对设备进行实时控制。此模块由PC端对接动环系统数据,选择设定用户较关心的设备及参数,在移动端进行显示,见图2。
(2)巡检模块
JITON-AMS移动巡检系统通过手机对机房设备进行移动巡检,记录设备运行参数和状态并上传至后台管理系统,同时支持对巡检人员的到位监督,管理人员可通过系统获取巡检记录以及巡检人员的到位情况,并生成对应的统计报表,便于对移动巡检工作的考核,见图3。
目前深圳计通JITON-AMS移动巡检系统已经成功应用于金融保险行业、教育医疗行业、政府机关单位、互联网业、航空机场等各个行业。
(3)运维模块
JITON-AMS移动巡检系统支持移动运维管理功能,通过手机APP的移动运维管理功能,实现对服务外包项目的管理,当发现系统设备故障时,可及时通知设备厂家进行处理。
为便于管理人员对设备厂家售后服务质量的评估与考核,系统能有效的监管和记录故障处理的过程,后台系统支持查询故障处理情况,并能生成对应的统计报表,见图4。
3 各类巡检优缺点对比(见表1)
4 移动巡检系统的实施建议
(1)制定相关规范和标准
目前移动巡检系统在银行业数据中心运维应用中尚无相关规范标准,监控数据的安全级别暂无明确界定,建议制定相关技术标准及管理制度,以确保移动巡检系统在银行业的应用推进过程中,有章可循,有据可依。同时采取先开放部分安全程度不高的数据如温湿度、空调、UPS运行状态等,保障数据中心安全的同时提高巡检效率。
(2)加强网络安全
加强关键信息基础设施网络安全防护,加强网络安全信息统筹机制、手段和平台建设,加强网络安全事件应急指挥能力建设,制定网络安全标准,不断增强网络安全防御能力和威慑能力。加强网络安全预警监测,确保大数据安全,实现全方位感知和有效防护。
(3)根据实际情况选择巡检方式
如今银行业的数据机房大小不一,规格迥异,呈多样化,针对各种情况的机房,应根据实际情况选择巡检方式。如针对于各支行的小型机房,安全级别不高,设备少,可以直接由总行下发巡检任务,支行人员使用移动巡检系统上传机房运行信息,由总行人员统一管理巡检信息。
编辑:Harris