智能化的应用对于我们数据中心基础运行部的工程师们并不陌生,我们每天关注的监控信息、自动控制、安防系统和消防手动自动系统等等都是与运维者工作相关的重要信息。为满足基础设施的工作需要,提高机房维护和管理的安全性,就必须要对数据中心基础设施以及机房内运行的IT设备实时状态进行一定深度的监控管理,才能相对全面地对基础设施运行状态进行细致的了解,使得处于潜伏期的故障彰显,提供治理的线索和依据。
一、监控系统在数据中心的主要作用
1.以直观并易于理解的方式表示系统数据;
2.允许操作者通过发送相关的命令控制相关的系统;
3.自动执行预先计划的任务;
4.通知操作者关于系统的各种事件,包含报警事件和系统事件;
5.生成多种复杂的报告。
二、数据中心监控系统功能
采用集中数据采集单元对机房前端设备进行监测、管理,对被测对象、被测子系统、被测数据和被测设备的运行状态进行监测、性能参数进行监测和环境设备进行控制,并能迅速和准确地将状态信息和有关数据传送到监控中心管理服务器上,通过监控中心管理服务器实时现显示、报警、浏览、查询、分析、管理、授权和存储等功能。数据中心环境综合监控系统中集成有动力监控、环境监控、安防门禁和设备管理等。
三、数据中心监控系统的组成
典型的监控系统主要由前端的传感器、摄像头、信号发生设备、控制器、存储设备、讯响器声光报警和显示器这几大部分组成,其中后端设备可进一步分为分项控制设备和总控设备。前后之间的联系称作传输,可通过多芯带屏蔽电缆、同轴电缆、光纤、雷达等多种方式来实现。
数据中心监控系统最主要的是对设备监控系统和电力监控。这其中包括信息采集、信息处理两个子系统。
1.信息采集子系统
采集模块可提供各种形式的接口,以便接入不同的监控管理末端;实现各种采集信息的协议解析,将解析后的信息按统一格式上传至处理单元。
2.信息处理子系统
信息处理子系统是监控管理系统中完成监控功能的核心子系统,要实时、灵活、运算和存储大规模数据,这要涉及到以下两个关键模块。
1)复杂事件分析处理模块
复杂事件分析处理模块这里需要多解释一下,复杂事件分析处理模块CEP(Complex Event Processing)首先捕获各种源头事件,分析整理,找出更有意义的复合事件。复合事件的提炼正是CEP的核心,也是最复杂的地方。实时数据作为事件源接入事件处理总线,CEP引擎通过指定的规则,处理这些实时数据和缓存的历史数据,并通过事件处理总线将有意义的事件提供处理。
应用实例:以往数据中心总控中心ECC(Enterprise Command Center)经常遇见有报警风暴,一项报警源引起与其关联的若干项的阈值超出。比如在数据中心供电发生故障时,会引发大量的设备报警,在这个时候,通过复杂事件分析处理模块进行分析后,则可从事件潮中分析出真正的告警原因,将所有设备报警合并成一条停电报警。使用中,当监控对象的逻辑关系发生改变时,必须维护事件匹配规则,以保证处理的正确性。
2)调节与控制模块
目前ECC总控中心对于影响到业务系统安全的设备都是采取的只监视不控制的原则。对环境设备监测,如新风机和灯光照明等,安防系统,如闭路视屏监控系统和门禁考勤系统等是可以接收控制输入的,可以利用调节与控制模块这一特性,对数据中心进行精细化控制和智能化管理。
调节与控制模块工作方式有两种:一种是手动调节与控制,一种是自动调节与控制。
手动调节与控制相对比较简单,由人来进行判断和决策,形成控制指令,通过监控系统下发到对应的设备,达到调节和控制的目的。此时,系统的调节和控制完全依赖个人经验,随机性比较强。常见的手动调节与控制方式有远程开门,根据机房温度,手动调节每个空调的设定温度等。手动调节和控制不仅通过监控系统来完成,也可以通过电话或短信等方式进行操作。
自动调节与控制区别于手动的地方在于,将人的经验数据内置到了监控系统中。监控系统根据这些经验数据,形成调节与控制逻辑。当监控系统采集到的数据流入该调节与控制逻辑单元时,该单元形成预期的调节与控制指令,下发到对应的设备,从而实现了无人值守的自我调节。常见的是联动控制,如消防火灾联动门禁开门、门禁开门联动视频录像和消防火灾联动实时视频播放等。随着数据中心节能的需求日益彰显,空调群控技术就是有针对性应用的一种实例。
四、数据中心运行管理系统
1.数据中心资产管理模块
即对数据中心物理资产的生命周期管理,相关资产附带了一些与基础设施管理相关的基本属性信息。
1)IT资产管理的范围
资产管理范围除包括数据中心的服务器、网络、存储设备之外还包括系统和工具软件、应用软件等资产,包括基础设施运维管理相关的信息。
2)IT资产分类
IT资产按形态分为两大类,即软件与硬件。软件:主要包括系统和工具软件、应用软件;硬件:主要包括服务器、网络、存储、IT办公、场地设施相关设备。
3)主要功能模块
机房资产管理模块——用于记录、查询、更新运维服务相关的软硬件资产信息,包括各类服务器、网络设备、存储设备、光交换设备等,借助射频技术还可以实现对资产设备的进出机房控制、快速定位、定期盘点等功能;
库存资产管理模块——用于记录和管理库存资产、设备、耗材等方面,包括出入库管理、查询、盘点等活动;
介质管理模块——用于记录和管理服务相关的介质信息,包括光盘、磁带等介质的标签、存放位置、存储内容、物理介质快速定位等;
耗材管理模块——用于记录和管理服务相关的耗材信息和相关的活动,如网线、光纤等,控制耗材的申领、使用、储备等活动,还可以实现储备预测、消耗分析等功能,以便增强对有关内容的管控;
基础信息管理模块——用于管理和维护资产相关的基础数据,以便用户在使用系统时能方便的选取,提高系统的易用性,降低用户手写的工作量和出错概率;
报表统计模块——用于统计和汇总资产变动、出入库信息、耗材使用和消耗情况、介质的调入调出信息等,方便管理人员对基础架构进行决策和管理;
系统管理模块——包括用户管理、权限控制、部门管理、安全控制等功能,用于控制资产数据库的授权、维护、引用等活动,便利用户的使用并控制风险;资产的入库、领用、上线、报废等申请、审批流程管理。
2.基于电子标识码的资产管理
电子标识技术有读取速度快、无需人为干预读取数据过程等优势,可以进行快速的资产识别、盘点,实现准确快速掌握重要固定资产信息。
采用电子标识将资产实时监测与资产管理有效的整合在一起,从而达到实物信息与系统信息的实时同步一致。从而实现资产全生命周期自动追踪管理。
3.容量管理模块
基础设施监控管理系统的容量管理主要针对数据中心的电力、制冷、空间等基础设施的支持能力,容量管理主要包括如下几部分:
性能管理——包括测量、监控和调整基础架构或组件的性能以期达到最佳性能;
应用适配——包括应用、设备分配合适的资源以适应当前及未来规划的业务需求;
容量建模——包括识别容量管理所涉及的各因素及对应的权重等信息,并借助信息技术建立对应的容量模型;
负荷管理——包括监控、测量负荷变化以便获取实时容量使用情况,以便指导容量规划和扩展;
容量规划——包括创建和规划容量计划,以便适应业务发展的需要;
需求管理——包括通过调整不同系统的负荷或分流高峰时的业务负荷以期更合理地利用系统支持能力和有关资源。
4.运维管理模块
运维管理是数据中心稳定运行的保障,也是数据中心日常管理的重要内容,它支撑着数据中心的故障处理、日常检修、定期巡检及人员值班管理等活动。运维管理模块是运维管理的支撑平台,为运维管理活动的展开提供了电子化支撑。
1)运维管理的范围
运维管理的范围涵盖如下的内容:故障响应与处理,包括各类设备故障的监测、响应、派单及工单管理等内容;
预防性维护管理,包括定期巡检管理、移动巡检管理、日常巡检等内容;
统计分析,包括服务团队的运作效率、工单处理情况、工作量等指标,运行情况的统计分析等;
知识共享和积累,包括故障处理经验沉淀、归档、共享,系统基础资料,应急预案等。
2)主要功能模块
根据运维管理的范围和主要活动,需要包括如下功能模块以匹配和支撑对应的运维活动:
事件管理——用于故障的响应、分析、派单及后续的工单管理等活动,支撑和控制服务管理中所定义的各级处理团队的协作和故障单流转,是运维管理所依赖的基本功能;
预防性维护管理——主要是定期巡检和移动巡检,用于设备的预防性维护,通过周期性的检查和维护在设备出现异常之初就进行修复和维护,从而防止重大故障的导致;
知识库管理——对于日常故障管理需要提供信息共享平台以便保存和共享有关的处理经验,提高协作的效率;
服务级别管理——用于确保和量化整体的服务交付质量符合与客户签订的服务合同,包括响应时间、解决时间、解决率等;
系统管理——包括用户管理、部门管理、角色管理、权限管理等内容,用于支撑其他功能的实现;
统计分析——用于日常工单的统计、分析,以便分析处理效率、响应能力、工作量等指标,便于运维服务的优化和考核。
3)能耗管理模块
为了实现能耗监测与分析,监控管理系统还应包含能耗监测与分析系统。该系统通过分布在数据中心供配电系统各重要节点的采集设备监测电量、电流、电压等参数,对采集的参数进行分析和统计,以报表的形式展示数据中心各能效评估域的能耗评估结果,供能耗优化和调整时参考。使用该系统不但可以了解数据中心能耗状况,还可以对能耗管理的结果进行横向、纵向比较。
5.总控中心ECC系统ECC中包含两个重要模块。
1)告警模块
告警模块在系统或者是监控对象出现告警时,能以声光、短信、电话、邮件等形式,及时通知用户,使故障得到快速解决。一般监控管理系统中会统一集中告警,因此告警模块一般提供开放式的访问接口,以供监控管理系统中其它子模块调用其告警服务。告警模块的告警信息输出方式,往往提供(包含且不仅限于)声光、短信、电话、邮件等方式,还可以和企业的短信网关进行对接,通过统一信息平台发布告警信息。
告警模块作为信息交互的终端,其交互信息的准确性很重要。如果通过告警模块发出的告警信息过多,往往会将真正重要的信息淹没,导致重大事故产生。因此,输入到告警模块中的信息必须经过有效性过滤,也就是说在告警信息发出之前必须经过本文前面提到的复杂事件分析模块的分析处理。复杂事件分析模块的有效性,决定了告警模块信息交互的有效性。
告警模块作为告警有效信息的重要输出载体,保证信息的目标可达性也至关重要。在告警模块运行过程中,程序的崩溃、网络故障、机器宕机等都随时导致告警信息的丢失,耽误故障处理的有效时机。因此,告警模块应具备容错机制,包括重发、断点恢复续传等。根据数据中心等级建设的要求,告警模块也需要进行对应的冗余设计。同时,由于告警方式的不可靠性,如电话有可能无法接通,邮箱服务器可能发生故障等,为保证信息的送达,一般还需要在告警模块中设计告警升级功能,如根据服务等级,对于高等级的事件,超时未处理的事件应进行各种条件的告警升级处理。升级处理,包括告警对象的升级处理,如值班人员A未拨通电话,重试失败后升级到值班人员A的主管;还包括告警方式的升级,从总控中心现场的声光告警,升级到短信、电话报警。复杂情况,还包括两种升级方式的组合。
2)大屏控制模块
总控中心是中大型数据中心运维团队进行运行监控值守的场所,运行维护值守人员主要依托监控管理系统的总控中心大屏展示的信息来了解、获知、分析庞大、复杂的系统和设备的运行情况。由于监控管理对象的复杂性,很多情况下,值守人员需要从不同维度同时了解、分析数据中心运行情况,这就需要从不同维度展示运行情况的多个显示屏幕。显然在一套大屏上从多个维度集中展示的监控、故障相关信息越丰富、越清晰明了,越有助于运维人员及时发现和快速解决问题。因此,在数据中心监控管理中心(或ECC)都配备有多个屏幕拼接组成的大屏显示系统。
大屏幕展示模块在数据中心的应用一般有两种方式:一种是采用专业的智能屏控系统,一种是采用简单的液晶屏组合系统。
6.基础服务模块
基础服务模块包括实时数据库和历史数据库。
1)实时数据库模块
实时数据库是数据库系统发展的一个分支,是数据库技术结合实时处理技术产生的。实时数据库专用于处理带有时间戳的数据,其特点产生频率快,并发量大,数据和时间有紧密关联关系。实时数据采集产生大量并发和持续的数据流,传统数据库并不适合流式数据处理,需要精心考虑数据存储策略。实时数据库在监控系统中作为高速数据访问的缓存设施,提供实时测点访问、实时事件访问等服务。
实时数据库最大的特点就是及时性。实时数据库另外的一个特点是存储信息多样性。随着数据中心建设规模越来越庞大,要求管理的实时数据规模也越来越庞大。因此对实时数据库模块的处理性能,承载容量的需求也越来越高。
2)历史数据库模块
实时数据库模块为实时数据计算提供数据来源,历史数据库模块则为后期的数据分析、统计、挖掘提供数据来源。
历史数据库是一种支持在线事务处理和数据挖掘的中间数据库,它负责将实时数据库中的实时数据流转储到中间数据库中,供日后分析处理。由于业务的发展和多变,历史数据库模块首先需要解决业务变化的适应性。历史数据库遇到一个挑战是大数据量的存储和检索。一个超大型数据中心监控测点数以几十万计,如果不进行任何处理,要对这些测点数据进行存储,数据量每天以GB级别的增长。因此,存储前的数据压缩处理和数据库的合理设计,对大数据的存储和检索性能至关重要。
3)配置管理数据库模块
配置管理数据库存放所有的软件和硬件(不仅仅是计算机软硬件),这些组件称之为配置项。配置管理数据库是监控管理系统业务服务管理策略的核心,是配置信息的唯一来源。它保证信息的唯一性,准确性。
配置管理数据库模块是监控管理系统的灵魂,这个模型的建设的好坏,决定着监控管理系统的管理效率和有效性。
7.监控系统的负面效应控制
优质的传感器提供准确的模拟量和优质的变换器提供准确的数字量,减少采集的差异和控制的误动作及文件生成的失效的机率。
五、数据中心基础设施各种设备监控的核心点的关注
1.电力监控:数据中心在电气设计中,对于
采用双回路供电电源和自备发电机组的供配电系统,均设置了一整套完整的电气联锁启停和保护装置。当工作电源失电后,备用电源通过联锁装置的切换投入运行,担负起全部负载的供电,当发生两路供电电源都失电时,应急柴油发电机组将在最短的时间内自动启动投入运行,担负起确保负载的供电。当外部供电电源恢复供电后,电气联锁装置将使柴油发电机组自动停机。因此,数据中心供配电监控系统,主要是监测供配电设备和柴油发电机组的运行状态。供配电监控系统具体的监控功能如下:高压进线、出线和中间联络断路器状态监测和故障报警,高压进线电压、电流、有功功率、无功功率、功率因数等参数的检测。变压器断路器状态监测和故障报警,变压器温度检测和高温报警。
低压进线,中间联络和重要出线回路断路器状态监测和故障报警,低压进线电压、电流、有功功率、无功功率、功率因数和电量统计等参数的检测。直流操作柜断路器状态监测与报警,直流输出电压和电流等参数的检测。发电机运行状态、控制柜断路器状态与故障报警,电压、电流、有功功率、无功功率、功率因数、频率、油箱油位、进口油压、冷却出水水温和水箱水位等监测和故障、超限报警。火灾时,切断相关区域的非消防电源。
低压端的电压及电流测量方法与高压侧基本相同,只不过是电压和电流互感器的电压等级不同而已。
2.对UPS内电容监控:UPS电源内部整流器及逆变器中数量相对较多的元器件就是电解电容,其中的电解液是维持其容量及耐压的重要组成部分,目前对其的检测在数据中心还是一个缺项。
3.UPS电池组的监控:虽然目前对电池组的监测已经基本完善,单体的电压、内阻、温度都有监测,就温度来讲增加在单体上的数量很有必要,因为电池在即将出现颠覆性故障时其各个部位的温度相差甚大。
4.机柜PDU监控:其每个与插头的接触点的温度事关重要。
5.抽屉柜背面的触点温度:是很难人工检测到的。
6.变压器排风风扇的监控:此项很重要但没有被监控系统纳入。
7.UPS排风机故障的监控:此项很重要但没有被监控系统纳入。
8.防雷接地系统监控:防雷(浪涌)模块的监测很少有数据中心进行监控,包括地级的降阻轻微失效等。
9.IT设备CPU温度监测:此环节是至关重要的,夸张的讲,整个数据中心就是在为这个核心运行的。
10.UPS设备更多的监控内容:逆变器重要芯片、整流器重要芯片、IGBT、电容器等的温度检测信号输出。
11.发电机更多的监控内容
12.冷机更多的监控内容
13.末端空调更多的监控内容
14.热场监控
15.冷热气流组织监控,热场的分析,相关辅助气流组织的设备的灵活运用(如地板风扇,机柜风扇等)
16.屏蔽机房更多的监控内容(如滤波器和波导管等)
17.消防气灭第一报警和第二报警的监控完善(具体更贴切的点位)
18.安防更多的监控内容
19.若干隐蔽工程的监控内容(隐蔽的管道和电缆状态)
20.装饰装修墙体内部湿度屋面夹层的湿度检测
21.冷却塔、蓄冷罐溢水等多项指标的监控
22.冷冻水、冷却水管网加药浓度和乙二醇浓度监测和自动调节
23.空调风压更多位置的监控(即节能又起到消除根本热源的作用)
24.消防排烟风机的状态及误动作等
25.气敏传感器的利用,有害气体的治理
26.有害气体测试仪的动环通讯
27.动态的焓湿图的开发
28.水路泵的电机转速、泵的水压参考和反馈
29.节能分析
30.效益分析
等等…………………
相关类似有待监控系统开发成智能化的内容和需要花费精力深入研究的内容有很多很多,本文只列举以上若干项。
数据中心监控系统关键所在,是传感器(SENSORS)和变送器(0V~5V、4mA~20mA和互感器等的自身质量和准确性以及整体线路路由的安装质量,是数据中心监控系统发展完善的保证,是智能化前提和基石。
数据中心监控终将与智能化接轨,是时代的大势所趋,我们必须提前进入人工先导,透彻研究设备的需求,找好需要监测的关键部件、零件、元器件以创造好智能化发展的先决条件。并向广度和深度发展,保证颗粒度的细化和表面的深化。
编辑:Harris