随着IT技术的发展,云计算、边缘计算、大数据、人工智能、互联网、物联网、车联网、区块链和5G信息技术等各种名目的域围相继出现,这对数据中心的需求也越来越高,一个是数据中心的数量和规模,一个是数据中心的可靠性和可用性。此二者的共同要求就是运维人员的素质。数据中心数量的增多需要大批的运维人员,规模的增大更需要高素质的运维人员。当然数据中心的运维外包也照样涉及到运维人员。在运维还不能完全自动化和智能化的今天,高素质运维人员是保证数据中心的可靠运行的主力军。
目前运维人员的素质参差不齐,一种是值班性的,顾名思义值班人员几乎什么都不知道,而且也不想多学些东西,安于现状,一般只会合开关和拉闸,一出问题赶快打电话;一种是经验性的,这类人群开始按照预定的规程步骤定期检查机器,从中学到不少知识,久而久之由于经验的积累,当出现故障时可以迅速发现故障和排除故障,但缺乏理论知识的填充,认为这些经验足够用了,也确实解决了好多问题。但由于缺乏理论知识的支撑容易接受错误的概念,尤其是对一些所谓‘知名人士’的错误观点也深信不疑,并存入自己的知识宝库作为宝贵经验而传承下来。这些经验者发现故障和排除故障的速度甚至比设备制造者还快,可惜不会分析故障原因,这是因为他们不懂电路和器件,知其然不知其所以然,不会分析故障就无法预防故障。
所以,今后不论是运维手段如何变化,仍然需要高素质的运维人员。这是因为他们不但担负着数据中心的可靠运行的重任,也担负着培养接班人的任务,而且在很多情况下也可以作为新建数据中心规划设计的参谋。目前,有不少数据中心在初期设计阶段由于没有有经验的运维人员参加,系统建好后给运维带来不少麻烦。比如将150Ah的铅酸电池放在2m高的机架上、将电池组四周和顶部用自攻螺钉将钢板固定、将电池组放到高架地板下面、空气断路器的容量余量过小、机柜摆放维护空间过小等等。
1 运维在数据中心的地位
数据中心已成为人们生活中不可缺少的支撑,网上购物、网上支付、网上学习、网上游戏和网上查询等等既方便又快捷。可以想象,如果数据中心出了问题就会导致一片混乱。由此可知数据中心的可靠运行是多么重要!一般数据中心从规划、设计一直到建成和验收也不过一两年的事,但进入运行后却是长期的。如何保证数据中心在运行中不出或少出问题,就必须有一个坚持不懈日夜操劳的技术团队。就像一个幼儿园一样,父母将孩子送来交给保育员,如何保证孩子们健康愉快地成长,完全是保育员的责任。而一个数据中心设备的正常运行的保障则是辛勤的运维人员。图1示出了这两种人员的共同之处。所不同的是保育员的工作是展示在前台,而数据中心运维人员的工作则是后台,因此一般不为人重视。保育员是需要资质的,这是因为幼儿园保教结合的工作任务及幼儿生活环境的特殊性,使得保育员的工作在幼儿园显得尤为重要,近年来凡是幼儿园被频繁曝光的新闻事件中,由于幼儿园缺乏或不重视保育工作而发生的幼儿伤害及幼儿园法律纠纷短时间有增无减,因此幼儿园开始高度重视保育员岗位的工作,保育员的就业和待遇也随之火热起来,教委也出台相应政策,对保育员的岗位资格要求也越来越严格要求,没有取得保育员岗位资格证的工作人员将不能从事保育员工作。
数据中心的运维人员又何尝不是如此呢?近年来数据中心机房设备着火事件时有发生,究其原因多是运维不到位。比如电池起火每年都有几次,赖电池的质量不好或其它什么客观原因吗?当然有一定关系,但要知道运行中的电池起火是有先兆的,或是电池裂缝开始漏液,或是由于电池极柱处接触不良,充放电时温度慢慢升高。这些先兆如果及时发现就不会酿成灾难。为什么这些先兆发现不及时?就是因为运维人员没有及时检查。比如海南某单位电池安装完毕开始运行后半个月运维人员没去光顾,结果因为安装时电池极柱接触不良而起火;新疆一数据中心由于电池布局不合理,如图2所示,和运维人员检查手段落后导致了电池起火。其运维人员每天用手将外围电池外壳摸一遍,但起火的恰恰是里面那些用手摸不到的位置上的电池起火了。
由此可以看出运维人员的重要性。机房的设备就像托儿所的孩子交到运维人员的手里,孩子的头疼脑热就是机器的状态,需要运维人员去发现,去掌握,去采取措施以避免事故的发生。运维工作的重要性就体现在这里。
数据中心的运维又不同于幼儿园又远远高于幼儿园,它的职责重要性要大得多,因此运维人员更要百倍细心地照料这些机器。如何照料?其中一个重要方面是领导对运维工作的重视程度,因为这关系到如何挑选和定位运维人员.一次笔者去看一个需要改造的省机关数据中心,和那里的一位年轻的运维人员有一段很有意思的对话:
问:是你负责这个机房的运维工作吗?
答:是的.
问:你的职责是什么?
答:室内温度升得太高时将机房门打开。
问:机房着火怎么办?
答:跑。
从对话中可以看出以下两个问题:
①从温度升高这一点就看出该机房不规范;
②领导没有看到运维工作的重要性,把运维人员视为一个普通的值班员。
2 运维的现状
数据中心的管理者大都认识到了运维工作的重要性,并制定了详细的运维计划和组织结构,运维的设想和实施方案如图3所示。从这些方案例子中不难看出数据中心的主管还是想把运维工作纳入正常工作范围。但遗憾的是目前大多数数据中心的运维工作主要还是靠人工。
实际上数据中心机房的运维工作量主要集中在物理基础设施,尤其是供配电和制冷首当其冲.恰恰这两个部分的运维人员大都是由机房计算机人员兼职代管,这就为机房的安全性埋下了隐患。
3 运维技术的初级阶段̶̶第一步曲
机房人员兼职代管基础设施运维已是普遍现象,这种结构形式在短期内也很难改变。即使有的配了专职人员也多是新手。好在有不少机房的墙上张贴着机器的检查步骤,只要运维人员按照墙上规定的步骤定时检查就可以了。
这在初期是没有问题的,但时间长了熟练了,人们说熟能生巧,但如果没有进一步的措施和运维内容也会生出一些枝节来,有可能埋下隐患。比如山东一金融单位数据机房对运维制定了一些措施,其规定中有一条是每两个小时要抄一次设备上的读数,该运维人员开始还是非常认真地去做了。但经过几个月后发现这些读数也不变化,而且该技术人员并熟练地记住了,于是就不是两个小时进机房一次了,不过到两小时他还是把记忆中的读数抄在表格上,渐渐地几乎几天也不去机房一次。突然一天晚上该地区停电,因机房中的照明也是取自UPS,8h的电池后备容量使机房中的设备运行没受一点影响。第二天那位运维人员上班后,人没去机房查看而是照常记下了原来的电表读数。到下午两点钟,由于电池容量耗尽而导致UPS停机!由于后备发电机控制盘放到手动位置而没有自动开机,就这样导致了该数据中心全部停电,损失严重。
4 运维技术的中级阶段̶̶第二步曲
当然运维工作都不会停留在初级阶段,运维人员的素质需要提高。提高的手段一般都是参加各级培训。大多数运维培训教师是搞机房运维多年的资深人员,这些老师有着丰富的实践经验,有着发现故障和排除故障的熟练手段,毫无疑问学员可以从他们那里学到很多知识。
但是由于这些老师对本身机房设备种类和性能认知的局限性,学员们不一定都用得上。另一方面这些资深运维老师也存在着理论不足的缺欠,大多数人可以发现故障和排除故障,但缺乏分析故障的能力,要知道不会分析故障就无法预防故障。举几个例子来说明这个问题。
例1:一数据中心在放长假前天晚上突然数个断路器连续跳闸断电
在一个节日放长假的头一天,北京某机关数据中心关掉了部分设备,都做好了第二天开始休假的准备。但不巧的是在半夜两点机房突然1#配电柜的八个断路器跳闸,图4(a)所示是带有两个配电柜的UPS供电线路,图4(b)是八个断路器跳闸的1#配电柜。事故出现后领导马上组织采取紧急措施,并请来了运维资深专家会诊。专家到场后很快就找到了问题的所在:跳闸的八个断路器中只有两个断路器后面的电路故障,一个短路一个保险丝烧断。
到此问题算是解决了,但领导也提出了几个问题:
①为什么两个电路有问题八个开关跳闸?
②为什么八个跳闸的开关都集中在1#配电柜上?
专家的回答是:两个电路有问题八个开关跳闸的原因是互相影响的。但问题是如何影响的?影响的机制是什么?为什么非得是八个开关跳闸,为何既不是七个也不是九个或者是十个呢?要知道每个配电柜都带着三十五个断路器呢。
在运维专家这里得不到进一步的答案,当然也就无法对受牵连的其它六只断路器采取有效措施。只好另请了所谓运维圈外的专家才得到了圆满地解决。
例2:武汉开发区一金融数据中心的交流配电如图5(a)所示。该中心采用了一主一备两个变压器,即两台300kVA容量的UPS共用一个变压器。在一个阴雨的天气两台UPS突然停机,数据中心也随之全部断电而关闭。事故发生后该系统的资深运维专家第一时间赶到现场,经检查后发现两台UPS的输入整流器全部烧毁,专家得知昨天晚上下雨后就作出了"雷击损坏"的结论。但现场运维人员说本地虽下雨没打雷,雷电只是在数公里外的市区.而且奇怪600A/1200V的可控硅整流器全部烧毁,而首当其冲的输入滤波器却完好无损,要知道输入滤波器的电容器额定电压也就在500V左右,耐压低的完好无损而烧毁的恰恰是耐压高的器件。更奇怪的是UPS触发电路的耐压都小于50V,也安然无恙。当然处理方法很简单,只要将损坏的可控硅整流器换掉就可加电工作了。但找不出故障真正原因就不能保证下一次故障不出现在同一部位,换言之就不能预防故障。也只好请外援解决。
例3:一机关数据中心UPS突然起火自燃。
重庆一机关数据中心机房规划为A级供电方式,如图6(a)所示的2N方式。该系统已工作了两年多。该单位的制度规定3h运维人员到机房巡查一次。就在一个周六的半夜,运维人员照例3h巡查了一次,一切正常。在下一个3h巡查点还未到来之时忽然有硝烟气味传来。运维人员进机房发现满屋浓烟后,第一反应是拉开供电总开关,继而打电话报消防火警。
火很快被扑灭,原来是一个UPS机柜内部起火,由于机柜门正在关闭状态所以火焰没有外延,只有浓烟冒出,如图6(b)所示。
事故发生后该机关领导遍请全国和本地专家分析案情讨论处理措施,会议从上午八点一直讨论到下午五点半。由于在场的多数是运维专家和其他电气应用专家,一时分析不出起火原因,只好首先制定出善后措施:
①向供电局申请一台带UPS的发电车为机房UPS临时供电;
②向两个不同UPS制造商搞两台不同型号的500kVA容量UPS;
③断开原来机房的UPS,再将后来的不同型号的500kVA容量UPS分别给IT设备供电;
④如果再不行就报告消防部门介入。
根据以上措施一个星期不一定能够完成,因为两台不同型号的500kVA容量UPS不知何时能够到货,在这段时间数据中心将一直无法工作。
由于当天下午总部UPS专家赶到,看了现场,听了维修人员的陈述,认为这是孤立事件,故障UPS和其它供电设备无连带关系,建议将这台故障UPS断开,其它UPS即可加电。结果当晚供电恢复。数据中心又开始了正常工作。
从以上的讨论可以看出,由于缺乏理论,在分析故障时容易走向两个极端:
①没有根据地模糊简单化,如上述的以“影响”二字草草结案;
②将问题复杂化,如上述图6的故障例子。由于不能分析出故障原因,只好用摸着石头过河的方法稳扎稳打地尝试。然而尽管这些尝试成功了,也只能说暂时解决了问题,但仍然不知道故障原因,还是一笔算不清的糊涂账。
编辑:Harris