当前在新型冠状病毒肺炎疫情的特殊情况下,大家都通过各种方式来贡献自己的力量抵御疫情的扩散,也通过对病毒传播方式的了解从而改变了自己的生活习惯。其实生活中各种有害细菌、病毒是一直存在的,只有对这些看不见的“隐形杀手”有正确认识,养成良好的卫生习惯来防御,并且贯彻“早发现、早隔离”,能够“对症治疗”,我们可以做到避免或者降低伤害,所以大可不必过度惊慌。
其实在数据中心,特别是电力相关的动力机房,也存在一些看不见的“隐形杀手”,对数据中心的安全运行有着严重的安全隐患,也需要我们去正确认识,采取措施来避免或者降低对数据中心安全运行的影响。下面我们分别来看看常见的几种隐患:
一、碳纤维
碳纤维是什么,怎么能在数据中心变隐形杀手?一般人可能常见的认识就是碳纤维材质的装饰面,碳纤维材质的车身/车架等这些生活中常见的应用,可能有人还不是很清楚碳纤维跟数据中心有什么关系,那我们先来了解下碳纤维以及它跟数据中心的关联。
【碳纤维简介】
碳纤维是一种纤维状碳材料,如图1所示。它是一种强度比钢的大、密度比铝的小、比不锈钢还耐腐蚀、比耐热钢还耐高温、又能像铜那样导电,具有许多宝贵的电学、热学和力学性能的新型材料。用碳纤维与塑料制成的复合材料所做的飞机不但轻巧,而且消耗动力少,推力大,噪音小;用碳纤维制电子计算机的磁盘,能提高计算机的储存量和运算速度;用碳纤维增强塑料来制造卫星和火箭等宇宙飞行器,机械强度高,质量小,可节约大量的燃料。1999年发生在南联盟科索沃的战争中,北约使用石墨炸弹破坏了南联盟大部分电力供应,其原理就是产生了覆盖大范围地区的碳纤维云,这些导电性纤维使供电系统短路。
那我们先来对碳纤维的特性划重点:强度高(抗拉伸),轻,导电。所以在建筑物中需要加强地板承重时,碳纤维就是一个可以考虑使用的很好的材料,跟钢梁加固相比,更容易实施,提升效果也很明显。而数据中心的功率密度逐年在上升,并且因为设备集中,也存在很多非常重的设备,所以对地板的承重要求很高。新建的机房在设计建造时会考虑到较高的承重要求,而一些旧机房在升级扩容时就会遇到需要加固地板提升承重量的问题。
机房加固施工使用的是碳纤维材料编织的碳纤维布。施工方式一般都是把地面或天花板凿开一定深度,把裁剪好的碳纤维布铺设粘贴,最后再补上水泥,如图2、图3所示。
上面看到的都是好处,那碳纤维的加固方式对数据中心,特别是动力机房会有什么影响呢?关键就是这个材料的良好导电特性带来的。因为在施工过程,会涉及到整卷材料的裁剪会产生碎屑,在后期运行阶段,不规范的打孔等操作也会带来碎屑。这些碎屑的碳纤维丝比头发丝细得多,加上良好的导电特性,形成了漂浮在机房空气中的不定时隐形炸弹,随时可能破坏电气绝缘形成拉弧短路等严重故障。
从图4中可以看碳纤维丝直径在10um的级别,这种碎屑肉眼看不见,并且质量很轻随气流可以漂浮在空气中。
因为碳纤维材料加固导致的事故,有一例我印象特别深刻,跟大家分享下:
某客户机房,建设部门坚持要使用碳纤维材料进行动力机房地板的承重加固。施工过程中,发生了一例电源拉弧故障,虽然供应商马上完成了修复和分析,但建设部门坚持认为是设备自身故障导致。随之而来的是另外一台电源的拉弧故障,此时维护部门已经相信了之前的故障分析但建设部门还是不认可。可想而知的是第三台电源的拉弧故障不可避免的到来了,此时所有人都相信了,立刻停止了相关施工,然后问了一个问题:类似故障还会发生吗?当时现场没人能够确认。
当前大家对“带口罩,勤洗手,多通风”应该有很深的认识了,当时在处理这个机房的问题时,实际也是类似思路。客户采购了很多无纺布,对所有的电源设备进风口进行了全面包裹,加强了机房环境清理,加强了机房的通风和空气循环及空调的滤网更换。
不过好的消息是,碳纤维材料的加固方式在国内数据中心的应用大概从2008年开始逐渐增多,发生的事故也比较频繁,而在2013年以后就比较少见了,应该跟设计人员和客户对这个材料的认识加深有关。知道了风险源就有助于规避风险,从而提升运行可靠性。
二、硫化物
机房常见的另一类“隐形杀手”就是硫化物。不同场地,硫化物的来源跟存在形式都有差异(不过一般都是肉眼不可见),对机房安全运行的损害表现也不尽相同,我们只能根据外在表现去推断、分析和检测来定位,这一点跟当前我们去查找和定位新冠状病毒的过程有些相似。
机房的硫化物对安全运行来讲主要有两大类的损害,一是硫酸根离子的存在会降低空气的绝缘引发短路拉弧故障,二是会对一些金属产生反应形成另外的伤害。我们可以通过一些实例来增进更显性的认识。
2.1拉弧
某新建机房内多台电源设备都发生过故障。但奇怪的是,有时一些电源设备正常工作,但检查内部发现有些铜排之间有轻微打火迹象,如图5所示。甚至有一次工作人员在打开机柜门巡视时看到过轻微打火。
我们知道,这种铜排间的打火都是空气被击穿的表象。在绝缘距离足够,也不存在尖端放电的情况,电源及后端负载还在正常工作说明也没有过电压的存在,那只有一种可能就是空气绝缘被破坏了。
该新建机房投入运行后,机房环境保持得很好,检查没有发现明显异常的情况。因为空气成分的检测对样本采样要求很高,并且检测成本也很高,我们后面优先对机房内各处的灰尘进行了取样和检测,进行了离子色谱检测分析,其结果见表1。
离子色谱分析是将样品溶于水后使用DX500分析仪进行检测。检测结果表明:电源设备周围环境中含有大量可溶于水的硫酸根。通过进一步的分析我们把根源定位到了机房的天花板材质不合格,含有较多硫的成分。后面用户更换了天花板后类似故障不再出现,如图6所示。
2.2腐蚀
在数据中心的各种设备和器件内部,会有一些镀银或含银的表面,银很容易跟空气中含有的硫成分作用,长期会生成疏松粉末状的硫化银。对于一些器件,可能会造成参数的偏移,或者存在损坏的隐患。另外因为硫化银的导电性,疏松的硫化银的延伸可能造成局部绝缘距离的缩小,如图7所示。
从电镜分析来看,银表面有针状或拉丝状物质时,基本就是形成了硫化银,如图8所示。而这些硫化物来自何处呢?除了上面案例提到的不合格的装修材料(如天花板),还有很多其他的可能来源需要去排查:
有的机房内部的硫化物并不是来自机房内部,可能来自室外。比如室外存在严重空气污染,而这些污染空气被新风系统引入机房。这需要我们了解数据中心周边的外围环境。
有的动力机房的没有单独的铅酸蓄电池间,而是跟电源设备共处一室并且没有良好的定期换气。现在的免维护铅酸蓄电池虽然说是密封电池,但在大电流充放电时还是会有少量含硫的酸性气体逸出的。这需要我们对数据中心有良好的设计和运维管理。
说到此处,有一个遇到多次的案例跟大家分享下:
某动力机房巡检时也是发现镀银表面存在硫化现象,后面经过多方排查最终定位到了动力机房地面铺设的绝缘胶垫,如图9所示。
此绝缘胶垫为早期机电施工方免费赠送,机房人员一直反馈有很大的刺鼻味道。后面我们取样量一小块做了初步的电镜成分分析,结果见图10。
对绝缘垫进行了电镜分析,发现绝缘垫含有硫成分达1.78%。为了进一步确认绝缘垫是否有挥发性硫化物释放,送到专业机构依据JY/T020-1996离子色谱分析通则,对样品进行了检测,测试结果摘要如表2,说明确实存在挥发性硫化物的释放:
橡胶我们知道为了增强特性都会经过硫化的过程,但现在材料和工艺的发展并不会大量使用硫磺来进行硫化的过程。所以对于绝缘胶垫的采购还是需要通过正规的渠道获得合格的产品,一般来说长期存在非常刺鼻性味道的绝缘胶垫需要引起大家的重视。
三、水汽(的凝结)
水汽到处都存在,可以认为不凝结的水汽对设备并没有明显的影响,一般的电源设备可以接受高达99%的相对湿度(注意:会注明无凝露条件)。可是,我们能够做到完全避免水汽的凝结吗?通过下面的一些示例可能会让我们有所警示:
3.1没有湿度控制
一些非专业的机房,比较常见的是没有湿度的控制。某个客户的多个站点,到了5月份梅雨季节,外面一下雨机房内的设备故障随之而来。到机房现场调查,发现凝露非常严重,如图11所示。电气设备内部累积的粉尘,加上严重的湿气,对内部电气绝缘有着绝大的破坏作用。
3.2不合理的分区使用
现在有些较大规模的新建数据中心,因为业务量暂时不饱和,会存在电源设备负载率过低的情况。为了节能,有时客户会考虑分区关闭一些电源设备和附近的空调,这样容易导致不同区域的温度、湿度存在较大的差异。运行中的设备会有发热损耗,一般即使遇到高湿空气也不容易形成凝露,而停机的设备内部遇到高湿空气则产生凝露的可能较大。电气设备的内部凝露,会严重影响电路板和器件长期工作的可靠性。
下面就是某机房在春季停机2个月后再次上电发生故障的一台设备内部拆解状况。经过拆解,发现电路板下部的托盘上面有较明显的水渍迹象,说明前期有过湿度过高产生凝露的情况,如图12所示。
3.3机房各个环节配合的影响
这是一个电气和暖通方面设计等级很高的机房,但在一个温暖潮湿的日子里,却局部发生了水灾。
可以看到,因为室外的暖湿空气从外面进入排烟管内部,而排烟管外部处于温度相对较低的机房环境中,导致了排烟管内部水汽凝结并从拼接处往下滴漏。该机房的消防系统的排烟管起码有两个明显问题:一是外部没有包裹保温材料,二是管道使用拼接没有密封,如图13所示。
这种小的细节缺陷,在一年大部分的时间内并不会表现出异常,容易让人忽视。所以机房运维无小事,并且要求对“风火水电”各个系统都有足够的了解。
小结
上面我们通过一些案例的介绍,让大家对数据中心动力机房的一些“隐形杀手”有了比较直观的认识。也希望通过这些分享,让大家能提前识别风险源和规避风险,有了问题也能及时发现和整改,一起为数据中心的安全稳定运行贡献自己的力量。
作者简介
罗维华,维谛技术有限公司技术支持部专家,超过二十年UPS开发和全生命周期服务经验。
编辑:Harris