咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
谈数据中心人工运维三步曲(下)
  • 数据中心的管理者大都认识到了运维工作的重要性,并制定了详细的运维计划和组织结构。数据中心的主管还是想把运维工作纳入正常工作范围。但遗憾的是目前大多数数据中心的运维工作主要还是靠人工。
  • 5 运维技术的高级阶段̶̶第三步曲
      
      达到这个阶段需要掌握几个方面的主要知识,比如设备的主要电路的工作原理知识,使用的主要元器件的特性知识,断路器的机械结构知识和一些相关的其他知识等等。这些知识不是光凭经验就可以得到的。有了这些知识后就可以解决好多问题。现举例如下:
      
      (1)可以解决责任的归属问题
      
      一化纤公司购买了一台三相高频机UPS,图7为该UPS主电路结构图,装机后运行一直正常。运维人员也是按照说明书的要求定时为后备电池放电。需要说明的是该UPS可自动定期自动作充放电保养,在装机时只需将电池充放电的间隔周期和放电时间填入面板上LCD相应表格内就可以了。但由于该UPS的负载率较小,运维人员希望快一些,于是就将电池组的连接电缆从UPS上取下来到另外假负载上放电。待电压下降到规定数值时又将电池电缆回接到UPS上,当电池电缆连接完成后,该运维人员合闸准备开机运行,但就在合闸瞬间UPS内部就发出了乒乒乓乓的爆炸声,伴随着一股股白烟冒出来,UPS逆变器功率管IGBT全部炸毁,整流器后面的全部滤波电容器也一个不剩的被炸掉了。
      
      事故发生后供应商马上请了专家查找故障原因并作出判断。专家到场作了一番检查后,得出的结论是机器质量问题。一句话就把厂家和代理商卖了个净光!厂家问这位专家是不是用户把电池极性装反了?该专家说:“我也检查了电池的极性安装是正确的”。乍听起来这位专家的结论似乎有些道理,实际上是一种完全错误地判断。错就错在他不知道设备内部的电路结构和元器件的特性。
      
      如果他具备了这些知识就会得出这样的结论:运维人员回接电池时把极性接反了。所以专家检查时电池连接极性是对的,就是因为该运维人员发现极性接错了重新连接后才报告的。下面的分析就可以证明这个结论是对的。
      
      ①逆变器功率管全部烧毁的原因
      
      首先有一个大前提,这个大前提就是在电池组放电前该设备一直工作正常.放电后即使有的功率器件可能凑巧坏了最多也就是一两只,一只不剩的全部烧毁这有悖常理.图8示出了三相逆变器结构原理图,从图中可以看出三个桥臂都跨接在800V的电源上,每个桥臂都由串联的两只功率管模块组成,每个功率管模块中都是由一只IGBT和一只反向二极管并联,在电源极性为“圆圈+和圆圈-”时,在不给IGBT加触发信号时功率模块是不导通的;但如果极性接反了,如图中虚线所示的“+,-”时,可以明显地看出所有功率模块中的二极管都成了顺向导通并且将800V电源短路了,强大的短路电流会将全部二极管烧毁,即使有个别的幸存者侥幸没有炸掉,也肯定受了重伤。
      
      ②滤波电容器全部烧毁的原因
      
      同样有一个大前提,这个大前提也是在电池组放电前该设备一直工作正常。放电后即使有的电容器可能凑巧坏了最多也就是一两只,一只不剩的全部烧毁也有悖常理。
      
      图9(a)示出了该UPS输入整流后加正确电压时的滤波电容组,这都是耐压500V以上的电解电容器。当然在这种情况下不会有任何问题的。但电解电容器由于是有极性要求的,所以正反向的耐压强度相差甚远,即反向耐压也就是正向耐压的十分之一左右。因此一旦极性接反如图9(b)所示UPS输入整流后,加反压后的滤波电容组,在这种情况下所有电容器将无一幸免地被突然而来的短路电流冲毁。
      
      结论是:运维人员回接电池时把极性接反了,待到故障出现才意识到电池极性接反了,急忙将接线重新改接后才去报告。
      
      (2)简化了寻找故障和排除故障的手续
      
      如例中所说,一机关数据中心UPS突然起火自燃的例子,由于不懂电路而无法分析故障原因,只好采取四方堵截的方法摸着石头过河。所以才作出如此复杂费时费力和费钱的决定.在这个故障例子中起火的设备是4台由10个20kVA模块构成的200kVA容量的UPS.该供电系统在一年多的时间里一直工作正常,在前一小时巡查时,仍在正常供电,但却在不到一小时的时间里,一台UPS被完全烧毁.这说明起火是突然的、瞬时的。什么原因会导致这种故障呢?该20kVA容量的UPS模块电路由三电平逆变器构成,如图10(a)所示。该电路电源被相等的两个电容器C1、C2平分成上下两个二分之一电源,中线从两个二分之一电源连接处引出,三个桥臂分别给出单相电压,在输出端构成三相四线制标准电压。现以A桥臂为例,其简单原理是当IGBT开关管VT1和VT2同时开通时,输出+1/2VDC,开关管VT3和VT4同时开通时输出-1/2VDC,开关管VT3和VT2开通而VT1和VT4关闭时,输出0V。这样就出现了三个电平+1/2VDC,-1/2VDC和0V,如图10(b)所示。
      
      但在状态转换时必须有一个死区,即在VT3和VT2开通时,VT1和VT4必须关闭,否则就会形成对电源的短路。在这个故障中即出现了突然短路情况。这个突然短路又是如何形成的呢?不外乎两个原因:一个是控制电路的突然失误而使死区消失;再就是其中一只IGBT早期失效而击穿形成短路。
      
      一个模块故障为什么会烧毁整个机器呢?该整机的如图11所示.20kVA的输入载流能力只有50A左右,但形成短路时则有500A以上的电流涌入,不论是印刷电路板还是20kVA的机内导线在强大的电流下会瞬间起火,而500A的断路器动作时间在几百毫秒,等到切断时为时已晚.实际上由于20kVA的导线较细电阻较大,电流达不到500A脱口值就已经起火了,此断路器还是运维人员发现起火后而手动断开的。由于发现故障较晚,等到办公室发现机房有烟溢出时才进机房,这时为时已晚,如果发现的早就只能烧毁一个模块。
      
      有任何连带关系的孤立故障。因此建议只要将这台故障电源的输出切断就可恢复供电。结果机器很快就投入到了正常运行状态,比原方案节约了几天的时间。
      
      (3)可以预防故障的再次发生
      
      在上述例2中所表述的可控硅烧毁事例中,有些人之所以只能做出雷击和干扰的模糊概念的原因,就是任凭经验肯定没错,笼统地一说也对,但不能深入给出干扰的机制是什么。这样的结果只能暂时找到故障和排除故障,但由于没找到真正的原因有可能同样的故障会再次出现。为了说明这个问题有些基本概念需要了解一下。图12(a)给出了可控硅在实际电路中的电路结构.从该图中可以看出,在可控硅的控制极G和阴极C并入了一个电阻电容串联支路。这个串联支路就是为防止外来干扰而使可控硅误导通的。所以那种所谓雷击和干扰的说法不过是一种经验式的猜测。那么究竟是什么原因导致可控硅烧毁的呢?其误区就在于一般人只知道给可控硅控制极上加触发信号才可使可控硅开启,其它还有两种开启方式就连一般搞电路的人们也并不知道。这就是和控制极无关的温度和AC间的电压上升率。该数据中心所在地当天下雨,当然温度不高,但也没有雷电发生,只在十公里外有雷雨,雷电浪涌电压沿架空传输电侵入本地。由于雷电脉冲的宽度很窄,所以并联在用户市电输入端的电容补偿设备根本无法阻挡,因雷电脉冲因沿路衰减和而一二级防雷器的作用在幅度上已降低很多,不足以破坏电路器件,但它的上升率并未得到减缓,当其加到可控硅,AC电压上升率Δu/Δt>20V/μs时,可控硅就被位移电流打开。
      
      图12(a)表示的是可控硅整流器正常开启时的电流路径,这时整流器工作正常;图12(b)表示的是可控硅整流器非正常开启时的电流路径,这时电流只经过被全部打开的可控硅直接将380V输入电压短路形成灾难性的短路电流。由于IGBT内寄生有一支可控硅,在遇到同样电压上升率时也会出现同样的故障,这在高频机UPS中也已发生了同样的事故。
      
      既然找出了故障形成的机制是电压上升率,那么解决的方法就是减缓雷电脉冲的电压上升率,最简单的方法就是加LC网络。如图13为LC缓冲网络远离电路及缓冲原理特性。根据图13(b)特性就可以计算出LC的具体数值。
      
      由于雷电压脉冲前沿非常陡峭,可以近似地认为是垂直上升的,在这个前提下利用LC网络垂直上升的脉冲电压按指数率爬升,其爬升的规律如式
      
      (1)和式(2)所示。
      
        (1)
      
      (2)
      
      式中:τ=LC是时间常数,单位是秒;L单位是亨利(H),C的单位是法拉(F)。
      
      Δt2是加LC后的雷电压上升到0.95Um的时间,单位是秒。为了计算的方便,近似认为是Um。
      
      因为第三级防雷器可将雷电压脉冲降到1500V以下。假设为Um=1500V,上升到0.95Um的上升时间设为Δt2=100μs,近似地看
      
      (3)
      
      将已知数代入式(2)后就得出了式(4)的结果
      
      (4)
      
      根据式(4)各自根实际情况就可以灵活配置LC数值了。
      
      实际中除了雷电电压以外还有一些其它情况导致市电电压出现大上升率的情况,这时导致机器故障的情况也时有发生,比如大型用电设备的关机等。因为这些都是随机变化的,很难抓取。比如某UPS制造厂在整机老化期间屡屡烧毁整流器,一直找不到原因,经过长期摸索试验后,最后加了LC滤波器后这种故障就消除了。
      
      作者简介
      
      王其英,资深电源专家,《UPS应用》杂志副主编
      
      编辑:Harris

     

  •