咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
数据中心供配电系统检测验收的意义
  • 随着各种规模的数据中心大量涌现和数据中心的重要性越来越大,数据中心的不间断运行已成为其本身的基本条件。数据中心的验收检测也已成为不可缺少的必要手段。本文通过一些实例阐述了数据中心验收检测重要性,更通过一些实例说明不进行验收检测造成的故障和损失。文中也提出了一些验收检测中的缺项和这些缺项实现的可操作性及操作的方法。同时也提出了存在隐患地方和消除隐患的措施。
  • 一、概述
      
      近几年随着信息技术的飞速发展,各种规模数据中心的建设也如雨后春笋遍地破土。数据中心的大量涌现就带来了一个新的问题,即可靠性质量问题。以往的做法是设备安装齐备后简单地加载考机一段时间就开始进入正式运行阶段。在以前由于数据中心的规模小和数量少,加之重要性也没有现代大,即使出点问题也损失不大,不易引起人们的重视。但现代大数据、物联网、互联网、人工智能和元宇宙等大都进入各个领域,已经成为人们生活中不可缺少的部分,数据中心的重要性和高可靠性就更显突出。比如有一个数据中心故障停机仅两小时就影响十三个省的金融机构正常运行,可以想象,每个省的金融机构就已经牵涉到成千上万单位和个人的生活利益,比如这些单位和个人在这个时段从银行里取不出钱,这其中就又不乏有救命的钱和重大交易的钱,其损失可以想象得出有多大,更何况是十三个省,这又是一个什么概念。
      
      为了保证数据中心建设质量问题,就出现了一个新的行业,即数据中心检测验收机构。测验收机构的出现在一定意义上提高了数据中心的运行可靠性。数据中心检测验收机构从开始的几个、几十个到现在的数百个;其检测项目也从开始的几十项到现在的上百项。这些检测项目基本上以数据中心的物理基础设施为主。数据中心所需要解决的问题和人一样,衣、食、住、行。数据中心的衣、食、住供配电和空调系统是大头,而供配电又是基础的基础。在检测中往往就在这个问题上出现纰漏,因此也出现了一些不该出现的问题,造成了不应有的损失。
      
      二、供配电系统的检测
      
      2.1 配电站输入变压器
      
      图1所示为京北一数据中心配电站变压器空载高温图片。在验收检测中发现UPS不能加重载,当负载加到四分之一值时1500kVA变压器叫声大震,并伴有冒烟现象;在切断变压器所有负载情况下该变压器温度表指示54.4℃,即在空载情况下变压器已经严重发热,显然变压器存在短路匝。其高温由短路造成的涡流所致。
      
      一般数据机房的配电站内值班人员都是定时巡检,如果不是验收检测发现(一般都认为该变压器没有问题),一旦负载端开机加额定负载,变压器起火的概率很大,由于起火突然发生,等值班人员发现为时已晚。况且还有不少用户的数据中心和配电站不是一个部门,其危险性就更大。
      
      2.2分布参数导致线路谐振故障
      
      该故障出现在西安一金融单位,其单位数据中心供配电系统结构详见图2(a)。从图中可以看出,外部11kV市电经变压器输入降压后并联了两个设备:一个无功补偿柜和一个“动环”设备。无功补偿柜是一个电容补偿环节,其动环设备也有无功补偿功能,不过对输入端的主要功能是平滑变压器输出端的正弦波形,即将市电串入的高频脉冲毛刺吸收,因为电容补偿环节中串有电感不能有效去除这些“毛刺”。动环设备对输出端用电情况及其它运行参数进行检测。图3(a)示出了一般电容补偿电路环节的原理图,从图中可以看出和补偿电容串联了一个容量不大的电感线圈,它的主要功能是对输入电路开关合闸时电容器瞬时短路导致的浪涌电流。
      
      

    众所周知,所有导电体本身又具有本征参数,也称分布参数,当整个电路的电容和电感的分布参数满足如式(1)条件时,线路就会出现谐振。即
      
      XL=XC (1)
      
      式(1)中XL是线路中总电感量L的感抗,即XL=2πfL,XC是线路中总电容量C的容抗,即
      
      其中π=3.1416f是谐振频率。由于式(1)可以看出XL-XC=0,就是说此时的电路电抗等于零,电流最大,电压最高。于是就出现了图1(b)高幅度振荡,当时的测量由七百伏以上。从图中可以看到切换到旁路供电时有一段无振荡区,实际上这一段区域的振荡被动环电路抑制了。一直到动环电路烧毁,可想而知,一个只能平滑外来幅度不大和能量微小的电路,能够坚持对超高幅度和能量的抑制是非常不容易。这次线路共振导致IT电源烧毁、动环设备烧毁和空调设备跳闸。
      
      上述线路共振(谐振)出现在UPS转旁路供电时。其实从图1(b)可以看出在不转旁路供电时就已经随机不连续地出现了高幅度脉冲。
      
      这次故障又一次说明了验收检测的重要性。但另一方面也可以看出即使验收检测通过了,由于不是实际运行也不一定不会出现共振,原因是这种微量的巧合也很不易发现和出现。而一旦出现则破坏性极大,这也是验收检测中值得研究的问题。当然解决的办法也很简单,只要将振荡条件破坏就可以了。
      
      换言之,如果在检测中充分利用示波器也不难发现在线工作时偶尔出现如图1(b)所示的随机不连续电压脉冲,一旦发现马上采取措施也可避免。这应该是检测中的一个“漏项”。
      
      2.3 电源容量检测中的漏项和误区
      
      2.3.1无验收测试或测试不全造成的损失
      
      (1)过程描述
      
      此案例出现在北方一数据中心,按照GB50174-2008的要求,该数据中采用了2N模式供电系统。根据实测该机房要求供电容量为710kVA,所以2N模式供电系统采用了两套输入功率因数(误称输出功率因数)为0.8的400kVA×2=800kVA的UPS配置,如图4所示。设计者认为即使在一边故障时,另一套系统的800kVA-710kVA=90kVA,也仍然多出了13%的容量,富富有余。发电机余量就更大,500kVA×3=1500kVA,其负载功率因数也是0.8,即每一台发电机的输出功率为500kVA/400kW.系统正常工作时发电机处于冷备用状态。UPS设备运行到需要更换时,为了系统连续运行,按照正常程序先更换其中一套800kVA.考虑到在更换UPS时万一市电故障,于是就启动了三台并联的500kVA/400kW发电机,市电转发电机平稳过渡后,于是就将一边UPS“1”关机,万没想到另一边的UPS“2”过载关机,直接切换到三台并联的500kVA/400kW发电机直接供电,更没想到的是三台并联的发电机也顺序关机,整个供电系统退出,数据中心“停摆”。
      
      (2)错误的结论
      
      事故发生后经过一段的讨论作出了“发电机消磁”的结论。由此“结论”可知发电机的发电原理。图5(a)给出了发电机原理结构图。
      
      此类发电机原理是:发电机驱动后转子切割定子上的磁力线,定子上的磁场是原来关机后的剩余磁场,这个磁场很弱,不足以感应出所需的额定电压,定子上的弱磁场在转自上的输出电压作为励磁电压给定子励磁,就这样随着输出电压的上升,励磁电压也越来越高,这样一个正反馈很快使输出电压达到额定值。“发电机消磁”的结论错就错在认为发电机之所以关机,就是因为定子上完全没有磁场,就连原来那点剩余磁场也消失。但是若使磁铁上的磁场完全消失的温度是750℃-760℃。在这里引入磁畴的概念,磁畴(MagneticDomain),理论是用量子理论从微观上说明铁磁质的磁化机理。所谓磁畴,是指铁磁体材料在自发磁化的过程中为降低静磁能而产生分化的方向各异的小型磁化区域,每个区域内部包含大量原子,这些原子的磁矩都像一个个小磁铁那样整齐排列,但相邻的原子团(磁畴)取向各有不同,如果宏观上这些取向相抵消就表现为无磁场。充磁的过程就是帮助这些磁畴取向一致,当取向完全达到一致时就称为饱和,这和变压器和电感铁芯饱和是一个意思。
      
      上述这个例子中的“消磁”结论就意味着如果没有外力充磁,发电机就不会自动磁化,换言之,这台发电机就永远发不出电来,因为定子中无剩磁就无法进行磁化正反馈,而事实完全相反,下次开机不但能发出额定电压,而且还可带额定负载。所以“消磁”结论是不成立的。
      
      (3)概念的误区
      
      上述案例完全是过载故障。就是说设计容量小了。因为错误的概念导致了错误的计算,错误的认为710kVA吸收的有功率功率系数仍然是0.8。即
      
      710kVA×0.8=568kW (2)
      
      而负载功率因数为0.8的
      
      800kVA×0.8=640W (3)
      
      也仍然供过于求。
      
      这里有三个误区:其一,从2005年以后包括服务器在内的所有电子产品输入功率因数都≥0.95.也就是说视在功率为100kVA服务器需要95kW以上的有功功率。而2005年以前100kVA的服务器仅需要60~70kW的有功功率(而不是80kW)。
      
      另一个误区就是更不知道0.8负载功率因数的电源在带线性负载时只能输出0.53倍的有功功率,而现在的服务器就近似为线性负载。也就是说710kVA的服务器需要近700kW的有功功率.而这里800kVA的UPS只能额定值424kW,加上20%过载能力也就是509W,仍然过载近38%。
      
      第三个误区就是缺乏对发电机的了解,所以就无法解释发电机断定的原因。既然发电机的容量是:
      
      1500kW×0.8=1200W (4)
      
      也远远大于700kW,更远远大于568kW,为什么还会过载关机。其原因如下:
      
      首先知道UPS是工频机,其效率远小于90%,这里就取90%,那么发电机应给出的功率因该是770kW,在线性负载下,发电机应给出的有功功率是:
      
      1500kW×0.53=795W (5)
      
      发电机的带载率以达到97%。重要的一点是发电机和UPS不同点在于没有负载均分功能,有的可能带载量是95%,有的可能就工作在过载关机边沿,UPS过载关机一定会有一个扰动,尽管是一个不大的扰动就触发了带重载的发电机过载关机,有一台发电机关机当然其余也就随之退出了。
      
      (4)验收检测的缺欠
      
      不论开始数据中心建成后进没进行数据中心验收检测,起码单组UPS带载能力应该检测。该案例的一系列问题就出在缺乏这一步上。再加上误区得出的错误结论,如不及时更正,下一次换机时还会重复这种故障。UPS可以用输入功率因数0.9以上的高频机,但发电机如果仍用这种类型就需要适当增容。
      
      2.3.2不敢进行的“禁区”测试
      
      在数据中心验收测试项目中一般都没有“维修旁路开关合闸”这一项,因为一般认为这是一个不可触摸的禁区。所以给人们留下这样的印象就是因为在UPS操作手册中明确规定,如若闭合维修旁路开关必须先关掉UPS或启动自动旁路Bypass支路。以往的设备运行中凡是不经意合上这个开关的情况下UPS大都烧毁了。用户为了安全起见就在维修旁路开关上挂上一个《不许合闸》之类的警告牌,也有的大型UPS的维修旁路是一个框架式开关,平常就把这个开关摇出来,也有个别的UPS厂家从电路结构上添加一个互锁结构,等等,但毕竟具有互锁结构的产品很少。所以为了使数据中心在运行中少一些担心,在数据中心验收测试项目中应该加上“维修旁路开关合闸”这一项。
      
      下面就来分析一下添加上“维修旁路开关合闸”这一项可行性。在维修旁路开关合闸瞬间不外乎三种情况:市电电压Ui>UPS输出电压Uo情况,市电电压Ui=UPS输出电压Uo情况和市电电压UiUPS输出电压Uo情况,在这种情况下就是市电直接供电,这种情况没有任何危险,是完全可以接受的;市电电压Ui=UPS输出电压Uo情况就相当于两台相同电压的电源并联供电,由于市电电压的内阻比UPS小很多,所以市电输出的电流比UPS多一些,这反而减小了UPS的负担,这种情况也没有任何危险,更是可以接受的;第三种情况就是图6(b)所示的市电电压Ui 

     
      2.3.2 不可忽视的检测细节
      
      (1)电池检测时带载量缺欠导致的大火
      
      此案例发生在北方一金融用户。该用户采用了两台300kVA容量的UPS,一台给主机房供电,另一台为精密空调供电。该两台UPS都分别配置了100Ah后备时间4h的电池组,按照国标的要求配备了两个独立电池间。为精密空调供电的300kVA容量的UPS配套安装后给电池加了20A负载考机2h,见没有问题就开始投入空调机,当加到第五台空调机时UPS过载跳闸,于是关掉第五台空调机,只用四台空调机电池放电运行,电流大约170A,大约2h后有人发现电池间冒烟,等打开电池间大门后火苗已大到无法简单方法扑灭。只好动用消防队才避免了波及其它房间,但电池已完全烧毁。
      
      后来通过另一组给主机房供电的同样电池组中有一节电池的连接线鼻子只跨接到一电池输出端而没有紧固。20A电流时尚且未显异常,当170A大电流时连接处发热冒烟,一直到火势无法扑救的程度才被发现。
      
      因此,测试时的带载量要符合实际,而且在容易出故障的部位要有安全措施,比如安排人员守护。如在上海平安银行数据中心做全载电池放电测试实验时,由于安排了电池间人员守护,在发现电池冒烟时及时切断负载,而未造成任何损失。
      
      (2)一些连接处的观察
      
      从上述电池接线处的连接情况可以看出其重要性,尤其是有大电流经过的路径上,连接只靠目测发现不了问题,应当用力晃动几下。此案例发生在西安一数据中心,UPS在做满载电池放电时发现其输出端冒烟,卸载检查未发现此处异常,当用力晃动两下后该连接处突然散架了,发现这是一个已经滑扣的螺丝被勉强跨上两扣,这里的危险在于主机房在四楼,而UPS机房在地下车库,平时没人。如果当时未被发现或发现了没有对讲机又将是一场大火。这是一次万幸的机遇。如果在不加电检查时将该连接处用力扳动几下就很容易发现端倪。
      
      (3)电源模块的投入与退出
      
      模块化UPS在数据中心应用开始普及,模块UPS主要的的特点就是热插拔,它可以将故障电源的修复时间(MTTR)降到零,这就极大地保证了IT系统工作的可靠性。但电源模块带电(热)插拔时所产生的火花又是一个隐患,其可导致不应有的故障和损失。一般验收检测对此大都没有考虑并列入检测项目表中。这也是一个检测缺项。
      
      这项检测不单是可行的、有效的,也是必不可少的。可以用示波器接在UPS输出端观察模块热插拔瞬间的输出电压波形,看有没有瞬间“毛刺”叠加到输出正弦波上,如果有,就有可能在某一次热插拔中由于干扰了系统工作而导致故障。如一肿瘤医院数据中心在正常运行中在更换模块时而导致所有服务器重启。
      
      (4)4P断路器的隐患
      
      以往的计算机房和数据中心的供电系统都习惯用4P断路器。一些UPS厂家也大都把4P断路器用在机柜中。但有的断路器的机械触点长期使用后弹性变弱而造成接触不良。火线电压的触点无接触,最多使这一路用户断电关机。但如果零线触点失去接触能力,多种场合要烧毁机器。其原因如图7(a)所示,在断路器4个触点(4P)良好接触时,其供电电压按照设备要求正常分配,如图7(a)所示。图中R1和R2分别是用电设备的内阻,正常供电时两个设备都跨接在220V电源上,一旦零线断开,就变成了R1和R2在380V上分压,如式(6)所示。
      
                       
      从式(6)的计算结果可以看出,原来工作电压为220V的设备现在突然上升到304V,设备就会过压烧毁。图7(b)所示为青岛一银行分理处的输入市电分配情况。由于给UPS吃“小灶”这一路UPS独享,由于这一路负载小,内阻就大,其它众多用电设备都挤在另一路市电上,造成了内阻小的情况,这很像图7(a)所示的情况。突然一天室外施工,挖掘机将市电电缆挖断了。银行的这台UPS烧毁了,而另一路上的用众多用电设备却都安然无恙。如果将数据中心所有零线全都连接在一起,如图8所示,那就不怕零线断开导致故障。带来的好处是既避免了隐患故障又节省了资金。
      
      由于具有自动旁路和维修旁路的装置,万一使用旁路功能而正巧零线断了,就可能烧毁一些服务器。
      
      因为数据中心验收检测机构一般还担负着咨询和改造建议功能。目前已有的《标准》开始规定不采用4P自动转换开关(ATS)了。
      
      因为断零线测试在假负载下也不是不能实现,比如按照图8(a)所示的电路接线,当零线断开后观看4kΩ电阻上的外观和温度变化都可以得出上述结论。
      
      编辑:Harris
      
      

  •