一、引言
数据中心设备众多,功率和耗电量大,机房线缆多、分布广并布线复杂,电气火灾串火快,有毒烟气扩散迅速,其中因数据中心电源故障引起的灾难事故也不时出现。如何让决策者在UPS电源的选择上抓住“高可靠性”这个核心,最大限度地避免将数据中心送上类似OVH灾难的道路是本文讨论的主题。
1.1 OVH数据中心事故的技术回顾
法国OVH数据中心因UPS起火引起整栋大楼被烧毁已经过去一年多了,最近东南亚及国内数据中心又频传来因UPS故障引起的事故。惨痛的教训似乎已被决策者遗忘,前车之覆,后车之鉴,现在依然有必要再回顾一下那次深刻的教训;
1.2 事件回放:
2021年3月10日,欧洲最大的云服务和网络托管服务运营商OVH位于法国斯特拉斯堡的数据中心发生严重火灾,如图1所示。OVH拥有超过100万个客户、300多个托管网站,服务范围涉及138个国家和4个大洲。这场大火无疑是IDC史无前例的一场灾难。此次事件导致了该数据中心的四个设施中,SBG-2设施严重受损,SBG-1的十二个机房中的四个受到损失,SBG-3、SBG-4的机房大楼尽管未受到损失,但其服务也受到了不同程度的影响,经济损失或高达3亿美金。
此次灾难另外引起的客户索赔官司至今也远未结束,时至今年6月,OVHcloud客户又发起集体诉讼,要求超过1000万欧元的损害赔偿……
是什么原因造成了OVH的火灾?OVH创始人兼董事长OctaveKlaba表示,UPS可能是火灾的原因。消防部门的热像仪图像表明两台UPS不间断电源是SBG2火灾的源头,如图2所示。
二、如何识别高可靠性UPS
作者以在数据中心行业从事UPS应用工作多年的实际经验出发,就如何圈定一台高可靠性UPS,谈几点个人看法。
2.1要圈定高可靠性UPS,首先是机型的选择
1)建议首先注重品牌。在当今环境下,UPS品牌众多,不同品牌的UPS在参数或功能上相互模仿,尽管满足标书或高于标书要求,但在“可靠性”方面良莠不齐。
2)品牌的建立需要多年积累,其技术专利,制造经验,品质管控及售后服务等都不是短时间容易获得。
下面以常用的塔式型和大模块型为例,提供基本分析,供读者选型参考。
2.2塔式型UPS
本文将满足国家YD/T1095-2018《通信用交流不间断电源(UPS)》标准要求,并依此进行泰尔检测并获得中国泰尔实验室检验报告的UPS,称为为塔式型UPS;将满足国家YD/T2165-2017《通信用模块化不间断电源》标准要求并检验的UPS,称为模块化UPS。后续所指的各品牌塔式UPS型号均据此分类列出。
实际上塔式机UPS内部也是由一个或多个功率模块在内部并联组成,通常单个功率模块不可独立工作(某些特别的设计除外),当某个功率模块故障,则整机故障,不具有容错功能。如果需要扩展容量,必须通过整机并联的方式来实现。
依据产品的YD/T1095-2108检测报告,下表(1)列出了部分知名品牌原厂设计,原厂制造的塔式UPS系列:
2.3大模块容错型UPS
大模块容错型UPS,尽管也是满足YD/T1095-2018《通信用交流不间断电源(UPS)》标准要求并按此来进行检验的,但是其内部由多个大功率模块组成,单个模块容量约200-400KVA,每个模块可以独立工作,也可以通过增加模块,实现容量扩展。据此定义,表(2)中列出了部分知名品牌原厂制造的大模块容错型UPS系列:
2.4 塔式型UPS与大模块容错型UPS比较
依据公开的网站资料与介绍,表(3)列出了通常大模块容错型UPS和塔式型UPS在可靠性和安全性方面的典型性能比较(注:个别品牌/型号的大模块容错型UPS不满足下列指标除外):
三、高可靠性UPS电路架构的特点
1.高可靠性UPS基本采用三电平主电路架构
所谓UPS的主电路架构通常指的是整流器、逆变器机和电池变换器所采用的电路形式,如整流器是采用SCR相控整流器还是采用IGBTPWM整流器;如果采用IGBT整流、逆变器,那采用的是两电平、三电平还是四电平,整流器与逆变器的电路结构是否完全一样、对称可互换等。目前主流的高频机型,基本都采用的是三电平整流、逆变可互换的架构,也有个别采用二、四混合构成平均三电平的,即整流是两电平而逆变是四电平的。
三电平架构的UPS,高次谐波幅度要小于两电平的高次谐波,单个IGBT承受的电压更低,开关损耗更小,增加了一定的系统可靠性。但实际上,电平数越多,相应的元器件也越多,控制也越复杂,太多的元器件和复杂的控制都会降低可靠性,所以几乎没有采用五电平或六电平架构的UPS;综合来看,行业中采用三电平架构是主流,上面提到的B级塔式型UPS除了个别机型采用二电平以外,基本都是采用三电平架构;而A级大模块容错型UPS全部采用三电平架构或平均三电平架构。表(4)列出了二电平,三电平和四电平主电路架构供参考。
2.高可靠性UPS须具有独立的充、放电器,不复用整流器电路
整流器和充电器是2个独立的硬件电路。如图3所示,即使整流器故障,独立的充、放电器也可将电池能量安全释放,从而蓄电池放电路由的可靠性与切换时效性都大大提升,不会受到整流器故障的影响。另外,此架构下,整流器和电池放电可同时工作,即功率比例分配的联合供电,当市电电压较低时,或者启动发电机供电时,采用联合供电的模式,可以减少对市电或发电机的电力需求与冲击,提升UPS对上游电力的适应性。
3.高可靠性UPS的电池充电/放电电路须采用无中性线设计
电池是UPS系统中最不可靠的部分,UPS设计得好坏直接影响到电池的可靠性。如图4(b)所示为有中线设计原理图4(a)所示为无中性线的架构,中性线两边的电池节数必须对称,电池总节数必须是偶数(上下对称),只要有一侧电池损坏,两侧直流电压就不对称,导致输出电压不对称,必定产生直流分量输出,易损坏负载,引起不必要的事故。
对于无需中性线的UPS,UPS内部有平衡电路,不存在以上问题,并且电池数量单节可调,也降低运维的复杂度。
含电池中线的UPS通常需要采用四极电池开关,增加了开关的复杂性。电池中性线N实际是与交流输入的零线相连,而零线远端又是与大地相连;电池架也是与大地相连,如图(5)所示,任何一节电池(除了中性点),任意一点只要漏液或维护时不小心碰触到了接地装置,就通过中性线与大地构成了一个强的电流回路,极易引发起火冒烟,进一步引起消防报警从而使负载断电。过去市场实际应用中已经发生大量这样的灾害事故。另一方面,如果人类不小心触到电池电极,也容易通过中性线与大地形成回路,引起触电事故。对于无需中性线的UPS,因为电池的任何一极没有接地,难以形成以上引起事故的电流回路,会更加安全可靠。
4.高可靠性UPS须具有系统级冗余电路
UPS风扇冗余设计,静态旁路风扇冗余设计,系统电源冗余设计。即使UPS的部分关键部件出现故障,也能保证UPS系统对负载的供电不中断。
如静态旁路(STS),必须具有独立的辅助电源与独立的CPU控制单元,即使中央控制单元故障和其它所有辅助电源失效,UPS也可以安全切换到静态旁路,留有足够时间处理故障而不会使负载断电。
如辅助电源(SPS),它是给内部控制系统供电的核心单元,必须冗余和多路取电。最可靠的冗余设计是每个模块有独立的辅助电源,且有一个备份电源,每个电源又分三路取电,如图(6)架构。
5.从核心元器件的选型确认UPS高可靠性
高可靠电路需要高可靠性元器件来支撑;每台UPS元件众多,限于篇幅,本文建议抓重点,主要从IGBT和电容两个核心元件的选型上去识别。
6.高可靠UPS功率器件必须选用IGBT模块,而不是IGBT单管.IGBT是UPS的心脏,是整个系统稳定可靠最主要的元器件。特别容易引起故障和炸机的就是多个IGBT单管并联的UPS。两种类别IGBT对比见表(5)。
7.高可靠UPS必须选用高可靠电容
电容是一个具有较短寿命周期且不太稳定的关键元件。以最易出现问题的交流滤波电容为例,高可靠UPS交流滤波电容须采用更加可靠的“油浸式防爆电容”。要尽量避免干式塑壳电容,因其寿命周期短,易起火冒烟(分析称OVH数据中心最有可能就是UPS内干式塑壳电容起火引发整栋大楼被烧毁)。两种类别电容对比见表(6)。
四、总结
数据中心,特别是大型数据中心,选择UPS的核心价值就是“高可靠性”,因此识别和选择高可靠性的UPS非常重要。
先圈定品牌,然后圈定品牌下的高端产品,优先选择大模块容错性UPS;确定UPS的电路架构,含独立充、放电器,采用无电池中性线设计;UPS具有系统级的冗余设计,防止单点故障;关注UPS内的重要器件选型,要采用IGBT功率模块,而不是分立式IGBT单管,交流滤波电容器应选择油浸式防爆电容。
从以上几个方面综合考虑,就可以简单识别出符合数据中心需求的高可靠UPS,避免类型法国OVH数据中心因UPS而引起的惨痛事故的重演。
作者简介
钟介清(1979.3-),男,湖南常德人,大学主修应用电子技术专业,从2001年毕业起至今一直从事UPS及相关产品的研发与应用工作。
刘志华,宁夏大学物理与电气信息系毕业,从事数据中心行业20余年,现为伊顿南区解决方案经理。熟悉数据中心UPS供配电系统,具有丰富的数据中心建设、应用经验。
编辑:Harris