一、数据中心供电系统要求的发展概述
UPS是伴随着计算机的出现而诞生的,从出生的那一刻起,就被视为数据的保护神。因为当时的数据输入程序相当复杂:首先将数据在纸带上穿孔,再将已穿孔的纸带通过光电机输入到计算机。万一在计算机工作中断电,整个数据就会完全丢失,供电恢复后又必须重新将穿孔的纸带通过光电机把数据输入到计算机。当时提出的要求就是,希望电源在市电断电后,再能继续维持供电5s,将现场的运算结果保存到磁心存储器中,待市电恢复后,能接着原来的计算结果继续运行下去。所以第一代的UPS就是一个同轴拖动着大飞轮的电动发电机,市电断电后,依靠同轴的飞轮惯性使发电机继续正常运转5s。随着半导体技术的出现与发展,晶体管化、集成电路化计算机促进了IT技术的发展,由于初期的计算机很贵重,人们在关注数据的同时也害怕硬件的损坏,目的还是为了保护数据。随着IT技术的发展和普及,信息的运算量和交换量越来越大,尤其是局域网、广域网和互联网的出现与普及,使得人与人之间的关系越来越离不开网络,而网络的灵魂就是数据。因此人们对数据的关注程度是始终如一的,如图1“关注数据”的平直线所示。但在数字爆炸时代的今天,如何关注数据的安全如一就成了关键,因此,美国可用性研究中心在2002年就提出了用可用性指标来衡量对数据关注的程度,而且对可用性的要求与日俱增,如图1“关注业务可用性曲线”所示;
在IT技术与规模迅速膨胀的今天,数据中心的发展一般是无法估计和控制的,所以对数据机房系统的用电量也无法精确估算。因此,不少用户也把眼光放在了供电产品对环境变化的适应性上,因为数据中心的扩容、搬家或在某一时期缩小规模的事是经常发生的,为了合理使用资金,所以这种要求也与日俱增,如图1中“关注产品对环境变化”的曲线所示。
二、当代供电系统的局限性
由于供电系统的容量的基本概念有的就不易估算,再加之缺乏经验和错误认知和有些UPS产品规格质量所限,使设计带有很大的盲目性。图2给出了某数据中心10年供电容量规划图。在这个图中的与其负荷量如虚线所示,根据已往的经验和为了保证供电有一定的富裕量,所以一般都打出了15%~20%的余量。这里用归一法,表示出了UPS安装容量的百分比为100%。照例说,这样的设计应该是无可挑剔,但由于对容量的估算不准或在实施中改变了计划,致使在10年的应用中,整个实际负荷才为安装容量的1/3。而这种情况决非个别现象,根据上述可用性研究中心对300余家用户的调查,绘制出了图3UPS容量利用百分比图。由该图可以看出,仅有2%的用户用到UPS容量的80%,5%的用户用到了70%,不到11%的用户用到了60%,而70%以上用户的用电量都在50%以下,造成了很大的浪费。比如某数据机房的设计供电容量是1600kVA,为了提高可用性,采用了三台800kVAUPS并联。而实际用电量为300kW,即使打了余量,还有1000kVA的富裕。这不但多占用了空间、多占用了资金,还造成了对环境的污染。
为了提高计算系统的可用性,一般都采用了转换开关和双路电源向IT设备供电方案。统计学上的可用性分析方法和通常所采用的方法有很大的不同。
具有冗余电源供电的设备也被归类于具有冗余电源的双缆设备,双缆设备的采用对于帮助IT设备保持最佳的电源可用性是一个“最好的实践”。由于提供了必要的冗余,就会防止单电源分配系统的宕机现象出现。遗憾的是,今天大多数关键机房环境没有完全受益于这个“最好的实践”。所以首先介绍机架式UPS的一个局部结构。
三、机架式结构分配电源的方法
图4提供了一种提高架式安装设备可用性的方法,不过也可用于单个设备之中。根据不同可用性的目标要求来选择不同的供电方法,也即用更加昂贵的方法就可以提供更高的可用性。图4和图5就是表示了在一个架式结构的数据中心经常采用的电源分配方法。
图4表示的是一种典型的架式电源分配结构用于中小规模数据中心和HUB中的情况。这种配置考虑了容易移动的UPS内部电池和浪涌保护模块;图5表示的是一个大型集中供电UPS情况,这是一个更有通用性的结构,在这个图中,被分配到机架上的电源都不是冗余的。尽管如此,为了保证供电的连续性,在当前供电系统中,有不少采用了双市电供电结构,即一主一备。这样一来,当主电源故障时,就需要将备用电源及时地切换上去。所以,另一些电气结构就是一种将负载从一个电源切换到另一个电源的转换开关装置。这种转换开关有两种类型:一种是静态开关STS(Static Transfer Switch),另一种是自动开关ATS(Automatic Transfer Switch)。这两个设备的控制功率范围一般是从1kW到1MW以上。其原理图如图6所示,对于ATS来说,S1和S2是继电器,对于STS来说S1和S2就是由可控硅(也称闸流管)构成的静态开关。它的作用就是当正在供电的电源(比如电源A)出现故障时,冗余转换开关就会及时地将备用电源(比如电源B)地替换上去,以保证供电的连续性。
图7示出了冗余转换开关一般外形图。图7(a)是机架安装式3相6kVAATS,常规机架的负荷量大约为2kW左右,用这种ATS就足够了,但若采用每层1U高度的机架,内装刀片式服务器(Blade Server),在42U机柜高度时,其功耗可达到10-20kW,当然,那时有可能采用STS。因为,如果在这种情况下仍采用ATS,其切换时间有可能达到不可容忍的地步。在更大容量情况下的STS结构,就如图7(b)所示的柜式结构。
1.STS的结构原理
STS的切换时间可以小于1/4周期。但它的切换无论如何是有间断的,这和UPS静态旁路开关的动作有所不同。其原因是要保证这种开关在任何情况下都可以成功地切换,由于被切换的几个电源的相位不一定互相跟踪,被切换的几个电源的频率也不一定可自由调整,比如市电和发电机之间、参数稳压器和发电机之间、参数稳压器和参数稳压器之间等等,而这些情况又都是常见的。如果只限于同步切换的设计思想,势必限制了它的适用范围和市场效益。
图8(a)示出了一个单相STS的结构原理方框图。由图中可以看出,它是由两对背靠背连接的可控硅构成,如果是三相,就由六对背靠背连接的可控硅构成,每三对就是一套,如图8(b)所示,这和UPS旁路静态开关的结构一样,其切换的原理也一样,都是当正在供电的一路电源故障时(UPS切换的一种原因),将负载切换到备用的一路上去;但切换的控制原理却有一些差别,UPS讲究的是同步跟踪时的零切换。而这里虽然也有这种情况的切换,但更多的是不需同步跟踪时的非零时间切换。
2.STS的切换机理
1)二电源同步情况下的切换
图9示出了二电源同步情况下的切换。图中电源A和电源B是完全同步的,比如二电源都来自同一个电源变压器,就是这种情况。此时的切换就是一种理想的情况,假如电源A故障,不论从任何相位上切换,波形都是连续的。切换后的交流波形和整流滤波波形都如该图所示。
2)二电源不同步情况下的切换
在UPS中,当逆变器输出电压与旁路电压不同步时就不能进行切换,在这里就取消了这个禁令。当然,在控制上也就有所不同:对应后备电源的可控硅只有确认正在导通的那只可控硅截止后才被打开。在这种情况下的切换时间是多大呢?下面分两种情况进行讨论。图10图11示出了二电源非同步情况下的切换波形。
(1)二电源相位差<90°的情况
当一电源(如电源A)在t1的前一瞬间出现故障,测量电路感知后就通过控制电路在t1取消对应电源A的可控硅控制信号,但由于对应电源A的可控硅在t1前就已经处于到同状态,所以根据它的特性规定仍继续导通,一直到正弦波过0才截止,而对应电源B的可控硅在t1时并不被触发,一直到电源A的正弦波过0后,测得输出为零和确认(延迟几毫秒)后,比如到t2才被触发,将电源B接替上去。由图10可以看出,电源B的开始导通时间t2和0之间小于90°,也就是小于1/4周期(5ms)。
(2)二电源相位差>90°的情况
当一电源(如电源A)在t1的后一瞬间出现故障,测量电路感知后就通过控制电路在t1取消对应电源A的可控硅控制信号,但由于对应电源A的可控硅在t1前就已经处于导通状态,所以根据它的特性规定仍继续导通,一直到正弦波过0才截止,而对应电源B的可控硅在t1时并不被触发,一直到电源A的正弦波过0后,测得输出为零和确认(延迟几毫秒)后,比如到t2才被触发,将电源B接替上去。由图11可以看出,电源B的开始导通时间t2和0之间大于90°,也就是小于1/4周期(5ms)。
根据IBM和HP的实验证明,当计算机断电时,它自备电源本身的储存能量还可维持全负荷正常运行50ms。
四、STS的应用实践
1)这种情况是用STS切换来实现对负载进行冗余供电。目前只在一些单电源服务器情况下才使用。
在机柜内服务器总用电量小于5kW的情况下为了节省开支就可以采用快速继电器构成的STS。目前这种有机械触点的继电器切换时间一般小于10ms,如图12所示。
2)带有外加变压器的冗余UPS切换
目前有些用户仍然热衷于工频机UPS,根据用户自己的用电习惯采用工频机这也无可厚非。问题是有一些人认为工频机UPS和高频机UPS的区别就是有无输出变压器,所以在高频机UPS加一个变压器就认为是工频机UPS了。在这种情况下的冗余供电结构如图13所示。这里的误区就在于连字面上的明显含义都没搞清楚。字面上的高频机与工频机UPS的区别就是频率的不同,高频机加上变压器仍然是高频机,外加上一只变压器不过是加上了额外负载而已。
3)单电源服务器的情况
如图14所示的带有输出变压器单电源服务器的内部切换冗余供电系统结构原理图。这种情况基本上是利用小容量的快速继电器转换开关来实现供电冗余功能的。一般这种转换开关就是1U高度的模块结构,价格也不贵。对这种继电器的要求比较高,即这种有触点的继电器使用次数多了以后不免就出现疲劳现象,一旦出现这种现象其动作就会变得缓慢,对正规厂家的正规产品尚且影响不大,但对所谓“灵活性”比较的大的就会出现重启现象。
4)具有双电源负载的冗余供电系统
图15(a)所示就是具有双电源负载的冗余供电系统示意图。这种系统是两路电源分别把电源送到机柜两边的电源汇流排(PDU)上,两边PDU的容量是一样,每一边都可以提供给给服务的100%能量,所以及时一台UPS故障也可连续运行下去。图15(b)就是它的系统原理图。
5)具有双冗余保险的容错供电系统
随着数据中心的规模越来越大,要求的可靠性也越来越高,单纯的冗余已经不能满足对供电可靠性的要求,现在要求的是可用性A(Applicability)
式中:MTBF(Mean time between failures)平均无故障时间(小时h)
MTTR(Mean time to repair)平均修复时间(小时h)
一般金融机构要求99.999%,以一年8765h为例来计算,一年允许停电时间仅为5min!可见对供电系统的苛刻要求。
为满足这一要求可采用双冗余保险的容错供电系统,详见图16所示。
编辑:Harris