2.2.2 减少修复时间对提高系统可用性的特殊作用
前面讲到,设备的可靠性是有限的,特别是由若干不同功能不同厂家的设备组成的复杂系统,可靠性很难达到设计要求的水平,使数据中心基础设施特别是供电系统变得很脆弱。于是,设计者和用户很自然的想到必须从系统的可修复和可快速修复上找出路,因为尽管系统和设备的可靠性达不到要求的高度,故障随时都可能发生,但只要系统中的所有设备故障后都是可修复并可快速修复的,故障后平均修复时间MTTR数值很小甚至趋近于零,那末系统的可用性同样可以很高。
图2.1和图2.2显示了MTTR如何影响系统可用性,以及这种影响的重要性。由图看出MTTR值与不可用性A(A=1-A)的关系及MTBF与不可用性A的关系。还可以看出平均维修时间MTTR对提高系统可用性A的作用远大于平均故障时间MTBF的作用。
图2.1 MTTR与系统不可用性的关系
图2.2 MTBF与系统不可用性的关系
(1)MTTR对提高可用性A的作用是提高MTBF根本达不到的就当前的UPS技术水平而言,UPS设备的MTBF值在10万小时左右,而平均维修时间(从故障开始,到厂商反应,直到修复完好后重新启动)典型的时间是8h,在此情况下,系统的不可用性A=0.00008,即可用性A为99.992%,年宕机时间为0.7h。但是,如果用模块化热插拔功能可把MTTR降到0.5h,同样在MTBF=10万小时的情况下,不可用性A可降至0.000005,系统可用性A高达99.9995%,年宕机时间仅为0.044h。反之,如果MTTR为8h,当要求可用性A达到99.9995%时,则要求UPS设备的MTBF值达到159万小时,这对单台UPS设备而言是个不可想像的天文数字。
(2)提高MTBF值对可用性A的提高并不总是有效的
从图2.1可以看出,MTBF值与不可用性A并非线性关系,MTBF值较小而MTTR值较大时,提高MTBF值时对降低系统的不可用性的作用较明显;MTBF值已经比较大而MTTR值又比较小,再努力提高设备的MTBF值,对降低不可用性的作用就微乎其微了。例如:
MTTR=16h,MTBF>300 000h,提高MTBF值的作用不明显;
MTTR=8h,MTBF>160 000h,提高MTBF值的作用不明显;
MTTR=4h,MTBF>140 000h,提高MTBF值的作用不明显;
MTTR=2h,MTBF>100 000h,提高MTBF值的作用不明显;
MTTR<0.5h,MTBF>50 000h,提高MTBF值的作用不明显。
2.2.3 对可用性的研究极大地促进了供电系统配置方案和供电设备性能的技术进步可用性研究的内容包括:
(1)系统可修复和可快速修复设计;
(2)设备和系统的冗余可容错技术;
(3)设备的模块化可在线热插拔维护和扩容技术;
(4)系统的集成一体化技术;
(5)智能管理和与IT系统无缝集成的通信管理技术等。
冗余容错技术和系统模块化设计成为数据中心供电系统设计关注的焦点,设备的冗余并机技术可以认为提高了可靠性(没有影响到关键负载的供电),也可以认为把设备故障修复时间降到了最小(没有因故障修复而影响到关键负载的供电)。而系统模块化技术则是极大地降低了故障修复时间。最典型的是模块化UPS,它同时具备了冗余容错和快速修复两种功能。(御风)
"));