大家都知道,电子产品内部的绝大部分器件都必须使用直流电来驱动,因此,不管供电系统如何变化,最终都要将电流转换成直流12V、5V等不同的电压,IT设备同样不能例外。
在笔者看来,虽然数据中心的各种供电架构方案五花八门,新产品层出不穷,但其实整个供电系统只为了解决两个问题:在哪里把交流转换成直流?在哪里接入备电系统?
笔者将从这两个方面进行分析,对数据中心目前流行的供电架构进行解析,并分享一些技术发展的个人观点。大家会发现,基于位置选择的不同会演化出不同的供电架构,所以笔者将这些年数据中心供电架构的演进戏称为基于位置(供备电节点)选择的“供电架构进化论”。
【本文仅代表个人观点,与其他公司、机构无关,欢迎业内同行不吝指教。】
供电系统:交流与直流的角色扮演游戏
先来看看交直流转换的问题,目前数据中心采用较多的主要有四种供电方式:
传统UPS供电系统
UPS系统作为目前应用最成熟的不间断电源产品在各行各业都有广泛应用,对数据中心来说,目前的主流产品是在线双变换UPS。
HVDC供电系统
HVDC并非一种新的供电系统,长期以来海外都有少量应用,2007年江苏电信最早在国内尝试这种供电方式。目前国内共有两种制式:电信标准输出240VDC额定电压,移动标准输出336VDC额定电压。因为240VDC在经过大部分服务器电源(电信认为超过96%)的整流桥后可以直接使用,所以目前在互联网企业中应用较多。而336VDC的HVDC需要采用定制服务器,虽然效率较高,但目前应用较少。具体分析可参考下图。
第一代HVDC来源于电力操作电源,所以在效率、精度、监控等方面表现较差,目前主流HVDC均基于通信电源进行开发(-48V输出),所以在应用上这种供电架构与通信电源有很大的共同点。
在各厂家的宣传中,HVDC通常具备以下优势:
效率高,节能环保:通常宣称的效率在94%以上,比早期工频UPS高,但与目前主流厂家的高频UPS相比,并无明显差别。
少一级变换,可靠性高:早期的推广者通常会告诉用户,HVDC只有AC/DC一级变换,而UPS是AC/DC+DC/AC的二级变换,所以HVDC更加可靠,效率也更高。但实际上并非如此,HVDC的拓扑如图2所示,其内部同样需要二级变换(实际电路当然并非如此简单,但包括服务器电源在内的大部分开关电源产品都是这种原理),所以其外在表现出的效率与可靠性指标都与UPS差别不大。
电池在输出端,备电系统更可靠:这一点笔者比较认可。UPS的电池在断电时需要通过逆变电路进行输出,而HVDC与通信电源类似,电池与输出共母排,理论上备电系统更加简单可靠。但与通信电源类似,电池长期浮充(热备份)同样会对电池寿命造成影响,所以HVDC对电池管理也会有更高要求。
模块化结构,扩容维护方便:相比传统的塔式UPS,HVDC模块可支持热插拔,所以扩容与维护都比较方便。但与模块化UPS相比,二者差异不大。
在笔者看来HVDC产品本身并无明显优势(与模块化UPS相比1、2、4均无明显差别),其价值主要还是体现在由HVDC构成的供电系统以及后端服务器的变化上,HVDC+定制服务器才能最大程度体现其价值,而短期内HVDC的应用主要还是会集中在电信与互联网领域。
ECO供电方式
如图3④中ECO又称为经济模式,即UPS通过旁路来进行供电,在停电或电网波动超过设定的上限时自动切换回双变换模式。这种方式几乎没有损耗,效率可以达到99%以上,所以在欧洲等电网环境比较好的地区有不少应用。
那么,为什么数据中心可以采用这种供电方式,其他场景下是否可以使用?
如果把UPS看做黑盒的话,其输入与输出都是交流电,似乎并没有变化,但UPS解决了两个问题:储能系统的引入与提供稳定输出。UPS可以保证IT设备在断电时继续工作,这一点大家都清楚,但双变换拓扑的稳压、滤波功能却常常被忽略。在交通、通信等行业以及其他恶劣的使用环境中(工矿、工厂),UPS的抗干扰能力尤为重要,而且电网质量较差,所以不适合采用ECO模式。
但在数据中心应用场景中,情况有些不同。早期的服务器是名副其实的“贵族”,使用UPS就是为了保护服务器远离来自电网的危害,而如今数据中心的电网环境通常较好,而且目前服务器电源也有较高的抗干扰能力(通常自带PFC校正功能),还有X86服务器低廉的价格,这些因素导致服务器没那么“金贵”了,所以数据中心才敢于采用ECO这种近似市电直供的方式来给服务器供电。顺便说一句,金融等行业对传统UPS的青睐也是基于上述历史的惯性,因为目前不少核心业务还是在使用比较“金贵”的IBM大型机。
目前用户对于ECO模式最主要的担心是“断电能否快速切换回来?”
理论上,服务器电源在断电后可以依靠自身的电容储能维持短暂的输出(大概十几ms,负载率越高时间越短),而所有厂家宣称的回切时间都不会超过10ms。所以该模式的安全性是可以保证的,但实际应用中可能还是需要与其他供电方式配合使用才能完全打消用户的顾虑。
市电直供
这种方式就不需要细说了,它是目前损耗最小(主要在线缆与铜排等传输路径上)最简单的供电方式,当然同时因为没有备电系统也无法进行断电保护。在实际应用中,市电直供主要配合其他供电方式来为IT设备提供电力(如图1③中所示),下文将会重点介绍其应用。
小结:
从上述几种供电方式的分析来看,未来将呈现以下趋势:
1、产品效率越来越高,就UPS来说,目前主流产品效率已高达95%,未来可以提升的空间已经非常有限;
2、从关注产品到关注方案。迫于低成本、高效率等方面的压力,越来越多的用户会尝试更加高效的供电架构而非仅仅关注产品本身;
3、新技术带来系统可用性的提升,同时对硬件可靠性的要求逐渐降低;
4、在效率提升有限的情况下,其他特性如智能特性、适用性(与其他方案的融合能力)将更加突出。
总体来看,越来越多的用户会要求设备厂家具备提供综合解决方案的能力,目前大多数的UPS、HVDC等供电产品厂家都开始推广微模块等整体解决方案,而未来技术的发展可能还会推动这种融合向供电链路的上下游推进。
目前在供电架构领域,因为各种方式并存,所以各位专家也是众说纷纭。这里分享一些个人的观点,还请大家不吝指教。在笔者看来,目前该领域经常存在以下几个误区:
误区一:HVDC过度宣传。
近年来HVDC发展较为迅速,其主要推动力主要来源于国内三大运营商与BAT等互联网企业。但整体趋势来看,目前仍非市场主流,其销售额仍不到UPS的10%。在笔者看来,HVDC之所以首先在电信进行应用,很大程度上也是源自运营商维护人员对通信电源的熟悉。经过二三十年的实际应用,通信电源的模块化架构已经十分成熟,而运营商的维护人员也积累了大量的维护经验,对比只能找供应商来维修的UPS,模块化的HVDC显然更符合维护人员的使用习惯。而模块化的结构将UPS原来的成本黑盒变成了白盒(机框+模块),技术门槛更低,也更利于大客户通过集采招标来压低成本。
而在很长一段时间内,HVDC的发展还有赖于产业链的成熟、相关标准的规范。未来随着电信行业自身转型的诉求,传统运营商的业务范围将从语音向数据过渡,并逐渐形成围绕数据中心建设的新一代网络架构。在ICT融合的大趋势下,交直流混供、一体化设备、CT设备的改造将为HVDC带来更多机会点。所以,HVDC虽不能包治百病,但未来可能更适合电信行业。
误区二:标称效率不代表实际效率。
这里存在两个问题:1、UPS的标称效率与实际效率的差别;2、产品效率与系统效率的差别。
UPS和HVDC因为负载率的不同会呈现出不同的实际转换效率,通常来说负载率越低,效率也越低,所以即便厂家宣称的UPS效率高达95%,在数据中心实际应用中(业务初期通常低于20%)可能只有90%。所以在选择UPS时还需要考虑其不同负载率下的效率。当然,选择模块化结构的产品(UPS或HVDC)也可以提高供电效率,因为这类产品通常具备模块休眠功能,可以通过休眠部分模块的方式来提供系统整体负载率。(可参考“如何选择模块化UPS”)
另外一个问题就是上文提到的,产品效率与系统效率的关系。即便选择了高效的UPS系统,数据中心的实际供电效率仍偏低,主要瓶颈来自服务器电源的效率!下表是国际机构80PLUS对服务器电源的效率分级,可以看出“黄金级”的服务器电源实际运行效率也只有90%左右,所以对用户来说,有时选择更高效率的供电设备,可能还不如想办法提高服务器的供电效率(这也是为什么上文小结中笔者得出以上结论的原因)。实际运行中的传统数据中心,大量服务器电源都处于比较低的负载率,而从下表数据可以看出,20%负载率时的效率与50%负载率时的效率差值超过4%,所以提高服务器电源的负载率可能比单纯提升前端UPS效率更有效。
通过上述分析就可以得出一个简单结论:供电系统的整体效率要考虑各个节点的效率,这也是为什么最近几年互联网企业的大型数据中心越来越喜欢“折腾”各种创新供电架构与定制服务器,目的就是为了提升整体效率(市电主供可以降低系统损耗,虚拟化技术提升服务器使用效率)。
备电系统:电池的一小步,服务器架构的一大步
再来看看备电系统的接入点,备电系统目前主流采用的是电池储能,除此之外还有飞轮储能等方式。目前国内IDC主要以电池储能为主,飞轮方式因初期投资较高、备电时间短等原因采用较少,本文不做赘述。根据备电系统接入点的不同,同样也导致了不同的服务器供电架构:
供电系统内部备电(供电链路最前端)
这种方式主要应用与UPS系统中,如上文所述,电池组属于UPS系统的一部分,在断电后为系统提供备电。对于小型UPS,电池通常会内置于UPS内部;数据中心等中大容量UPS应用场景中,电池一般会独立放置(独立的电池房间或微模块内部)。
按笔者的理解,这种备电方式将电池组置于整个供电链路的最前端(不考虑飞轮等场景),适用于传统的集中式供电方案(置于微模块内部也可以认为是相对于单个微模块的集中式供电)。其后端的服务器应用主要是传统的服务器。
供电系统外部备电(供电系统与IT机柜之间)
这种方式主要应用于HVDC系统中,电池组位于供电系统与IT机柜之间。如上文所述,通信电源也采用同样的备电方式,这种方式的优势在于备电系统可靠性更高,其次是直流电输入到服务器电源内部可以减少一级变换(需要定制)以便提高整体效率。
但需要指出的是,为兼容现有服务器,实际应用中大多采用240VDC的系统,所以其整体效率优势并不明显。
与这种供电方式对应的是国内的天蝎机柜,其结构如下图所示。
天蝎供电系统代替了传统的机架服务器每个服务器节点配备单独的供电模块的设计,整柜的供电子系统(电源框)位于整机柜的中间部位,占用3U空间,供电系统有两路输入组成一主一备份的架构(各由一半数量的整流模块组成N+N备份),其中的主输入回路一般采用市电直供连接,取消传统供电系统中的UPS等中间电能变换环节,得到最高的电网到IT设备的供电效率;备电回路则将市电经过HVDC系统转换为高压直流(天蝎规范定义为240Vdc)接入备电电池组作为备电,当主供回路异常时备电经过支持HVDC的整流模块变换后供应机柜保证正常运行。
简单而言,天蝎机柜就是将原本各自分散在服务器中的独立电源模块集中到了机柜中为所有服务器单板供电,对供电系统来说,其主要价值是提高了服务器电源的供电效率(负载率提升)并降低了成本。
如果读者对前文还有印象的话,会发现这与HVDC的思路很接近,都是借用了通信电源的架构,所以说在数据中心领域,未来IT和CT技术的融合将会成为常态。但是将之前“分散”到各个服务器的电源模块“集中”到机架内,是否是有悖IT设备供电日益分散化的演进趋势?并非如此,任何一种供电架构都需要考虑可靠性与效率的平衡,集中化是为了提升效率,分散化是为了提升可靠性。
服务器外部备电(IT机柜内部)
这种方式主要通过IT设备自身来备电,所以前端使用何种供电方式都影响不大,不过为降低成本通常是市电直供的方式。对应的服务器机柜架构主要包括微软的LES电源与facebook的OCP。
微软LES电源
微软在2014年正式加入OCP(开放硬件)计划,在2015年的OCP峰会上,进一步贡献了其OCS开放服务器与LES(本地能源存储)分布式供电架构。
LES架构在服务器标准电源模块内增加了锂电池包(BBU),锂电池通过低成本小电流的380V充放电DC/DC电路并联到PSU的PFC母线上,实现市电正常下的充电,以及市电异常下的备电供应。一个LES电源模块就相当于一台UPS。因为每个电源模块都自带电池,所以理论上LES的服务器并不需要向其他市电主供的方案一样要在断电时进行切换,可靠性应该更高,但因为集成了锂电池,这种服务器电源的成本显然也更高。
据说LES供电架构因为不需要UPS和铅酸电池组,可以节省25%的机房面积与15%的PUE,而且锂电池采用业界应用最成熟的18650锂电芯,所以不用担心电池故障造成服务器损坏。
Facebook的OCPV1.0
Facebook的定制服务器同样是在服务器电源上打主意。这种服务器支持交流和直流48V两种输入,正常情况下由市电进行主供来消除UPS转换带来的能量损失,利用277V输入的PSU(服务器电源)来消除原本(将480V转换为208V)带来的损耗。而在停电时,则有电池组提供48V直流给另外一路服务器电源,该路服务器电源将48VDC转换成12VDC直接向服务器供电。Facebook宣称采用更高效的VR和PSU,所以整个供电系统效率更高(为了突出节能效果,UPS和PDU的效率他们分别采用了86%和97%,与现实情况差距较大)。
服务器内部备电
这种方式主要对应google的内置电池服务器。这种定制化服务器每台内部都有一块12伏内置电池,正常情况由市场通过服务器电源转换成12V进行供电,如果停电或主路供电遇到问题,则由电池直接给服务器供电。因为内置电池的成本很低,有多少服务器,就配多少块电池,所以安装比较灵活,只要供电系统总容量允许,扩容时基本不用考虑备电的问题。因为是市电直接供电,所以系统的整体效率就是服务器的效率。
小结:
从备电系统的位置来看,随着电池组一步步向后端延伸,供电架构也从完全的集中式过渡到完全的分布式(数据中心->微模块->机柜->服务器),单个服务器本身的可用性也逐步提高。
通过对各种定制服务器架构的分析可以发现:
BAT天蝎:定制化程度最低,对现有架构的变化最小,服务器电源从各自分散变成了集中到整机柜中(目的是提升供电效率与部署速度),定制服务器仅保留原来的单板、CPU等核心部件;也正因为如此,相比更早开展的OCP项目,天蝎项目反而进展更快。
其次是facebook:需要对服务器电源进行定制(可支持48VDC),而储能系统则可以利用现有的通信电源(铅酸电池成熟度更高),对服务器改动较小,仅需要更换部分服务器电源模块;笔者认为,facebook的这种架构其实对通信运营商非常适合,尤其是现网存在大量传统CT设备的时候(采用48VDC供电),更适合ICT设备融合改造的场景。
然后是微软的LES电源:其本质是把锂电池与服务器电源集成到一个模块里面,而其定制服务器本质上与天蝎服务器一致;LES定制化程度稍高,优点是备电系统与供电系统结合,随负载灵活扩容,可保持固定的备电时间。(换句话说,想增加备电时间必须同时增加电源模块)
最后是google:其服务器定制化程度最高,是彻底的分布式架构,相当于每台服务器都自带UPS,结构最简单;但IT设备使用寿命有限,设备更换后电池无法利旧,造成浪费(网上资料不多,笔者猜测,也可能可以通过拆除电池来利旧)。而为了降低成本不可能配置高容量电池,因此备电时间有限(只有几分钟),对油机切的换速度要求较高。
组合方式:市电最高效,但提升效率并非唯一目的
通过供电方式与备电方式(不同服务器电源架构)的自由组合,就形成了不同的数据中心供电架构,简单来说可以分为三类:
传统的UPS/HVDC系统
传统的UPS系统为保证供电可靠性,普遍会采用2N、N+1的供电架构(这种架构大家应该都非常熟悉,这里不做过多解释)。如果再配合前端的双路市电引入,后端的双路供电服务器,理论上说几乎不存在业务中断的可能。但可靠性提升的同时也带来了投资的增长,所以除了只看重可靠性的金融行业之外,国内的数据中心很少会采用最高规格的Tier4系统。而随着云计算、虚拟化等技术的普及,如两地三中心、同城双活等灾备方案也大幅提升了业务的连续性,单个数据中心的IT设备本身对供电可靠性的要求也有所降低。另外互联网产品对业务中断的抵抗力也较强,也是大家敢于不断尝试新架构的原因之一。比如上半年的携程、支付宝故障也只是让大家感觉不方便而已,并未导致重大的损失(相比金融、通信、交通等行业)。
正是在这种大环境下,互联网企业才出现了越来越多的新的供电架构。但对于其他行业,以UPS为主的供电架构仍然是当前的主流方案。
市电+UPS/HVDC系统(包括ECO)
首先要强调,所有采用市电直供的IT设备都必须满足一个大前提:支持双路输入。即两路输入互为备份,一路断电后由另外一路供电,切换过程不会影响业务的运行。对单路供电的设备,则只能采用不间断电源系统(UPS或HVDC)或使用STS在断电时及时进行电路切换。
采用这种供电架构一般会有两种形式:1、负载均衡方式;2、主备方式。
几乎所有模块化电源(模块化UPS、HVDC、通信电源、服务器电源)在设计时都会要求每个模块可实现均流,即按相同比例平均分担整个负载。对于普通服务器来说,两路输入分别来自市电/ECO和UPS/HVDC,双方各自承担50%的负载。比如,市电效率为100%,UPS效率为94%,则供电系统整体效率(不考虑服务器电源转换效率)则是97%。
通过对服务器电源软件的更改,可以调整各电源模块承担负载的比例,比如让市电承担100%的比例(即市电主供),另外一路UPS/HVDC作为备份,只在市电故障时才对服务器供电。
其实这种方式在整体效率上已经与互联网企业的各种定制化方案没有太大差异了,在正常情况下都是由市电来供电。所以对于比较重视效率,又不希望有太大改动的用户比较合适。但实际上愿意采用这种供电架构的用户并不多,用户通常还是更愿意采用传统的方式。
市电+定制服务器(市电主供+电池热备)
互联网公司的大规模采购量与技术实力使得他们可以进行更多的尝试。这种架构一般需要配合定制服务器,以使用市电为主,其他方式仅作为备份。对供电架构来说,总的趋势是从集中到分布式供电。需要特别提出的是:市电主供+电池备份(或UPS、HVDC等)在可靠性上显然不如传统的UPS+UPS(2N或N+1)方式,但随着备电系统下沉到微模块内、机柜内、甚至服务器内,服务器本身的可靠性在提升,所以综合来看,市电+定制服务器的方式并一定比传统方式可靠性更低。
上文提到,如果仅比较供电系统整体效率的话,互联网的各种定制方案并无明显优势(都采用市电主供的前提下)。其优势主要还是体现在整体方案的部署速度、空间利用率、服务器电源效率、后期维护、综合成本等方面。
需要指出的时,采用这类供电架构时必须具备一些前提,比如:
1、大型IDC普遍具备大容量油机,可以保证在市电断电后短时间内切换到油机供电。
所以电池备电时间可以较短,以便降低采购成本,同时也节省机房空间,甚至将电池集成到服务器内部;
2、采购量较大,人员素质高,同时具备较强的方案设计能力与议价能力。所以可以得到供应商的配合来尝试各种创新方案,可以从整个供电链路来进行方案整合,可以利用规模效应影响、推动行业的变化;
3、业务单一,可复制性强,上层业务连续性有保证(灾备、虚拟化、快速迁移)。所以可以允许部分基础设施可靠性的降低来提升效率、降低成本。
小结:
互联网的“去中心化”思想对数据中心的发展影响深刻。十几年来,从集中到分散的转变一直是数据中心发展的大趋势:从传统数据中心到云数据中心,再到分布式云数据中心;从传统集中式供电、制冷到微模块的分布式供电、制冷。在笔者看来,其本质就是把一个复杂的、不可复制的、串联的系统拆分成若干个简单的、可替换的、并联的系统,由此来降低TCO与维护难度,提升系统的可靠性。
但互联网行业有其特殊性,这些创新供电架构往往需要其他产品与方案的配合,目前来看尚不具备最广泛的普适性,至于未来是否能成为主流,现在下结论还为时尚早。
后记:
无独有偶,在笔者的这篇文章完成一周之后,网上传来消息:google在比利时的数据中心因连续遭遇四次雷击而导致电力中断,造成0.000001%的数据永久丢失。
原因其实笔者在上文中已经提到,即数据中心采用创新供电架构的大前提:
1、备电系统(油机)及时切换是降低电池备电时间的前提:电池系统后移->备电时间降低->对油机的依赖程度提升->油机切换时间要求更快。以上这条逻辑链路说明了二者的关系。显然,这次google的油机并未在市电中断后发挥其应有的作用。
2、保证上层业务连续性是提升效率、降低成本的前提:google用自身的教训告诉我们,再完备的硬件架构都可能存在风险,所以数据的备份是必不可少的。
另外需要指出的是,因为缺少中间变换设备的隔离与保护,在采用市电直供方式提高供电效率的同时,来自电网的干扰也会对服务器产生影响(尤其是在雷击等极端情况下)。媒体并未报道google电力故障的具体原因,笔者猜测:在市电中断的同时,很可能因为雷击造成了油机/市电切换系统、配电防雷系统、甚至服务器电源本身的故障,这才导致油机无法及时启动或启动后无法给服务器正常供电。所以在采用市电直供方式时,需要更多考虑如何屏蔽来自电网的风险。
编辑:Andly