随着数据中心需求不断增加,带来的能耗增长飞快,目前数据中心能耗占了全球用电量的2%,预计到2020年,全美国的数据中心耗电量将高达1400亿度。目前全球数据中心整体PUE值仍然偏高,据统计平均PUE值高达1.8左右,为了降低能耗减少高昂的电费账单,大家在机房层面做了很多优化工作,比如采用更高效率的UPS或者采用HVDC技术等,但在服务器层面的能效关注度仍不够,假定机房PUE值达到1.2的优秀水平,但服务器电源效率假定只有60%,综合PUE值只能相当于2.0的较差水平,有一半能源都被浪费掉了。因此有必要引入服务器PUE(即SPUE)能效概念,让更多能源真正用于计算,这对于大型云计算数据中心而言特别重要。
传统数据中心采用UPS给服务器供电,在服务器层面,由服务器电源PSU将机房UPS电降压成12V,然后再通过服务器主板上的VR降压模块分别降压到1.8V或者1.2V等不同电压给到内存和CPU等。目前在PSU方面有能源之星等能效要求,基本都实现了80PLUS(即80%)以上效率,甚至部分白金版PSU电源还实现了94%上的高效率,且服务器主板上从12V到POL负载点的降压VR模块通常采用了多相交错的BUCK降压模块(轻载下可关闭部分模块),也基本实现了80%以上的供电效率,但从电网经过机房级UPS、再经过服务器级PSU,以及主板级VR降压模块的多级转换,从电网到CPU和内存的全路径供电效率只有60%到70%左右,这意味着很大一部分能源都浪费在多级转换上了,因此有必要精简这一供电架构并提升转换效率。传统服务器供电架构如图1所示。
为了降低设备投资成本并提高供电效率,现在大型互联网公司的服务器较多采用了集中电源和风扇的整机柜服务器,比如一个传统的40台机架式服务器机柜需要配80个PSU电源模块,但每个电源的负载率只有30%左右,这种情况下PSU的投资成本很高,且PSU在较低负载下的运行效率都是很不好的。改采用整机柜服务器后可能只需要8个PSU,并且PSU的负载率提升到了60%到70%的较高效率点,无疑整机柜方式更为经济和高效,如图2为由集中式PSU电源插框后的12V供电母排给服务器主板来供电。但这种采用12V集中母排的整机柜架构系统集成度很高,在碰到大功率高性能计算场合,12V母排及主板上的低压传输会带来较多的传输损耗。
特别是随着现代高性能计算的需求,集成的晶体管数量在飞速增加,CPU核数也在不断增加,计算频率和线程性能等整体向上,总功耗在快速增加。部分CPU的负载电流高达150A,以及随着虚拟现实VR等需求,一些新的高功率器件如GPU等也在不断加大服务器的负载功耗,这个时候若仍采用12V的电压将会带来很大的损耗,因此采用更高电压传输变得越来越有必要。图3为40年的微处理器发展趋势数据。
但采用非传统12V的更高电压轨也会有很多新的挑战,比如针对高性能计算型CPU合适的POL负载点VR电源技术,以及这些降压VR模块的产业生态是否具备,供应商的专业能力是否满足,是否能按时大量供货,是否有很好的应用可靠性,以及采用更高电压后带来的人身安全,以及可能的EMI(电磁兼容性)问题等,因此找到合适的电压轨就变得非常重要了。图4给出了采用高供电电压的有关问题。
经比较,谷歌最终选择了48V的电压轨,因为这个电压等级在通信行业得已有广泛成熟的应用,也有了很好的产业生态,而且非常容易实现很高效率和较低成本的48V整机架式UPS。目前业界领先的48VUPS电源效率可以高达97%以上,且由于在通信行业已广泛应用,48V电源的价格也比较低,此外48V的锂电池也非常普遍在应用。采用48V母线,可以大大降低母排的传输损耗,并可以将机柜的功率扩展到30kW甚至更高,可以很好满足未来的升级扩展需求。
目前很多网络设备都可以直接支持48V输入的电源模块,因此整机柜的TOR交换机等可以直接从48V母排来供电,甚至风扇墙也可以直接从48V母排上供电,这样可以直接通过48V母线统一给机柜内的IT设备、网络设备、UPS电池以及机柜散热风扇墙等几乎所有部件供电,实现机柜内供电归一化,类似今天通信行业48V电源系统一样,可将IT行业和CT行业统一起来。
采用48V供电架构带来的最大挑战是服务器主板需要支持48V输入,谷歌对此的解决办法是采用了如下的分布式供电架构,将服务器主板上的不同部件分别处理(传统12V主板也类似有多个电源),采用几个不同的VR模块分别给CPU、DDR内存以及其他外设来供电,目前业界这些48V到POL负载点直接降压的VR模块已经技术上很成熟,并且有大规模在应用的案例。图5列出了采用48V供电架构的原因。服务器供电架构图如图6所示。
图中,由48V~1.2V的POL节点VR模块给CPU供电,48V~1.8V的POL节点VR模块给DDR供电,由48V~12V的VR模块给硬盘、风扇以及其他非核心外设芯片等供电。据统计,在高计算负载情况下CPU和内存的功耗占服务器总功耗高达80%,因此采用这种高效48V~1.X的POL直接降压VR模块可较大程度提升传统12V供电架构效率,也避免采用目前通信行业常用的48V~12V~1.2V多级转换结构,降低IT设备从电网到CPU全路径的综合能耗。有关用电分布如图7所示。
三者对比,采用谷歌的+48V供电架构,整机POL负载点的效率为94%,综合系统总效率为92.1%(从电网到CPU的全路径效率);采用通信行业的-48V供电架构,同样-48V高效率电源效率按98%计算,-48V到12V的效率为96.5%,板卡上12V~1.8VPOL的VR模块效率按94%来计算,综合系统总效率为88.9%(从电网到CPU的全路径效率);而采用传统12V供电架构,高效率12VPSU的效率为95%,而12V~1.8VPOL的效率为94%,综合系统总效率为89.3%(采用UPS给整机柜供电,还需要额外乘以0.94的UPS转换效率,如果采用12VBBU架构,还会有48V~12V的电池稳压VR的损耗以及投资)。
综上所述,采用谷歌的48V供电架构,从电网到CPU全路径上,只经历了48V这一中间转换环节,综合效率最高,比采用12V母线的方案降低了30%的能耗((10.7%~7.9%)/10.7%=26.2%,这里还没考虑采用48V母线比12V母线带来的较多传输损耗减降低,加上这部分将超过30%),也比通信行业-48V方案效率更高投资更少。此外传统12V供电架构可能还需要配置机房级的UPS,而48VUPS供电架构直接采用市电直供不再需要机房级的UPS。因此不管是效率,还是投资方面都有很大的降低。当然,48V供电架构在高功率机柜方面有较大优势,推进这一技术应用的主要动力是计算负荷的不断增加,以及48V到POL节点降压VR和48V服务器的产业链和生态,但通过48V整机柜技术来降低机柜级SPUE,可以带来几十亿美金的基础设施投资节省和电费降低,也是意义非常重大的。随着谷歌加入OCP生态联盟并贡献这一标准,相信会有更多的用户来使用这个机架式48V供电技术,以及更多的厂家会参与到这个生态中,这也降低了谷歌自己的采购成本,并大大推进行业采用这一节能技术以及机柜标准的前进步伐。典型功率架构的效率比较和+48V供电的优点分别见表1和表2。
作者简介
李典林,数据中心资深专家,腾讯数据中心架构师,高级工程师。现任职于腾讯IDC平台部数据中心规划组。
编辑:Harris