一、数据中心政策解读
近年来,数据中心是为数不多能源消耗占社会总用电量比例持续增长的行业。与此同时,数据中心产业能源消耗、绿色和低碳发展进程正在不断引发关注。我国二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和。数据中心行业亟需顺应这一发展趋势,降低碳排放,逐步实现数据中心“碳中和”目标。
为响应数据中心“双碳”战略,整个数据中心行业的相关标准规范要求也在持续刷新,如变压器GB20052-2020标准刷新降低了能耗参数指标,数据中心国家标准GB40879—2021《数据中心能效限定值和能效等级》自2022年11月1日起在全国范围强制实施。根据该标准规定,数据中心能效等级分为3级,1级表示能效最高。各能效等级数据中心电能比数值规定:1级<1.2;2级<1.3;3级<1.5。该标准建立了规范、统一的数据中心能效评价方法,规定了能效限定值等强制性能效准入要求,将为该领域实现绿色低碳发展提供关键的标准工具。
二、数据中心传统供配电系统的现状及挑战
1.占地面积大
随着服务器芯片算力的提升,数据中心的IT机柜单柜平均功率从原来的4kW,演进提升到当前的6~8kW,并将很快提升到1216kW;传统供配电方案的配电间与IT空间的比例,越来越高,IT“得房率”(或者说出柜率)越来越低,如何降低供配电间的占比,成为当前数据中心行业急需解决的问题。详见图1所示。
2.部署周期长
传统低压供配电系统,一般包含变压器、低压配电、UPS输入配电、UPS、UPS输出配电、输出馈线,设备种类多且复杂,在建设安装过程中十分复杂,部署周期长。
1)采购阶段:设备种类多,来自不同的供应商,采购招标管理繁杂,供应商的交付货期管理复杂,需要耗费大量的时间。
2)安装阶段:不同设备的供应商接口设计不归一,现场施工需要对接不同的供应商,效率低,耗费时间长;各设备分布放置在不同的位置空间,一次侧主要采用线缆或密集母线方式连接,甚至需要跨层连接,需要现场工勘,再制作电缆和密集母线,时间上只能串行施工,现场工程量大,交付工期长。
3)调试阶段:现场首先需将此二次侧通过铺设通信线连接到上级交换机,再连入动环监控系统,铺设二次线缆需要大量的人力和时间;不同设备的软件接口协议均不同,动环监控系统需对应开发协议,并一个个设备分布调试,调试测试周期长。
3.能源效率低
随着数据中心制冷系统的持续演进优化,数据中心的设计典型PUE从之前的1.8降低到现在的1.3以下,供配电系统的能耗占整个数据中心系统总能耗比例越来越高,占到26%左右,详见图2所示。因此,数据中心的供配电系统的效率将很大程度上决定了其能耗上限,供配电系统的高效省电已成本数据中心建设的重要诉求。
4.运维成本高
运维是数据中心生命周期内重点关注的问题,以一个1500机柜采用传统供配电方案的数据中心为例,每个班次的运维人员需要3~4人,每天3个班次轮换,共需要运维人员9~12人,加上例行的检修,以10年运行周期计算,运维人工费用投入占数据中心总投入会达到6~10%左右,提升运维效率能减少运维成本。因此,如何简化运维工作、提升运维的智能化程度也是数据中心供配电系统面临的挑战。
5.可靠性不明
传统供配电方案系统的各设备单元是割裂的,单独管理,整个配电间系统的运行状态并不清晰,在网管上也只有简单的电压电流电能等数据。系统是否健康安全的运行,在监控界面上没有直接展示出来,需要依赖运维人员个人的技术能力来发现运行的异常状况。而运维人员个人的技术能力是一个不稳定因素,这对整个数据中心长期稳定可靠的运行是较大的风险。
6.部件兼容差
传统供配电方案的各设备来源不同的厂家,每个厂家的机柜尺寸、接口位置设计、通信协议均不相同,这些设备安装并柜、电气连接将带来很大的挑战,经常需要设备到场并柜时才能发现接口不兼容的问题,还需要实物工勘再去加工整改才能解决。每个厂家通信协议不相同,导致系统监控只能将设备通信都接到上层网管,上层网管需要对每个设备都开发单独的接入软件包,设备之间没有通信联动,每个设备都是割裂的在运行工作,兼容性差,系统联调联测十分困难。遇到一些联调异常时,难以定位是哪个环节出的问题。
三、融合电力模块系统
1.系统构成
融合电力模块平面布局如图3所示,从左到右依次为:变压器、进线母联柜、SVG柜、UPS、维修旁路柜、输出馈线柜。顶部通过铜排进行连接。
2.智能管理系统
融合电力模块的管理系统,由本地智能管理系统和远端网管组成,本地智能管理系统把变压器、低压柜/馈线柜、UPS等设备的监控信息进行汇聚,在本地监控屏幕上统一显示电力模块各单元的电流、电压、频率、电能、谐波、负载率、开关状态、UPS状态、各节点温度,供用户本地直观的识别系统运行状态。同时可以把信息上报给远端网管,供网管显示3D视图、电压电流电能等运行参数、链路图及故障影响分析、开关在线整定、开关健康度预测、UPS电容/风扇寿命检测、各节点温度预测及AI异常预警等智能运维特性,提升系统运维效率。
四、融合电力模块系统与传统供配电系统对比
1.占地对比
融合电力模块,相比传统方案,以2.5MW电力模块为例,节省占地40%。以典型的1500柜、8kW/R、2N架构为模型,IT机柜白空间安装3m2/柜测算可增加部署IT柜170,详见图4所示。
2.部署周期对比
传统攒机式方案,以2.5M电力模块为例,设备来源多个供应商,铜排、线缆均需要现场设备到场就位工勘后再加工,设备的安装、母线线缆的加工和安装、设备单体调试、联调、系统验证,整个周期>2月。撬装式智能融合电力模块作为一个整体已经出厂预装和调测,只需要现场安装就位和与上层网管的简单联调,整个周期<2周;对于非撬装式散发现场安装的场景,增加机柜、铜排等安装就位步骤,整个周期≈2周。
3.链路效率对比
融合电力模块,采用高效UPS,相比传统方案,UPS双变换工作模式下效率从94.5%-->95.6%,提升1.1%;在智能在线(超级ECO)下,效率提升到97.8%,提升3.3%。
4.标准化和可换性对比
智能融合电力模块作为一体式产品,相比传统的组合攒机式方案,能标准化的批量复制,设计、交付、验收、运维更为简单。同时,智能融合电力模块坚持模块化的思路,将关键部件如UPS功率模块、旁路模块、配电馈线模块、SVG/APF模块、监控模块、集中主控全部模块化设计,实现5分钟快速更换。
5.运维对比
智能融合电力模块通过高效的全链路可视的集中监控管理,和智能可靠的AI运维,相比传统方案在运维效率上有明显的提升,并能提供可预测性的运维,运行安全可控,详见表1所示。
6.TCO对比
1)初始投资对比
数据中心的初始投资主要包含建筑建造费用、设备费用、安装调试费用几部分。其中建筑建造费用受供配电系统占地面积的影响,相比传统的方案,智能融合电力模块体积密度高,占地降40%,以1500柜/12MW数据中心为例,出柜率比传统方案多170柜,高10%左右的出柜率。
安装调试费用与系统组成的复杂度强相关,智能融合电力模块为一体式产品,相比于由多个供应商设备组成的传统方案,在安装调试方面具有天然的优势,安装调试周期从2个月—>2周,相同的配置需求其安装调试费用低50%以上。
综合设备费用考虑,由于融合电力模块设备本体集成度高,对设计、生产的要求较高,虽然机柜数相比传统方案减少,但单柜设备费用较传统方案极高,以一个1500机柜12MW的数据中心为例,智能融合电力模块方案设备费用与传统方案持平。
2)运行投资对比
数据中心的运行费用主要包括设备消耗的电费、水费、耗材费用、例行检修费用等,其中电费取决于数据中心运行PUE,例行检修费用取决于系统的复杂度。
智能融合电力模块方案相比传统方案,双变换模式效率高1.1%,智能在线模式效率高3.3%,显著提升整个数据中心PUE。以1500机柜/12MW/负载率50%/电费0.75元/kWh的数据中心为例,10年生命周期,双变换模式相比传统方案节省电费约640万,智能在线模式再节省约1280万。
传统方案有多个供应商设备攒机组成,运维工作复杂,所需巡检的设备、参数都数倍于智能融合电力模块,在数据中心生命周期内,运维费用传统方案会更高。
以北京的某数据中心模型为例:该数据中心机柜数1500个,单柜功率密度8kW/R,当地电费0.75元/kWh,负载率50%,测算10年总运行费用。详见表2所示。
7.可靠性对比
融合电力模块融合了UPS输入输出配电,相比传统方案供配电系统链路连接点更少,系统更为简单,出现失效故障的可能性更低;且撬装式在工厂组装预制化,标准流水式作业,出厂测试,安装施工总装环节引入失效点的可能性更小,相比传统方案可靠性相对更高一些。理论计算2.5M配置两种方案的MTBF和SystemDowntime(min/year)如表3所示。
五、电力模块故障隔离及可靠性分析
1.系统故障隔离保护设计及选择性保护设计
工况一:电力模块支路馈线输出端口脱扣,智能融合电力模块与传统攒机方案保护动作相同,故障支路断路器断开隔离,其它路正常工作,如图5所示。
馈线支路塑壳断路器与UPS熔断器的选择性保护曲线如图6所示,塑壳断路器选择630A热磁(磁不可调)型,是选择性保护最恶劣工况,从图上看,UPS熔断器(1800A)与塑壳断路器(630A)满足时间选择性保护要求,塑壳630A输出短路时,熔断器不会熔断保护。塑壳断路器选择630A及以下容量均能与UPS熔断器实现时间选择性保护。
工况二:电力模块UPS旁路模块故障,融合电力模块相比传统攒机方案保护隔离范围更小,仅故障旁路退出脱离,其它路正常工作,如图7所示。
工况三:电力模块UPS功率模块故障,智能融合电力模块相与传统攒机方案保护隔离范围相同,仅故障功率模块退出脱离,其它正常工作。
工况四:电力模块母线短路故障,两种方案均退出工作,靠系统2N保障数据中心IT负载不断电,如图8、9所示。
工况五:电力模块UPS输入开关到UPS模块间短路故障,智能融合电力模块整个退出工作,靠系统2N保障数据中心IT负载不断电,相比传统攒机理论故障范围扩大,但考虑智能融合电力模块相比传统方案,融合掉了UPS输入配电柜节点,理论上出现短路故障的概率更低,综合看系统可靠性基本相同。
2.熔断器系统应用可靠性影响分析
熔断器对脉冲电流的承受能力,随着不同工况,如脉冲出现的频次/脉冲时间,承受能力均有变化,如下是熔断器宣称的不同条件下的脉冲电流承受能力见表4。
表5、6为熔断器随脉冲时间不同变化的It曲线及典型时间的It值。
工况一:IT负载条件下影响分析
考虑数据中心运行工况复杂,IT负载冲击电流按照每天服务器电源重复同时重启3~5次最恶劣的假设工况,脉冲时间小于1S按1S时间评估,
Imax=<It×50%=10500×0.5=5250
Imax能承受5250A/1S脉冲电流,是600K满载电流的倍数如下:
倍数=Imax/(600×1000W×1.05(充电系数)×0.9(负载系数)×1.2(电压波动系数)/220V/3/0.96(效率))=5.01
服务器电源按照行业规范,冲击电流要求小于满载的1.5倍<5.01,因此远远小于熔断器能承受的脉冲电流,即使考虑熔断器10%容差指标也无风险。
工况二:典型动力负载条件下影响分析
动力负载,负载功耗集中的设备为冷冻水的冷机、冷塔、风机,风机、冷塔的泵功率占比小,占比最大的为冷机中的压缩机,压缩机有变频和定频两种,变频压缩机冲击电流平滑,基本与满载电流相同,通常在需考核绿色节能指标的数据中心使用,无风险。
定频压缩机,应用在关注capex投资的场景,大型冷机的压缩机都是N+1架构,一般最少2+1架构,典型比如4+1架构,5台压缩机一台台分步启动,每台压缩机的启动脉冲电流一般为5~7倍满载电流,时间<10S,计算此时熔断器能承受的脉冲时间(按10S时间)如下:
Imax=Imax=<It×60%=7300×0.6=4380A
倍数=Imax/(600×1000W×1.05(充电系数)×0.9(负载系数)×1.2(电压波动系数)/220V/3/0.99(效率))=4.31
按前面分析,动力压缩机典型4+1架构,即分步启动5台压缩机的最后一台时,脉冲电流达到最大值为满载电流倍数=1/5×7+4/5=2.2倍<4.31,无风险;最恶劣配置压缩机2+1架构工况,脉冲电流为满载电流倍数=1/3×7+2/3=3倍<4.31,即使考虑熔断器10%容差指标,3<4.31×0.9,也无风险。
因此在数据中心应用场景下,典型IT负载和动力负载,产生的脉冲电流小于熔断器能承受的值,不会出现熔断器使用中因脉冲电流超过承受值导致熔断器受损伤寿命降低的风险,使用无风险。
六、总结
融合电力模块技术,通过高密高效的UPS和融合UPS输入输出配电技术,相比传统方案在占地上节省40%,效率上UPS双变换模式下提升1.1%,UPS智能在线模式下提升3.3%,通过预制集成技术降低交付周期75%,同时通过全链路可视的集中管理及AI智能运维特性,提升运维效率降低成本,提升运行安全可靠性。该智能融合技术贯彻《2030年前碳达峰行动方案》指导思想,助力数据中心绿色低碳转型行动、节能降碳增效行动、绿色低碳科技创新行动,未来还可优化用能结构,配置叠光、储等组件,持续降低全生命周期能耗和碳排放。
作者简介
苗晓春:中国移动通信集团上海有限公司工程建设部,基建工程管理,高级工程师,上海交通大学电气自动化专业硕士,国家一级建造师,一级造价工程师、咨询工程师(投资)。主要负责上海移动大型数据中心、核心局房的规划、建设。
编辑:Harris