由于数据中心的迅速发展,节能减排的压力,对数据中心的PUE要求,这使得在设计和考虑大型数据中心的空调时,一般优先选用水冷空调系统方式,水冷空调系统由大量的设备和大量的管网组合而成,建设和运维过程中稍有不慎,就会存有隐患,如果不能及时处理和改进,就会影响到空调系统的安全,常见问题归纳如下:
1 运维空间问题
数据中心在设计时,要有足够的运维空间和通道,这是由数据中心空调系统的特点决定的,如数据中心冷站冷量大,机组体积大、高度高,数量多,又有板换等自然冷却设备,管网构成复杂,需要多层管网布置,因此数据中心冷站的高度和空间要求明显要高于民用标准,直接采用民用标准的冷冻机房高度,会导致建设和维护的不便。
①案例一:冷机房层高不够。某数据中心冷机房民用标准设计,冷机房选取高度偏低,水系统管网安装后,发现预留扩容位置的冷机无法搬运进入;只能把空调管线拆除,全部冷机一起采购,统一搬运安装,最好重新安装管线。但是这样给运维遗留了一个重要隐患,一旦冷机发生故障,由于没有足够的检修维护空间,冷机的检修和维护难以实
现,给系统留下隐患。
原因:设计未考虑数据中心冷机冷量大、体积大、设备多和管路复杂等特点,土建专业和暖通专业未进行充分沟通,没有根据具体情况具体分析,标准应用有误,导致冷机房层高过低,给后期运维工作带来困难。
对策:冷机房必须考虑冷机的运维空间和管道安装空间,确保同时满足管线安装和冷机维护检修的需要。
②案例二:冷机房未预留设备搬运通道。某数据中心冷机房在地下室,土建没有预留冷机吊装孔和足够大的搬运通道,导致冷机购置后无法整体进入到机房,迫不得已,只能将冷机进行制冷剂转移后,对冷机进行解体,冷机解体之后再进行搬迁到地下室就位,费工费力,还导致了多台冷机泄露,最后更换所有的密封件后才解决了泄露问题。
原因:设计冷机房时,未预留冷机搬运通道,导致冷机被拆卸搬运;在拆卸和重新组装过程中,未更换密封件,导致系统发生泄露。
对策:冷机房设计在地下室时,需要预留冷机的吊装搬运空间和通道,确保冷机搬运、设备更新的便利性;拆卸冷机需要更换密封垫圈。
③案例三:冷机无检修空间。某数据中心冷机安装后,对冷凝器进行维护检修时,发现离墙过近,没有足够的维修空间,冷机难以维护和检修。
原因:未进行检修空间预留。对策:冷冻机房预留吊装或者可以搬运冷机的通道和检修维护足够的空间,如图1所示。
2 冷却塔冷却能力问题
冷却塔设计时余量不够,运行中维护不到位,当数据中心负荷增加到一定时,发现冷却塔冷却能力不够,冷却水出水水温偏高,冷机运行耗能,夏季冷机发生喘振,无法达到设计负载率,这种情况在冷却水系统设计时采用单机对单泵对单塔方式时尤其明显。
案例:冷却塔冷却能力不够。某个数据中心采用单机对单泵对单塔设计,其中冷却塔仅满足数据中心大部分时间,高湿球温度时,发现冷却水冷幅不够,趋近度过大,由于冷却塔出水温度偏高,造成冷机效率低,冷机负荷达到70%就喘振频频,运行安全性严重下降。
原因:冷却塔选型时冷却能力选择偏小,冷却塔使用过程中,由于水质影响、风机风量和填料老化等因素影响,冷却能力会衰竭下降,加上部分冷却塔在制造过程中缺斤短两现象明显,如故意减少填料片数和尺寸,导致水量和冷幅无法满足设计要求,额定工况下冷却塔散热量不够,冷却塔出水水温偏高,冷机能耗增加明显,严重情况下发生冷机喘振,浪费冷机的投资并影响制冷系统安全。
对策:由于数据中心全年制冷,可用性要求高;在整个制冷系统中,冷塔的投资占比并不高,但是降低冷却水的水温可以带来明显的节能效果,延长自然冷却的时间,对水系统的安全有着很大的帮助。故建议数据中心业主和设计院在进行设计选型时,冷却塔设计需要预留一定的余量,UPTIME甚至建议按照20年最极端气候选择冷却塔。
3 末端管路沟通问题
水系统未设置有效的旁通,或者局部管道堵塞,导致水系统部分管路循环不正常。
①案例一:某数据中心新机房启用,末端空调调试不成功,经查为末端管路没有进行有效连通,水路无法正常循环。
原因:新机房启用,末端空调调试时,由于末端管路没有旁通管路,管路无法有效沟通,水路无法循环,导致水平支路缺水,末端设备调试失败,事后才发现由于管路中存在大量空气,导致该管路中冷冻水未能正常循环。
对策:对于支路管路,最远末端管路需要短接或者进行旁通(如图2所示),并在支路高位安装排气阀,确保管路中冷冻水循环,并及时排出气体确保管路充满水。现场对支路用旁通管连通,开启旁通阀和排气阀后,水路循环正常,末端设备运行正常。
②案例二:维修用旁通长期处于开启状态。某数据中心采用集中冷冻水空调+集中冷却水空调两套系统设计,在集中式冷却水系统中,在水泵的两端也设计了分集水器,同时在分集水器之间设计了自动旁通,系统调试后一直处于旁通阀一直处于开启状态中,运行过程中造成水泵两端压差偏小,水泵定频运行下发生超流量故障。
原因:在集中冷却水系统中,由于没有冷机,此次的旁通,仅在系统调试阶段是有用的,利于水泵水路循环的建立,但是在水泵正式运行后,旁通就必须关闭,特别是自动旁通,如果设置不当,水泵两端压差偏小,运行频率就会增加;该案例情况下设计人员图省事,运维人员对设计不熟悉,导致自动旁通一直开启,水泵进水和出水处于短接旁通中,正常压差难以建立,水泵高转速运行导致超流量。
对策:如果要设计近端水路旁通,不建议采用自动旁通,如果设计为自动旁通,需要向运维人员进行交底,水路循环正常后,需要视情况及时关闭旁通阀门(图3),杜绝水泵实际运行过程中的超流量和不必要故障。
4 阀门问题
阀门选择不合理,或者阀门发生质量问题,会给水系统的维护带来严重问题,如对冷机进行清洗或者水泵检修时,发现阀门无法关死,检修的设备无法从系统中脱离,导致需要停水系统才能检修设备,故障影响面扩大。
案例:阀门无法关闭。某数据中心在维护冷机时,发现阀门无法关死,冷机无法从系统脱离,最后决定新增一套冷却水系统,通过增设冷却塔和冷却水管路,把阀门能正常关闭的冷机接入到新冷却水系统中,关停原有冷却水系统,并对不足的冷量采用冰块加风机进行具备冷却;最后再购买新阀门,对故障阀门进行更换(图4、图5)。
原因:阀门无法关闭,主要为两个原因,一是阀板表面结垢,或者管路有杂质,影响阀门的密封性;二是阀门质量问题,在设备选型时使用了质量较差的阀门。
对策:阀门是水系统关键部件,如果阀门无法正常关闭,会对系统带来灾难性问题,水系统建设时尽量选用品牌知名度高、质量好、可靠性高的阀门,安装前对主管道阀门进行测试,并严格执行阀门安装要求。同时阀门的开启和关闭,也需要一定的诀窍和技术,需要采用多次启闭的方式,来恢复阀门的密封性能,最后再进行关闭;重要场合也可以设计为双阀门。
5 负荷过小问题
冷机安装完成时,末端设备安装未完成,机房缺少热负荷无法进行调试,另外一方面水空调系统未完成调试导致设备无法正常加电。
①案例一:某数据中心需要对服务器加电,但冷机调试无法完成,导致服务器无法加电;冷机需要调试运行,但缺少末端设备和假负载,无法运行。
原因:数据中心离心机组安装完成后,机房末端设备没有安装,末端冷冻水路不通,冷机无法调试;即使通过分集水器进行冷冻水旁通,也仅仅使冷机能够开机运行,缺少热负荷,或者热负荷过小,无法达到冷机下限负荷,调试工作无法进行。另一方面,由于冷机未调试,主机房服务器设备无法加电运行,相互形成一个死循环;另外调试过程中,需要的假负载功率巨大,运行过程会耗费大量电能;上述因素导致冷机调试成为一个难题。
对策:采用无负荷调试方法进行调试。数据中心为了降低能效,考虑自然冷却,一般采用冷却塔+板换供冷技术设计。调试时可以利用板换的换热能力,从冷机的冷凝器获得足够的热量作为冷机调试的热负荷,也就是冷机产生的冷量通过板换带走。无负荷调试原理就是充分利用板换的换热能力,把冷机蒸发器产生的冷量通过板换交换到冷机冷凝器侧,把冷机冷凝器放出的热量通过板换交换回到蒸发器侧,从而达到冷机冷量和热负荷的完全匹配。冷机板换调试水路循环,如图6所示。
②案例二:冷机调试完成后,需要正式运行,但冷机总负荷偏小,导致冷机启停频繁和喘振现象。
原因:负荷过低,导致冷机喘振。
对策:板换作为假负载,继续投入运行,确保冷机运行平稳,成功度过低负载时间。
6 后备水源问题
数据中心设计时,后备水源不充分,蓄水池备用时间不够,市政停水后导致恐慌。
案例:数据中心停水。某数据中心发生市政停水,导致水系统补水中断,只能利用蓄水池补水,由于蒸发量大,蓄水池在连续8小时补水后,即将用完,后果不堪设想;后来由政府出面协调应急用水才得以解决。
原因:数据中心需要多水源设计考虑,考虑停水影响,需要设计12小时的水源储备,考虑到市政停水可能会超过这个时间,影响整个中央空调系统的使用,数据中心中央空调水源储备要求更长的时间,南方水源丰富区域可以考虑深井水或附近水源取水等应急方案,北方可以考虑蓄冷罐作为第三路后备水源的方案对策:水系统的补水以市政给水为主,蓄水池作为第一后备水源,深井水水源、蓄冷罐作为第二路后备水源。在南方可以考虑江河湖水源和深井水作为后备;缺水地区需要和消防、环卫签订应急供水合同,特殊情况安排他们配合送水,如图7所示。另外蓄冷罐的蓄水功能也可以充分发挥出来,停电时放冷,停水时放水,在蓄冷罐进出配置截止阀、排水阀和独立补水装置,当长期停水时可以关闭蓄冷罐进出截止阀,放出蓄冷罐的冷水进行应急,市政给水恢复后及时进行补充水后,再重新投入系统进行蓄冷。
7 管路泄漏问题
案例:管路泄漏。某数据中心使用几年后,发生管路泄漏的问题。
原因:管道设计安装过程中,为赶工期和降低造价,部分主管管材选用不合适,直接使用螺旋管,管网施工过程中存在焊接工艺问题,管材和法兰连接处采用单缝焊接,使用中防腐方案不完善,焊接部位使用中被逐渐腐蚀,导致管路在使用过程中发生泄漏或爆管,严重危及机房安全。
对策:考虑数据中心生命周期长,尽可能采用无缝钢管并有良好防腐处理;只能采用螺旋钢管的管道,施工焊接必须符合要求,主管道需要完全探伤,并有完善的防腐手段,管道安装完成进行保压和气密试验,确保系统可靠。如果已经发生管路泄露情况,视管路结构和漏水情况进行抢修,如果管路有冗余和备份,建议停水修补;如果管路无冗余,就需要采用带压补漏技术,同时确保系统足够的补水防止系统失压,补漏过程还要保证排水通畅,防止数据中心发生水淹事故。
8 应急补水问题
案例:补水过慢。某数据中心发生管路泄露,冷冻水系统失压,紧急抢修时,发现系统只能透过定压罐补水或膨胀水箱补水,补水速度过慢,部分机房出现温度过高情况。
原因:管路发生泄漏后,缺少应急补水措施和紧急补水口,系统的补水只能通过定压或膨胀水箱处补水,由于管径过小,难以快速恢复系统压力,为了应急,只能打开冷机冷冻水管路的排污口,布置消防水带,消防水通过消防水带和排污口对系统进行补水,才保证了机房的安全对策:设计时,数据中心水系统必须考虑应急补水措施,如单独的应急补水泵和应急补水口,确保管网发生异常情况时,可以通过应急补水口对系统进行快速补水。
9 防冻问题
①案例一:某数据中心闭式冷却塔盘管被冻裂原因:未投入运行的闭式冷却塔由于阀门关闭,水路不循环,冬季低温情况下水发生冻结导致冷却塔盘管冻裂,如图8所示。严重影响系统安全,经过管路切换和紧急抢修恢复了系统的运行,如图9所示。
对策:冬季闭塔必须有完善的防冻措施,可以让闭塔投入运行获得热源避免冻裂,确实不使用的闭塔必须有防冻措施或者排出盘管中的冷却水;关闭不使用的闭式冷却塔时,只能关闭一只阀门,如果进出阀门同时关闭,由于受到热胀冷缩的影响,会造成冷却塔或者阀门的损坏;同样的,对于直接暴露在室外的设备,其两端的阀门也不能同时关闭,否则就会导致设备或者阀门的损坏。
②案例二:冬季部分管路及附属仪表被冻坏。
原因:设计时未考虑完善的防冻方案,设计时不考虑当地气候因素,直接将风冷冷水机组放置在室外,导致冷机盘管冻裂,防冻方案不完善,如设计保温材料厚度不够,电加热和电伴热没有给出具体的设计参数,保温材料选用不当,导热系数不满足要求,施工不到位,导致冷量传入,冬季发生管路冻结事故。
对策:对于极寒地区的设计,一定要考虑管网的防冻和设备的防冻,保温材料和电伴热需要进行计算,施工需要规范,杜绝管路和相关阀门仪表冻结事故的发生。
10 波纹管问题
①案例一:波纹管事故。某通信枢纽楼空调水系统发生失压现象,经查为管路法兰发生严重漏水,进一步检查发现管路发生严重位移,最后确诊为波纹管发生工程事故,分别如图10和图11所示。
原因:管网中对波纹管的使用情况不熟悉,设计时选用的波纹管长度过长,严重超过管网直径,又没有波纹管限位措施和管道止推设施,导致波纹管使用过程中失去稳定,管道发生严重位移后发现泄露,导致工程事故。
对策:波纹管设计、选用和施工必须符合规范,如波纹管的长度不能超过管径,而且要有限位措施和管道止推装置,防止波纹管失稳和被异常拉伸。
②案例二:维修不当导致系统失压。某数据中心蓄冷罐和主楼沉降不同,导致管网上的波纹管被严重拉伸,如图12所示,事故被及时发现,未造成影响。但在波纹管更换波纹管工作完成后,施工队未和运维部门沟通就对蓄冷罐进行补充加水,导致冷冻水系统发生严重失压现象,3~4楼机房缺水严重高温,发现事故后来直接对系统进行紧急补水,阻止了事故的扩大。
原因:蓄冷罐未考虑沉降问题,波纹管补偿量不够,波纹管外层钢丝防护被拉断;蓄冷罐无独立补水管,需要通过系统补水,补水过程对系统影响大,操作不当会导致系统故障;施工单位阀门操作不走流程,盲目操作导致工程事故。
对策:需要考虑沉降问题,波纹管的补偿量要足够,可以采用双波纹管进行补偿;蓄冷罐需要设置独立的补水管;在线管网施工维护和检修需要制定操作流程和应急流程,避免盲目操作。
11 其它细节问题
系统管网最低处要设计和安装一个比较大的排污阀,确保排污效果,排污阀太小会影响排污效果;排污口不在最低处,会造成排污不够彻底。经常操作的排污阀门或者排水阀门也需要采用双阀门设计,一个阀门用来减压,一个阀门关闭,这样可以确保阀门可靠工作。
考虑调试和维护的方便性,建议近端和远端都需要设计水路旁通,高位设排气阀,便于系统完工和检修时水路循环的建立和排除空气,水路循环建立后,这些阀门则必须尽快关闭。在水管建设过程中,也要考虑法兰垫圈材料的选用,某工程在水系统建设中,一开始采用橡胶垫圈,始终有少量渗漏现象,后来改用聚四氟乙烯垫圈后,彻底消除了垫圈漏水的问题。
另外在室外部分的仪器仪表,如温度计和水压表,普通表盘的仪表很容易腐蚀,故需要选用不锈钢材质的,经久耐用。
12 结束语
水系统的设计、建设和运维,三者紧密相关,如果设计、建设中存在隐患或者瑕疵,运维过程中必然会成为隐患,所以设计建设中,一定要有利于水系统的运维角度出发,尽可能考虑维护和调试的方便;同时在运维中,也要及时发现问题,采取正确的方法,解决问题和隐患,确保数据中心空调系统正常工作,希望上述案例经验对数据中心的运维有所帮助。
作者简介
叶明哲,48岁,从事电源空调维护支撑26年,中国电信集团B级专家,中国电信集团维护骨干,中国电信《集团技术能手》和《集团创新能手》,国资委《央企技术能手》。
编辑:Harris