1 数据中心测试验证概述
ASHRAE(美国采暖、制冷与空调工程师学会)对数据中心测试验证的定义是:数据中心测试验证是一个系统性的质量验证过程。此过程验证并记录该数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。
测试验证处在数据中心建设和投产运行的关键的、承上启下的节点。数据中心的规划、设计、建设阶段投资大、周期长,测试验证是确保投资达到预期目标的最重要手段,可以看作是数据中心建设的终点。于此同时,测试验证也是数据中心运行的起点,一个专业和完善的测试验证可以极大地降低数据中心在其运行早期的故障率,并为其全生命周期的稳健运行奠定基础。
数据中心生命周期如图1所示。
一个数据中心,无论前期的规划、设计、建造阶段投资多么巨大,工期多么漫长,它们的最终目的都是要数据中心在上线之后能够持续稳定运行,满足用户的运行要求。而在数据中心生命周期的任何阶段,都有可能因为规划的不合理、设计的失误或者建造质量的不合格,产生诸多问题,影响到未来的正常运行。测试验证的目标就是发现数据中心当前的问题(比如断路器的线可能接反;线路标识不全;或者是电路接点没有拧紧),并且提醒业主所有的单点故障点(供配电及制冷系统上可能引起系统中断的点),为潜在的问题敲警钟。
测试验证所处的关键时间节点决定了它的重要价值。对于一个数据中心来说,测试验证不仅是唯一验证系统性能、测试设备极限负载能力、降低基础设施设备早期故障率的机会,也是运维人员了解和实际接触将来管理对象、验证运维操作流程是否正确的过程,所以运维人员应该积极参与到测试验证中,借此机会熟悉系统和设备,并为以后的运维工作积累实际操作和应急情况处理的经验。
部分数据中心的建设者认为测试验证与工程监理、设备开机调试类似,是否还有必要将此过程单独进行?其实工程监理主要关注于工程的安全、进度、预算、材料质量的把控,现场人员比较少,一般只有1~2人,他们的专业多数是通而不精,也不需要专业的仪器,不能对机房整体输出性能负责。设备开机调试由设备供应商进行,主要关注于单一设备的输出指标达到供应商的投标承诺值,并且确保设备处于良好的状态,但设备调试不做故障的模拟,不对数据中心整体系统进行测试。而测试验证与工程监理相比较,主要关心最终的整体工程结果的性能符合设计要求和运行要求,现场人员多(大型项目10人左右),验证人员为各专业的专家,借助大量专业仪器、假负载来验证机房实际运行的效果;与设备开机调试相比较,测试验证由第三方专业公司进行,关注单一设备的同时,更关注整体系统的性能是否符合设计要求和运行要求,并通过假负载模拟故障情况,检验系统的抗故障能力,设备调试只是测试验证工作内容的一个重要组成部分。所以测试验证的作用对于整个数据中心机房的建设和运行不可替代,应该成为每一个数据中心建设工程的标准流程。
2 确保测试验证实施效果的关键因素
确保数据中心的验证效果有三个关键因素:选择一家专业的第三方验证服务机构是确保高质量验证结果的第一要素。美国绿色建筑委员会(USGBC)明确要求验证机构应该是没有参与数据中心项目设计和建造的独立第三方机构。只有专业的第三方机构才能保证测试验证结果的正确性和公正性,真正为业主负责,为机房未来的稳健运行把关。
准备合理的预算是确保验证效果的第二要素。专业和周密的测试验证需要许多专家和测试工程师的介入,需要大量精密的测试仪器和假负载,模拟测试时需要耗电,柴油机测试需要耗油,这些都需要数据中心建设的项目管理者及早为测试验证留足预算资金。
为测试验证留出时间是确保验证效果的第三要素。很多工程项目管理者往往因为建设工期紧、领导急于投产而没有留出验证的时间,这会为后期的安全运行埋下诸多隐患,所以要尽早准备验证工作,为测试验证留出时间。
3 测试验证的内容
数据中心的规模越大、设计等级越高、设备配置越复杂,需要测试验证的内容也就越多。测试验证的内容可以按照实施的顺序和验证的对象两种方式来划分。
(1)按照实施的顺序决定测试验证的内容
测试验证工作从建造阶段就应该开始介入,直到数据中心上线之前结束,是机房上线运行前的最后一道工序。按照实施的顺序,我们可以把测试验证分为厂验、到货及安装、功能元件测试、功能系统测试、系统联调及故障模拟五个阶段。
①厂验
厂验是在设备发货之前,在设备原厂或者第三方的实验室进行的设备运行和功率容量的基础验证。厂验的对象是机房的主要设备,包括发电机、UPS、冷水机组、空调等。这些设备对机房整体系统有至关重要的影响,所以发货前必须按照厂家或者行业标准的条件和步骤进行厂验,目的就是验证设备的性能参数符合招投标文件,功能满足设计要求,避免设备发货前就有无法弥补的缺陷。测试验证的机构需要全程参加厂验,测试报告由厂家提供,测试验证团队审核。
②到货及安装
测试验证团队应该在设备到达安装现场时进行到货检查,检查的对象包括发电机、UPS、冷水机组、空调等主要设备,检查的目的是确认到货设备与厂验中的设备一致,无损坏无更换。
在主设备安装完成后,测试验证团队需要对安装质量进行检查,确保设备的安装满足设计、组装、使用、维护、人身安全和当地法规等要求。设备的安装质量直接影响以后的运行稳定性,很多设备故障都是由于安装不合格引起的。比如在风冷空调的安装过程中,如果安装管路过长、落差过大就容易在运行中造成烧压缩机的严重故障,所以安装质量是测试验证过程中非常需要关注的内容。
可以说厂验、到货及安装检查是测试验证进入核心工作的必要前提。
③功能元件测试
测试验证团队需要在功能元件测试阶段完成设备的性能测试和启动测试,并验证设备能够在基础负载下运行,这个阶段是针对单体设备的测试验证,是为后面的系统测试验证做准备。
由于数据中心的设备非常繁杂,这个阶段的测试验证关键就是要保证核心设备和核心系统的每个链条上的元件和路径都得到实际的测试和验证。对于主要系统功能元件的测试验证内容,将在按照验证对象的划分方式中详述。
④功能系统测试
功能系统测试是针对由单体设备组成的子系统来进行的测试验证工作。主要内容包括验证子系统是否已经做好与其他系统联合运行并支持数据中心运转的准备;测试、调整制冷系统,以保证风量和冷冻水流量满足设计要求;分别在正常、维护和应急模式下,通过监控系统验证设定点、报警、功率数和性能状态的反馈是否正确。
数据中心基础设施中对于可用性及可靠性影响最大的子系统是供配电子系统。随着数据中心热密度的上升,空调系统的重要性也随之上升。而安防监控的参数设置可能影响以上两个系统的动作,因此这三个子系统的测试验证也是数据中心验证的主要工作。
⑤系统联调及故障模拟
系统联调及故障模拟在测试验证工作中是最后一个环节,也是验证数据中心机房作为一个整体能否满足设计要求和运行要求的最主要手段。这个阶段要求测试验证机构对于机房的设计有深刻的理解,对于运行中可能出现的故障有丰富的经验,对于应对特殊情况的回退措施有充分的准备,是保证验证效果难度最大的阶段。
系统联调及故障模拟的主要工作包括验证数据中心的各个子系统是否能在不同设计负载的条件下正常匹配运行;验证各系统对不同动作、维护工作或者故障所做出的反应是否满足设计和运行要求;验证设备和系统对计划内或者计划外的事件所做出的反应。
(2)按照测试验证的对象决定测试验证的内容
数据中心基础设施主要由电气系统、暖通系统、安防与监控系统、消防系统和装饰装修系统组成,测试验证的工作内容按照验证对象来划分也需要映射到这五大系统中。另外将故障模拟单独列出,其实这项内容是包含在各个子系统中的,但它们又具备一定的共性,所以单独总结出来便于给读者更清晰的概念。
①电气系统
数据中心基础设施的电气系统不但承担着保障IT设备电力供应和电能质量的任务,还要解决空调设备、机房照明、应急照明、消防、监控等其他设备的用电问题,是基础设施中最为重要的子系统,也是为数据中心提供运行动力的基础,所以对电气系统的测试验证工作尤为重要。
电气系统的测试验证工作主要是验证电气设备及相关元器件的性能和运行参数是否符合设计要求,验证电气系统是否能对设计负载提供稳定、高质量的电力供应,验证电气系统作为一个整体是否能满足运行要求并与其他系统匹配运行,验证电气系统在故障情况下是否能做出预期的反应并有一定的抗故障能力。电气系统的测试验证主要工作内容见表1。
②暖通系统
IT设备在运行过程中会产生大量的热,数据中心暖通系统的任务就是消除这些热量,营造一个适合IT设备运行的稳定环境,对于该环境的要求主要包括温度、湿度和洁净度三方面。虽然暖通系统不直接作用于数据中心的产出(对IT业务的支撑),但却是数据中心产出的重要保证,如果暖通系统不能正常工作,数据中心在短短几分钟可能就会陷入瘫痪,所以对暖通系统的测试验证工作也是非常重要的。
暖通系统的测试验证工作主要是验证空调及相关设备的性能和运行参数是否符合设计要求,证暖通系统是否能满足设计负载对制冷量的要求,验证系统作为一个整体是否能满足运行要求并与其他系统匹配运行,验证系统在故障情况下是否能做出预期的反应并有一定的抗故障能力。有关暖通系统的测试验证主要工作内容见表2。
③安防与监控系统
安防系统是运用安全防范产品和其它相关产品所构成的入侵报警系统、视频安防监控系统、出入口控制系统、防爆安全检查等的集成电子系统或网络。监控系统是对数据中心现场设备的工作状态、运行参数、历史数据等进行实时的监控,完成强大的系统联网管理功能,同时也是报警传递的第一途径,对于运维人员及时发现故障、快速处理解决问题都有不可取代的作用。
安防与监控系统的测试验证工作主要是验证系统相关设备的性能和运行参数是否符合设计要求,验证系统作为一个整体是否能满足运行要求并与其他系统匹配运行,验证监控系统是否能正确的反映被监控设备的工作状态、运行参数、历史数据,验证安防系统是否能起到有效保障数据中心安全的目标。有关安防与监控系统的测试验证主要具体工作内容见表3。
编辑:Harris