安全生产永续运行是数据中心核心目标之一。新建数据中心项目的运行维护相当复杂,但行业内对基础设施运维能力关注并不多,很多项目对基础设施运维需求并没有清晰全面的描述。
回顾参加数据中心基础设施建设和运行的经验教训,笔者认识到关注数据中心运行维护需求,打造基础设施级可维护能力,不仅大量减少建设过程中的变更、返工,还可减少运行故障隐患,并避免投产后的改造。在此,特初步梳理基础设施级运维需求,与同行分享和探讨。
1 基础设施维护需求
(1)数据中心资源组成
行业内将数据中心运行资源分为两个级别:I和业务级、基础设施级。基础设施级运行资源包括四个要素:建筑、物理基础设施、基础设施监控/维修工具备件、运维团队。数据中心资源图如图1所示。
(2)什么是基础设施级运维需求
为提供连续不中断服务,数据中心基础设施应既能实现正常运行,又同时支持故障快速发现定位和修复,保持功能不中断:
①建筑及物理基础设施应有监视维护条件,支持快速修复故障,同时正常工作;
②监控系统功能全面,运行正常,迅速发现故障和异常;
③维修工具备品资源便利好用,支持维护工作开展;
④基础设施运维团队可顺利完成现场工作。
(3)基础设施级运维需求的实现
通常在四个层次上实现:
①站点级可维护:通过完全独立的多站点,实现数据中心级并行维护;常见方式有同城备份中心、异地灾备中心、两地三中心等;
②系统级可维护:通过系统架构上设备和路径冗余,实现专业系统的并行维护,如2N系统、双冷源空调系统、柴油发电系统等应急电源,TIA-942、GB50174-2017等主要数据中心标准对此有具体描述;
③功能级可维护:各专业系统、设备和机组具备正常工作条件、可运维功能可以正确实现;主要通过系统设计、安装、调试实现;
④部件级可运维:设备设施的部件功能可被调整、监控、清洗、更换。具体主要散见各专业系统设计安装规范,通过安装实现;
⑤运维团队支持运维:运维团队有合格资质,人力充足,能贴近设备现场长期工作,监控、维护工具齐全易用。
上述5个方面中,功能级、部件级、基础设施运维团队的可维护性要求常常被忽略,出现各种问题。
2 基础设施运维团队
常见问题是,重视IT技术、业务运维团队需要,忽视基础设施运维团队的需要,把电工值班室作为运维团队唯一工作区,功能空间规划面积不足,布局不合理,使用不便。
一线基础设施运维值守团队需贴近设备现场并长期工作,工作形式多样,现场工作区应解决下列功能面积:
①一线监控区:关键设施监控区(电工值班室)、建筑设施监控区(安防消防值班室);
②现场团队工作区:简单会议/培训、厂商接待/临时工作;
③一线管理办公区:生产辅助管理、办公、茶水区、维修清扫区;
④图纸文档区:各专业竣工图纸资料等。此外,应邻近建筑入口、高低压供电设备区,建筑边角区位置,
3 运维监控设备和维修工具
常见问题是:对各类运维监控设备总量及所需用电量、建筑空间估计不足,未设专用设备机房,配电结构不够安全等。特别是有可能UPS设备容量、配电系统结构变化,会导致建设中的大量修改。
某A级中型数据中心基础设施监控系统与运维工具如表1所表示。
建议安排专用机房和仓库,配备专用UPS系统和独立配电结构。
4 可维护的建筑功能
最常见问题是支持人员和货物不可达设备维修部位,或缺乏水电等维修支持资源。
(1)可达性
建筑应支持人员和货物设备可达安装位置需求具体见表2。
(2)清洗维护需求
建筑应提供场地、水、电、排水等维修资源支持,满足设备部件清洗维护需要,具体见表3。
5 物理基础设施设备运维需求
建设中的常见问题是缺少操作间距和不可维护,如设备部件安装打不开门,不能清洗、更换、测量等问题。物理基础设施设备的运维需求见表4。
作者简介
王红峰,中国人民银行清算总中心高级工程师。长期从事金融数据中心规划、建设、运行维护工作,参与多个数据中心项目建设。多个数据中心行业协会专家组专家。
编辑:Harris