1 安全管理
数据中心属重要的场所,数据中心的安全包括数据中心的园区、数据中心的建筑、数据中心中的各功能场所以及运行的设施,确保数据中心物理环境的安全,才能有效的保障运行在数据中心的各系统和信息的安全。因此需要建立安全管理体系。本讲介绍数据中心的安全管理。
(1)数据中心安全等级
数据中心的安全首要任务就是场地的安全,因此需要对数据中心内不同功能的区域按照其重要性划分安全区域和安全等级,严格控制这些区域的访问和操作。
按照重要性安全区域分为核心、重要、普通和公共四个区域,安全等级划分为一级到四级,见表1。
(2)数据中心的安全值守
①数据中心应配置专职安全保卫人员,安全保卫人员应设置在园区和数据中心出入口。对高等级的数据中心的核心区域宜设置安全保卫岗;
②高压配电室、消防和安防控制室、动力环境监控室应安排专职专业人员值守;
③上述区域应满足24小时值守要求。
(3)数据中心的访问控制管理(表2)
①需要访问控制的区域设置门禁,重要的场所宜设置安保人员值守;
②设置人员访问的级别权限;
③所有人员应佩戴身份标识;
④未经授权的人员要访问安全区域,需要申请,并通过审批,需要全程陪同。
(4)数据中心的安全保护
不同的安全区域设置安全防范措施,安全防范措施包括:设置安保人员值守、安全监控、入侵报警,出入口管理、电制巡更等,各子系统具备联动。其中,
①对A级数据中心的机房实施无盲区摄像监控;
②数据中心视频监控记录时间不少于三个月;
③数据中心的门禁记录不少于一年。
(5)人身安全
人身保护器材包括:空气呼吸器或氧气呼吸器、安保人员的防爆、防袭击、逃生器材等,消防系统包括火灾探测、报警、灭火、疏散通道、疏散指示灯、门禁与消防的联动、应急照明等。实施对危险品和实施的安全管理,危险品和实施的管理包括:
①工程施工中的乙炔、氧气瓶、电焊机;
②柴油、燃气(对三联供的数据中心);
③铅酸电池、锂电池;
④压力容器。
(6)操作安全
数据中心应明确日常操作、故障处理、应急处理、施工等工作的安全要求,制定操作安全管理制度,控制操作带来的安全风险。
运行维护人员必须按照操作手册进行操作。有风险的操作和施工应得到批准,且应在非生产时间或对运行影响最小的时段进行,重要时段严禁进行有风险的操作及施工。对有风险的操作应实行双人临岗,操作时实施复核和相互监督。有风险的操作包括电力系统倒闸、双路电源切换、发电机并机切换、UPS手动放电测试、网络线路切割等。
安装和维修人员在进行设备安装或维修时,应穿着或佩戴安全保护装备。
2 质量管理
数据中心应建立运行维护的体系,并贯穿数据中心运行的全生命周期,本讲重点介绍数据中心运维的质量管理,数据中心接收、运行维护、数据中心运行监督等管理。
(1)数据中心接管与分界
①数据中心运维团队接管
数据中心全生命周期包括规划设计、施工建造和投产后的运行维护。按照数据中心全生命周期的管理,运维团队应该需要参与数据中心的规划、设计、施工、调试和验收,了解和掌握数据中心的建设才能更好的做好投产后的运维,但是大部分的数据中心建设与运维是分离的,那么数据中心运维团队至少应(或者宜)在数据中心工程竣工验阶段介入,参与组织工程竣工测试验证,完成竣工和技术文档的检查和接收,这样可以全面的掌握设计、施工和交付时各系统的状况。
测试验证的内容应包括单机或单系统测试验证、系统联调测试验证、带载测试验证和故障模拟验证。
测试验证包括建设方自行组织的测试验证,也包括第三方专业检测评估机构的测试验证。竣工和技术文档包括规划和设计资料、施工竣工图、设备清单和采购合同、设备出厂技术说明书、操作手册、维护手册、各系统设计说明、验收测试文档、报审资料、质保期各厂商联络方式和技术支持人员的信息等。
②数据中心运维的工作范围、界面与职责
数据中心运维团队在接管数据中心的运维时还有一项重要的工作应明确工作范围、界面划分和职责。
界面划分主要是指数据中心与外部能源、网络等供应方的分工及数据中心各部门之间的分工。与外部的分工界面包括外部供电、供水、消防、安防、网络运营商等的分工界面和职责,内部分工界面包括内部供电、供水、空调、消防、安防、监控、网络等各部门的维护界面和相应的职责。
(2)建立运行维护质量管理体系
运行维护质量管理体系应体现在数据中心运行的全过程中,运行维护质量体系包括:
①制定质量管理目标,管理目标应包括系统稳定运行的可用性、服务响应和解决时效、应急保障的能力、服务等级协议、运行成本控制、能效等指标;
②运行维护服务效率与质量保障计划;
③团队和各岗位的职责;
④运行维护相关的制度和流程;
⑤用户满意度。
(3)数据中心运行维护管理
数据中心的运行维护管理应遵循:“以安全运行为纲、预防为主”的目标,运行维护质量管理包括:日常的监控、维护保养、风险控制。
①日常的监控与巡检
日常监控包括:
·通过DCIM系统实施监控各系统的运行状态;
·现场巡视:主要由基础设施监控和操作的人员在线检查并记录基础设施的运行数据,包括各系统运行环境、设备外观、指示灯、运行状态,电压、电流、水压、漏水、温湿度、消防钢瓶气压等;做好运行值班、交接班、任务工单、巡检的记录。
·对A级数据中心(或按照自身的管理要求)应安排24h运行维护值班,每日每个班次现场巡检次数不应少于1次。消防和安全防范系统应24h保持正常工作状态,不得随意中断。
②健康性检查
健康性检查主要由基础设施运维工程师或产品的技术人员在线检查和纪录设备的运行参数、容量、设定值、日志、历史记录,形成日、月、季、年度的检查分析报告,发现异常及时处理。
③预防性维护
预防性维护主要由基础设施运维工程师、产品供应商的技术人员为主,做好检查计划,准备耗材和备品备件,以离线方式检查设备的性能是否达到要求,部件是否需要维护或更换,并按照产品的技术要求进行保养,做好检查和维护保养纪录,出具月度、年度检查和维护保养的报告。
④主备系统轮巡
主用机与备用机轮流循环运行是确保:
·确保每台设备运行时间均衡并得到应有休息;
·将线上运行的设备转为线下维护,进行设备的性能检查、清洁(洗)、更换耗材和易损件,通过维护保养,确保设备的各部件完好。
主备机轮巡适用于数据中心中2(N+1)或N+X的系统,包括设备、管道、线路等。如UPS、柴发、冷机、水泵、板换、冷塔、末端空调、双回路的管道等。
⑤性能调优
对系统运行参数和运行模式实施调优,其目的时根据不同负载、不同季节进行系统运行参数和运行模式的调整,确保系统持续运行在一个可靠、稳定和良好的工作状态,同时保持系统在安全、节能、高效的工作状态下运行。
⑥应急预案与演练
制定各种场景的应急预案,进行应急演练,有效提升故障的处理能力,减少服务中断的时间和损失。
(4)数据中心运行维护的方式
数据中心运行维护质量管理分为在线维护、离线维护和风险控制。
在线维护的质量管理包括现场巡检、远程监控、参数调整、切换操作等,提前发现系统潜在问题和不足,实施必要的运行模式和参数调整。
离线维护的质量管理包括按照产品的技术要求对设备进行预防性维护和保养,以及对运行中发现的问题及时处理和解决,确保系统中的所有设备保持良好状态。
风险控制的质量管理是通过主动查找、提前预防、过程控制、应急预案、应急演习等全过程控制,提前规避和控制可能出现的问题和风险,杜绝运营事故的发生。
(5)数据中心运行维护监督
数据中心应建立运行维护质量管理的监督、检查及考核制度,监督和检查运行维护服务工作的质量,制定量化考核管理指标,改进和完善运行维护的服务质量和效率。
数据中心应对维保服务单位的服务计划、服务响应时间、服务质量和服务人员的能力进行评估。
3 容量与能效管理
数据中心运行维护除了做好各系统的正常运行,还需要关注各系统(包括空间)负载使用率是否达到设计要求和运行效率是否最优,本讲重点介绍数据中心的容量管理和能效管理。
(1)容量管理
对于每一个数据中心在运行维护中都需要掌握数据中心各系统(包括物理空间)容量的使用情况,容量管理包括:电力容量、制冷容量、机房空间容量,有条件的数据中心还可扩展到网络端口和带宽、承载业务运行的电子设备处理能力的容量管等。对容量管理的目的有两方面,一是确保各系统运行在最佳的带载能力下运行,二是防止超载引发故障,造成服务中断和损失。
①电力容量应计量到总电力、变压器、动力设备电力、照明及辅助区电力、UPS容量、精密列头柜和每个机柜的电力容量使用情况;
②制冷系统容量应计量到总的制冷、机房区域的制冷、宜计量到机架制冷量使用情况;
③机房空间容量应计量到总的空间容量、区域空间容量、每个机柜的空间容量使用情况。
数据中心通过容量管理实现对数据中心运行管理的预测,提高数据中心物理空间的利用率,电力资源的利用率,科学和精细化规划数据中心的扩容和发展。
数据中心应建立容量管理的电子化管理平台和采集工具,设置容量的预警阈值,实现智能化的运行容量、使用率、剩余容量监测和统计分析。
(2)能效管理
数据中心是耗能大户,国家高度关注数据中心的能源消耗情况,并出台了对能耗管控指南和限制,同时各省也陆续出台的相关政策,对数据中心的能耗指标提出了更高的要求,数据中心不仅仅注重设计和建造时的能效和节能措施,更需要做好运行维护生命周期中的能效精细化管理,确保在运行中的能耗达到和优于设计的指标。因此需要从以下几个方面来做好数据中心能效管理。
①能效管理的范围
数据中心的能效管理时应覆盖数据中心运行中涉及的所有能源范围,明确能源管理的边界。
数据中心的能源范围和边界包括:电力、燃气、燃油、外部冷热源等;能源的来源应包括:公共电网、数据中心自备电源、外部燃气管网、市政自来水管网、自备水井、地表水;附属可再生能源、冷热电三联供系统,还有数据中心产生的废热再利用。数据中心能源管理边界包括能源的输入和输出两部分,边界与数据中心支持的系统关系见图1。
②数据中心的能效指标
数据中心能效衡量指标包括:
·电能使用效率(PUE或EEUE)——衡量数据中心总体能源使用效率(数据中心电能使用率(PUE)=数据中心总耗电/IT设备耗电);
·水的使用效率(WUE)——衡量数据中心水资源使用效率(数据中心水使用效率(WUE)=数据中心全年用水量/IT设备的耗能。WUE的单位为L/kWh);
·空调使用效率(CLF)——衡量数据中心制冷的使用效率(数据中心制冷效率(CLF)=数据中心空调系统的耗能/IT设备的耗能);
·可再生能源使用效率(RER)——衡量数据中心使用可再生能源的效率(可再生能源使用效率(RER)=可再生能源供电量/数据中心总耗电量)。
衡量的指标应以一年为一个标准周期。
③数据中心能效的采集与计量
数据中心应建立电子化能效管理平台,采用自动化的监控系统和智能仪器仪表实时采集相关系统、设备的能耗。
采集和测量的数据应满足以下要求:
·完整性要求:涵盖数据中心运行环境中各系统的能耗,并做到连续采集、测量和纪录各系统的能耗,做到各系统的能耗数据不缺失;
·颗粒度要求:可按照设备、系统、区域、时间统计能耗;
·精细度要求:可按照时、天、周、月、季、年统计,如无特殊说明,可按照春季(3月~5月)夏季、(6月~8月)秋季、(9月~11月)、冬季(12月~2月)划分。
数据中心的能效采集和测量方法:数据中心应至少将以下位置选为测试点并设置电能计量仪表,满足能效采集、计量的要求,数据中心电能消耗测量点见图2。
·数据中心总电能消耗的测量位置应为变压器低压上侧(见图中A点);
·当列头配电柜无隔离变压器时,数据中心信息设备电能消耗的测量位置应为不间断电源输出端供电回路(见图B点);
·列头配电柜带隔离变压器时,数据中心信息设备电能消耗的测量位置应为PDU输入端供电回路(见图中C点);
·采用机柜风扇作为辅助降温时,数据中心信息技术(IT)设备电能消耗的测量位置应为IT负载供电回路(见图中D点);
·IT设备能耗测试点为UPS输出端供电回路,且UPS负载还包括UPS供电的制冷、泵时,制冷、泵能耗应在IT能耗中扣除(扣除图中B1、B2点测得的电量);
·对数据中心设有自发电装置(柴油、燃气、风力、太阳能等)时,所有发电机馈电回路的电能应计入总输入电量;
·空调系统的能耗测试点为E1、B1、B2、E4;
·数据中心照明系统的电能消耗测量点为E2;
·其他系统能耗主要指数据中心内部机房区、监控区、基础设备的通风系统、给排水系统、安全防范系统、火灾报警系统、机房环境及设备监控系统、电子化的综合布线智能管理系统等能耗。
④数据中心能效分析与优化
数据中心能效管理应对采集和计量的能耗数据实施统计和分析,实现对区域、系统、设备的能耗的分析,实现实时、日、月、季、年的能效数据的统计。并按照要求生成设备、系统、区域和时间段的能耗分析报告。
数据中心应根据能耗分析报告实施能效评价,能效评价包含:数据中心综合能效、设计能效符合度、空调系统能效、水资源能效、供电系统能效、局部能效、绿色节能等方面的评价,有条件的数据中心也可包括IT设备(系统)运行的效率评价。
数据中心能效测评可以自行评估,也可聘请专业的第三方机构对能源使用效率进行专项评估。
数据中心应建立能效优化的管理机制,管理层应定期召开能效状况的分析会,找出存在的主要问题并提出改进建议,解决和落实能效改进和优化的措施。
作者简介
杨晓平,毕业于中国人民解放军国防科技大学计算机专业,高级工程师;原中国银行上海数据中心安全处处长/江苏银行资深技术经理。现担任江苏智慧云谷数据中心专家顾问。从事IT领域工作46年,在科研、石油勘探、金融等行业的信息科技部门工作经历。参加我国银河超级计算机的研制,熟悉IT架构、系统集成、规划、信息安全、数据中心的建设、两地三中心规划与建设,数据大集中和数据中心运维、数据中心的检测和认证;参与十多个超大、大型、中小型数据中心的建设和运维,掌握数据中心的动态与发展。
参加多个数据中心标准和专著编审。现受聘于中国数据中心工作组、中国数据中心产业发展联盟、中国计算机用户协会数据中心分会、北京灾备技术产业联盟、中国电子节能技术数据中心节能技术委员会、国家互联网数据中心技术创新产业联盟专家技术委员会、中国计算机用户协会审计分会专家技术委员会委员。中国金融学会金融采购委员会专家库委员。数据中心测评和认证高级认证师;中数智慧信息技术研究院专家顾问,中治研(北京)国际信息技术研究院高级研究员。
编辑:Harris