数据中心维护管理的最佳实践是持续进行在线状态监测。对于过滤器的监测来说,只需安装差压传感器与楼宇管理系统(BMS)监控器,并指定适当的警报阈值即可。对于振动的监测,可以安装永久性加速度计并将其复用到专用服务器上,以便进行振动分析、归档和趋势分析,并提供远程报警功能。显然,只有在最重要的设备和流程中,才能在选择和审慎的基础上使用连续的在线振动分析。明显的折衷办法是确定执行在线状态监测的最佳频率。
操作人员是数据中心可靠性的重要因素
尽管数据中心行业在数据中心设施和物理基础设施方面取得了成功,但与相关的操作人员和设施管理方面的关系并不理想。人们普遍认为,绝大多数关键设施问题现在可以归因于人为错误(有调查表明工作人员导致的问题高达70%至80%)。而数据中心基础设施复杂性的增加与操作人员人为错误的增加之间存在直接关系。
而这样的问题不再是可用性问题之一。大多数数据中心设施希望员工连续工作(100%可用性)。问题在于工作人员的可靠性(以及在某些情况下的有效性)并不像人们想像的那么高,工作人员在工作中会疲倦、分心、生病、困惑等,这些都会导致不可靠的表现。
其答案是让工作过程产生可靠的结果。详细的、逐步的过程是一个很好的例子,但除非操作人员每次都遵循正确的方法,否则无法保证可靠的结果。另一方面,如果操作人员在完成每个步骤时需要首先列出清单,并且由单独的参与者见证其操作行为,则过程的可靠性大大提高。如果程序还描述了与每个步骤相关的预期结果,例如启动水泵时的预期压力和流量,或关闭断路器时的预期指示灯和报警,则可以确保过程的有效性。盲目地遵循程序而不注意结果的操作人员将不可避免地产生意想不到的结果。
基于绩效的培训也是一个过程。培训一台新电脑或控制器简单而快捷,可以下载编程代码,连接到网络,并且新配备的计算机的能力与其替换的计算机或控制器相当。然而培训新员工却并不那么容易。因为员工每个人都是独一无二的。
参加一系列教授基本技能和知识水平的课程的操作人员将比未经培训的员工更可靠。培训需要通过测验、考试和资格考试来验证,这些考试要求学生表现出理解力和表现能力。最好的做法是培训员工之后进行测试和认证,然后让他们在无人监督下履行职责和责任。
保持机器运行对数据中心可靠性非常重要,但运行机器的人员也很重要。因此,企业对工作人员需要做好人事、计划和准备,并通过以下措施提高工作人员的素质和水平。
•通过针对特定场合的培训可以提高员工绩效
•积极的规划和准备比随机应用的反应更可靠。
•高度积极的员工表现要好于按部就班工作的员工。
•安全培训和安全审计减少事故和伤害(这也可能导致停机和设备损坏)。
•过度沟通比沟通不足要好,但准确的沟通无论如何都是至关重要的。
•随机抽查,突击检查和非计划审计揭示了超过计划的检查和审计。
编辑:Harris