咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
山竹”台风过后,发觉选择数据中心没有想象中那么简单了
  • 超强台风“山竹”刚刚过去4天,香港地区在第一个工作日已陆续复产复业复市。有谁敢相信,“山竹”袭来的当天,香港天文台的10号风球信号整整挂足了10个小时。

    超强台风“山竹”刚刚过去4天,香港地区在第一个工作日已陆续复产复业复市。有谁敢相信,“山竹”袭来的当天,香港天文台的10号风球信号整整挂足了10个小时。
      
      根据香港中华电力当天新闻稿称,其供电系统在“山竹”的袭击下,40万伏特及13万2千伏特架空天线受到严重影响,导致约40000个客户供电中断。在这里新天域互联小编给大家做个小科普,中华电力(中电)负责香港九龙、新界区的电力供应,而港灯电力(港灯)负责香港港岛地区的电力供给,双方分工分明。举个例子来说,位于香港新界区葵兴ITECHTOWER2的新天域互联数据中心,就只能使用到中电的电路系统。
      
      中电一直维持世界级的供电系统,可靠度达99.999%以上。如此稳定的可靠度有赖中电输配电网络采用环形配置,为客户提供双重电源。中电更透过设备完善的系统控制中心,以先进技术实时监控各输配电网络的情况,其中包括13,900座变电站以及长达14,500公里的高压电缆。中电完备的系统控制中心及专业的外勤队伍,提供7*24*365紧急服务,确保供电服务日夜无间。
      
      断电危机
      
      众所周知,数据中心等电信类设施对稳定电力也有着很高的依赖性,而停电正正是它们的命穴所在。
      
      据UptimeInstitute对全球1000家数据中心运营商和IT从业者进行的数据中心行业调查显示,在2014年,25%至46%的受访者都曾遭受断电对业务造成影响。
      
      简单列举几个案例如:
      
      l2014年7月5日,位于弗罗里达的维基百科数据中心发生断电事故,导致全球范围宕机。
      
      l2015年9月20日,亚马逊AWS一个数据中心遭遇停电事故,旗下Netflix,Tinder,Airbnb等应用程序的在线服务受到了影响。
      
      l2017年5月27日,英国航空公司从Heathrow和Gatwick起飞的所有航班,原因是机房故障导致其全球运营严重中断。
      
      l
      
      数据中心应该怎么预防?如何解决呢?
      
      数据中心断电预防措施
      
      数据中心的主要功能,是为它所包含的关键任务应用程序提供稳定的正常运行。根据2016年PonemonInstitute的调查,UPS系统故障仍然是导致计划外数据中心宕机的首要原因。
      
      硬件方面
      
      2017年UptimeInstitute拉斯维加斯的研讨会上指出,在已公开的停电事故当中,其中62%是由于IT设备服务供应商的问题。而如今“上云”成为大家迫不及待的选择,不仅需要信赖大品牌的能力,还要注重上云的方式和机房的硬件设备,如:机房五大系统的保障、双活机房,服务器、存储等配置情况及品牌;
      
      l严格按照数据中心建造标准来建设;
      
      l选用可靠的电力系统装置和冷却系统装置等;
      
      l异地容灾、异地快照、异地还愿、镜像灾备的准备;
      
      l对数据中心设备进行实时监控;
      
      l根据专业机构建议对硬件进行合理升级。
      
      软件方面
      
      软件硬件双剑合璧才能使服务器发挥最大稳定效用。
      
      1、可通过DCIM管理软件对供电系统进行智能化管理;
      
      2、定时进行软件备份,按照既定时间进行数据备份;
      
      3、确保网络安全,建立运维文档和流程控制;
      
      人力方面
      
      UptimeInstitute研讨会上同样指出,至少38%的断电情况是人为导致的。那么究竟什么是人为因素呢?以下几点属于管理过失问题:
      
      l设计妥协。数据中心一定要按照高等级标准进行数据中心建设,尤其针对供配电系统、制冷系统等关键基础设施产品的应用提出严格要求,始终保证不妥协;
      
      l培训预算削减。数据中心的持续稳定运行离不开优质运维人员的全力支援,除了新员工完整的培训流程一定要做好外,老员工的定期培训也是十分有必要,毕竟IT知识日新月异;
      
      l裁员。裁员就意味着数据中心没有足够的人员支撑运行,无论是日常维护还是紧急情况处理,这些都需要足够又稳定的人员;
      
      l预防性维护。管理者必须对数据中心里的每班当值人员进行充分的紧急情况培训,多模拟安全测试,准备好灾难应急方案;
      
      l缺乏专业机房人才。邀请专业人员或公司加入到团队当中,加强高可用的数据中心管理体系;
      
      l选择成本最低的供应商。无论是自建机房还是租用托管服务器,企业都必须根据自己实际情况,选择最好的硬件,最好的环境,最好的设备。
      
      l定期演练
      
      断电解决措施
      
      有时候即便预防措施做齐了,还是会发生断电,这个时候,新天域互联给大家一点建议:
      
      l首先在场人员必须先确认停电的线路,停电时刻等信息;
      
      l按照灾难应急方案进行,第一时间通知各个相关部门;
      
      l对数据中心里的设备进行检查,如服务器、UPS系统、核心系统等等;
      
      l对数据中心进行有效的散热处理;
      
      l工单记录;
      
      l部件检查完毕时,区分优先恢复的步骤实施,确保用电功率情况正常;
      
      l启动发电机,检测发电输出电流通断,待发电机运行稳定,按顺序启动制冷系统、主UPS的市电输入、客服系统、备用UPS的市电输入;
      
      l发电机启动后,值班同事需将降温系统关闭,逐一检查所以设备是否正常;
      
      l派专人现场值守,及时与油品供应商沟通。
      
      史上最强“山竹”台风来袭,正是考验一个数据中心应变能力,基础设施是否过关的最佳时机。在山竹抵港的十个小时里,新天域互联并未因停电而导致宕机事故的发生,整个数据中心井然有序,服务器持续高效运行,这源于新天域互联所采用的电气系统,冷却系统和备用柴油发电机均为2N冗余,能有效应对停电情况发生;更源于工作人员365天如一日的为用户提供最为高品质的服务。
      
      编辑:NIKI

    超强台风“山竹”刚刚过去4天,香港地区在第一个工作日已陆续复产复业复市。有谁敢相信,“山竹”袭来的当天,香港天文台的10号风球信号整整挂足了10个小时。