咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
按秒计算的数据中心故障损失
  • 现在的数据中心对业务故障中断恢复能力要求极高,很多互联网数据中心要求全年无故障运行,一旦出现影响业务的中断,相应责任人就会受到处分和惩罚,数据中心的故障时间都要按秒来计算。对于数据中心来说,时间就是金钱,每一秒的业务中断都会带来损失。
  • 现在的数据中心对业务故障中断恢复能力要求极高,很多互联网数据中心要求全年无故障运行,一旦出现影响业务的中断,相应责任人就会受到处分和惩罚,数据中心的故障时间都要按秒来计算。对于数据中心来说,时间就是金钱,每一秒的业务中断都会带来损失。
      
      数据中心按照故障发生的时间长度可分为四个级别:T1级年平均故障时间28.8小时;T2级年平均故障时间22小时;T3级年平均故障时间1.6小时;T4级年平均故障时间0.4小时,级别越高的数据中心对业务故障中断的时间要求越短,这是Uptime研究所对数据中心进行的分类。这个分类是2005年4月提出的,基于Tier分级系统设计,通过基于预计的基础设施性能或正常运行时间对不同定制化的数据中心进行比较、分类。显然,这个十年前提出的分类方法已经不适合当前数据中心的要求。现在的数据中心对业务故障中断恢复能力要求极高,很多互联网数据中心要求全年无故障运行,一旦出现影响业务的中断,相应责任人就会受到处分和惩罚,数据中心的故障时间都要按秒来计算。对于数据中心来说,时间就是金钱,每一秒的业务中断都会带来损失。
      
      有人还针对数据中心的故障进行过专门统计,表1列举了主要行业里,数据中心业务中断1小时带来的损失有多大。
      
      表1
      
      这个数据主要是通过对各行各业数据中心进行分析,考虑数据中心业务中断的直接、间接和机会成本,对任务关键数据的破坏,中断对企业机构生产率的影响,对设备的损害、法律和立法的反响,以及主要利益攸关人信任的丧失等,从这些方面综合得出数据中心中断给企业所带来的损失。同样,这个数据来自2010年,6年前分析的数据,到如今按照分钟算都可能不止表1中描述的数字。有时可能会觉得,数据中心业务断一下没有关系,很多时候可能是正在玩的游戏被异常中断,正在提取钱款的人无法完成交易,正在网络购物的人们突然无法查看商品等等,也许很多时候人们选择了忍受,过段时间再去访问,似乎没有对数据中心带来什么损失,但实际上会大大影响人们的体验感。比如购物网站,如果页面访问中断或者非常缓慢超过1分钟,40%的人会选择转投其它网站完成购物,如果中断超过1小时,甚至连续的多日中断,超过50%的人会彻底放弃这个购物网站,在自己的网页里永远不会再放置这个购物网址,这对于购物网站来说是非常致命的,意味着大批的用户都会消失。如果业务中断不仅是短时的无法访问,甚至数据出现了丢失,影响就更为严重了,这些都会造成大量的访问用户流失。在如今同质化竞争非常严重的市场里,一旦这个数据中心表现差强人意,访问用户会很快去找其它数据中心的业务,忠实用户的培养是一个长期过程,一旦数据中心总是发生业务中断,大批的忠实用户也会离开,没有了大量访问的用户,数据中心就无法实现业务增长,很多数据中心已经开始逐渐认识到了这一点。
      
      数据中心无法做到任何设备、任何系统永远不出问题,但是可以做到秒级甚至毫秒级的业务中断。数据中心无法预知下一次的故障在什么地方,可以确定的是一定会再发生,只是不确定是何时何处。数据中心有从协议级、链路级、设备级,直到系统级的各种备份技术,这里很多备份技术可以达到毫秒、秒级,一旦发现业务异常,实现自动切换,确保业务不受影响或者少受影响。比如:UPS供电电源提供毫秒级的供电切换,多路供电备份;网络设备从主控、电源、网板、聚合端口全面提供部件备份,实现业务故障时无感知自动切换;服务器上通过部署虚拟机,当服务器故障时,自动切换到其它正常运行的设备上,只要实现虚拟机的自动迁移即可。这些备份技术大大提升了数据中心连续稳定运转能力,同时也增加了数据中心运营的成本。如果处处考虑备份,无疑会使数据中心不堪重负,往往要花费数倍于现有数据中心建设的成本,而且会使数据中心系统异常复杂,过于复杂的备份系统会降低数据中心运行效率,可能会得到适得其反的效果。很多时候,数据中心需要在要不要上备份系统时抉择,这时考验的就是管理人的智慧,对于小概率发生的事件进行忽略,有时还需要一点点运气,再小的概率并不代表不会发生,一旦发生由于缺少备份,可能会对业务造成中断。可见,数据中心要做到毫秒级的中断是非常难的,需要投入大量的人力和物力。
      
      现在数据中心承载的业务都非常重要,涉及到方方面面,很难想象离开了数据中心,人们的工作生活如何开展。人们对数据中心持续稳定运行的要求很高,7*24小时都有访问数据中心的需求,数据中心要时时响应来自各种用户的访问需求,并满足,数秒级的业务中断都会带来严重损失。数据中心需要做到秒级的响应,不出现秒级的业务中断,只有这样才能留住自己的访问用户,并能不断扩大访问用户数量,给数据中心带来源源不断的收入,否则只能眼看着手上的用户慢慢流失。高可用是数据中心基础网络的永恒话题,可用性是各行业数据中心各项业务指标排在首位的关注项。对于当前数据中心密集应用环境下,应对故障快速恢复能力甚至不是秒级指标就能够满足的,当前的快速收敛目标已经设定在毫秒级,毫秒级恢复能力成为数据中心的故障恢复指标,只有做到毫秒级的故障恢复,才能基本保证业务不受影响。人们对数据中心的依赖程度提高,必将对数据中心可用性提出越来越高的要求。
      
      编辑:Harris
      

     

  •