咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
应对托管数据中心中断的措施与方法
  • 虽然数据中心的设计在理论上不会失败,但它确实会发生故障,因此数据中心的拥有者和运营商面临的情况令人堪忧,特别是托管数据中心。

    虽然数据中心的设计在理论上不会失败,但它确实会发生故障,因此数据中心的拥有者和运营商面临的情况令人堪忧,特别是托管数据中心。
      
      根据最近发生的一些情况,表明托管数据中心遭遇停电和业务中断的后果是十分严重的。例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次中断。据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,时间长达四小时以上。然而,对于这些数据中心运营的企业来说,他们误认为在稳定的环境中获得了数据,从而导致了严重的后果。
      
      尽管在设计和运行数据中心时努力避免中断或失败,但数据中心托管设施并不能避免这些问题,其短期和长期的意外中断都将代价高昂。如果客户选择退出服务,组织可能会遇到不符合服务等级协议(SLA)的经济处罚,也可能会对组织的声誉造成长期的损害,并对经常性收入造成损失。
      
      从托管数据中心的角度来看,应该做什么或不应该做什么防止这些中断的发生,这是一个非常简单的讨论。但是,如果组织是数据拥有者,并且其托管数据中心解决方案失败,那么这是一个不同的讨论。如果组织已经做出战略决定,将其数据放在内部部署的数据中心之外,那么已经进行了风险分析,并证明了这一决定。但是对将会发生的不可思议的事情准备好了吗?问题是,如果组织发现自己处在这种情况下该怎么办?
      
      对最坏情况做好准备的最好办法是不断地解决这个可能性。如果失败,组织的努力准备和对流程的认识将为其提供减轻失败的资源和工具。如果组织最近没有考虑或者没有这样做,那么建议组织在以下几个方面评自己的情况。
      
      (1)分散风险
      
      首先,当组织制定数据中心战略时,应避免将所有内容放在一处。这样做会增加风险因素。这似乎是显而易见的,但同样重要的是避免将所有关键应用程序放在同一位置。考虑将主要的数据存放在一个位置,并将备份数据存放在另一个位置。然后逐步了解每个场景,并确定任何级别的故障将如何影响生产和操作。每年重复一次这个过程。
      
      (2)信任但要验证
      
      组织获取其服务提供商的审核记录,更重要的是认真审查。在许多情况下,托管数据中心需要审计是否符合HIPAA,SOX和PCI等规定。然而有时候,这种审查可能是由不完全了解IT或数据中心如何运营的人员来完成的。因此,组织需要了解数据中心如何可靠运营的专业人士进行审核。这些第三方审核通常比他们自己识别的风险要容易得多,并且可以提供的信息更加丰富。在大多数情况下,与遭受中断的总体机会成本,资本支出和运营成本相比,通过这些措施减轻风险的成本通常是最小的。
      
      (3)签署书面协议
      
      组织需要知道数据中心托管提供商将如何处理这种情况。在与供应商签订合同时,坚持签署书面协议,承认双方同意在什么情况将造成中断。这在书面上达到共同认识至关重要。事实上,数据拥有者发现有时协议并没有涵盖他们的想法。此外,还要书面上保证供应商在中断期间所提供的服务,并承诺在可接受的时间内纠正这种情况。
      
      (4)备份策略
      
      组织一定要了解自己的业务面临的风险,并最坏的情况做好准备。大多数托管数据中心都有一个替代的站点,可以处理基本的灾难恢复,以确保他们的客户对运营几乎没有影响或没有影响。大多数公司仍在追求在数据中心(托管数据中心,云计算或者内部部署)中部署双活数据库。虽然有些双活部署接近成功,但在尝试使用灾难恢复备份时,其中断却让人痛苦。数据库没有组织期望的那样完整,数据丢失或应用程序在故障转换期间很可能受到影响。
      
      (5)了解(并记录)流程
      
      在失败的时候,所有各方都进入危机模式。了解(并记录)组织的托管服务提供者如何处理自然灾害和故障组件等事件很重要。那么采取什么步骤和顺序?组织要问的一个重要问题是在发生故障时谁可以访问?事故发生后,其他组织也在失败后将会访问这个服务器。组织需要准确了解其是否可以访问,访问权限,谁能访问,以及在访问时允许执行的操作。此外,还要知道在修复期间将采取什么额外的安全措施来保护其数据。
      
      这个过程的重要组成部分是通信协议。开放沟通对于有效管理情况至关重要,并为组织的管理者提供更新信息。组织需要知道谁是主要联系人,联系谁来获取更新,以及更新的频率。另外,定期验证联系人的姓名和电话号码。重要的是,如果呼叫列表中的电话号码作废或联系人员离职,那么这种情况将会更糟。
      
      (6)保存记录文档
      
      文档不仅适用于托管数据中心,而且适用于所有与数据中心业务相关的公司。在调查中发现,许多客户没有记录他们的日常运营流程和程序。就算有记录,也没有经常进行更新。文档对于在发生灾难时做好准备至关重要,这其中包括:了解应用程序运行的位置,知道中断哪些受到影响最大,谁需要了解更改等。
      
      (7)了解失败案例
      
      在评估过程中,大多数托管数据中心商都会告诉组织,系统是如何安装的,以防止服务中断。他们还给为组织提供满意的客户的推荐和参考。但他们通常不会告诉他们失败的案例。
      
      因此,组织要了解托管服务商的失败案例,需要询问他们是否在过去一年遇到失败,如果有过失败,要了解失败的细节,如何纠正,以及采取了哪些步骤来防止再次失败诉发生。组织可以这些案例中学到很多关于托管数据中心的知识,以及他们如何处理这种情况。处理危机才是考验合作伙伴是否合格的时候。
      
      (8)了解免责条款
      
      如果组织对托管服务的合作伙伴失去信心,请务必了解合约中的免责条款,这有助于组织顺利地中止合作。确保合同没有采用模糊的语言描述,避免被不合理的条款所限制。
      
      (9)了解自己的选项
      
      大多数托管数据中心的合同期限为几年的时间,在此期间,托管数据中心市场的规模将扩大,新的厂商进入市场。虽然组织可能目前不会寻求采用新的托管数据中心,但应该不断评估其他提供商,或与顾问或经纪人一起审查自己的选择。如果发生失败,组织必须知道移动到新的解决方案的选择。在某些情况下,如果失败是重大的或花费的时间太长,那么后果可能会迫使托管数据中心停止营业,让组织的业务遭受损失。
      
      (10)成为数据中心行家
      
      在英国电信公司的失败案例中,其问题的原因是一个断路器发生故障。虽然有人会认为关键设施会避免单点失败,但证据表明并不是这样。如今,组织运营数据业务,就必须成为数据中心的行家。组织不但要熟知数据中心的知识,而且还要了解市场趋势。
      
      通过询问问题和阅读报告,可以了解数据中心解决方案的各个方面情况。最重要的是,知道潜在的失败点,了解什么情况可能导致中断。人们都希望中断或失败永远不会出现。但是,如果这样做,组织必须为此做好准备好,并指导其团队。最好的建议是在这些故障情况下制定一个计划,并按部就班遵循这个计划。沟通对计划的成功至关重要,因为人们在发生失败可能会不耐烦,但他们必须遵守执行。通过定期检查这些重要领域,将会获得有效地应对中断或失败的知识和经验。
      
      编辑:Harris
      
      

    虽然数据中心的设计在理论上不会失败,但它确实会发生故障,因此数据中心的拥有者和运营商面临的情况令人堪忧,特别是托管数据中心。