咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
今年数据中心停电事故的教训:关注基础知识
  • 即使2018年对数据中心正常运行时间的新威胁继续出现,已知的原因导致我们今年看到的大多数数据中心停机。
  • 即使2018年对数据中心正常运行时间的新威胁继续出现,已知的原因导致我们今年看到的大多数数据中心停机。
      
      今年数据中心停电事故的教训
      
      根据UptimeInstitute今年夏天公布的调查结果显示,近三分之一的数据中心在过去一年中发生了中断事故,而前一年则为25%。但这一增长并不是由于一些致命的新恶意软件造成的。
      
      相反,导致停机的三大原因是断电(33%)、网络故障(30%)以及IT或软件错误(28%)。
      
      最重要的是,80%的数据中心经理表示他们最近的停机事故是可以预防的。
      
      您无法阻止雷击(例如9月份在圣安东尼奥市拆除MicrosoftAzure数据中心的雷击)或零日恶意软件攻击。但是,通过适当的规划和数据中心设计,由于意外的天气事件、攻击、常规人为错误或未打补丁的系统导致的中断,可以最大限度地减少影响。
      
      在中断发生后,使数据中心快速启动并运行同样重要。根据信息技术情报咨询公司今年的报告,平均每小时的停机时间将花费数据中心运营商26万美元,而5分钟的停机时间仅花费2600美元。
      
      基础设施冗余仍然有效
      
      在最基本的层面上,数据中心系统需要备份。备份电源和冷却系统、备份数据,甚至备份整个数据中心。
      
      备份工作。据Uptime称,在拥有2N个用于冷却和电源的架构的数据中心(换句话说,一个完全冗余的、镜像的系统)中,22%的数据中心去年发生过故障。这比那些选择低成本,非完全冗余的N+1方法的人减少了三分之一的停机,和33%的人报告了断电。
      
      完整的数据中心备份可提供更高的可靠性。根据Uptime的数据,40%的数据中心经理表示他们会在两个或多个站点上复制工作负载和数据。
      
      “如果你只有一个数据中心并且遇上雷击,那么你就麻烦了。”SSH通信安全公司首席技术官马尔库·罗西表示。“你应该有一个辅助数据中心,它们之间具有物理隔离,不依赖于相同的能源。”
      
      他补充道,没有任何数据中心能够幸免于这个问题的影响,他指的是9月份微软位于美国中南部的数据中心。
      
      “有第二个设置并立即进行故障转移。”他说
      
      无论什么备份系统到位,规划和测试都是关键,Rossi补充说,规划需要考虑当今数据中心的复杂性,其中问题可能引发其他问题。
      
      他使用了最近在物理维护期间发生的GitHub中断作为例子。“他们在几分钟内修复了物理问题,但需要24小时才能使数据正确同步。”他说。
      
      数据中心经理需要查明潜在的问题区域,然后在发生事情时准备好工具和流程。
      
      罗西说:“专注于建立流程,建立你为失败做准备所需的心态。”
      
      加强中心,不仅仅是周边
      
      数据中心管理人员应该从最近发生的与恶意软件相关的中断中吸取的最大教训之一就是,仅仅有一个坚固的外围是不够的。
      
      今年医疗保健公司、政府机构、教育机构和主要制造商都受到了冲击,尽管在去年创纪录的违规行为之后,每个人都应该已经处于高度戒备状态。
      
      显然,保持最新防御,防止恶意软件首先进入是至关重要的。但数据中心管理人员必须准备好看到他们的外围防御失败并具备二级保护。
      
      其中包括恶意流量检测机制、网络防御(如分段)、最低权限的访问和通信方法。
      
      总部位于以色列的网络安全公司GuardiCore的产品管理总监伊格尔·利夫茨茨表示,这些可能有助于防止恶意软件进入网络后传播,或至少减缓其速度,使安全团队有机会做出回应。
      
      WannaCry特别利用了服务器消息块传输协议中的漏洞。他说,数据中心应该采取更多措施来减少横向通信。
      
      “在过去一年中WannaCy勒索软件的许多案例中,造成攻击广泛影响的主要原因是,一旦这些蠕虫在数据中心内立足,就很容易扩散。”利夫茨茨说。“事实上,服务器之间的SMB流量根本不是必需的。如果它被阻止,攻击的扩散和对数据中心的破坏可能会大大减少,并且在之前的早期阶段就会检测到攻击造成了这么大的伤害。”
      
      今年违规的重要教训并不是数据中心经理必须防范的新威胁。他们需要重新回归基础。
      
      几乎所有的数据中心停机都是由于糟糕的规划和投资决策,加上流程不良或无法遵循流程,UptimeInstitute研究执行主任安迪·劳伦斯在6月份的报告中写道。“几乎所有由正常运行时间研究所报告或研究的故障以前都发生过,而且通常有详细的文档记录。”
      
      雷电袭击和新型恶意软件可能占据所有头条新闻,但它在恢复能力方面仍然是最重要的基础知识。
      
      编辑:Harris
      
      

  •