网络问题导致更多的数据中心中断 - 机房建设

您的位置: 首页»文章资料»机房建设»网络问题导致更多的数据中心中断

网络问题导致更多的数据中心中断

2019/4/10 7:29:34 作者：来源：企业网D1Net
分享:QQ空间新浪微博人人网腾讯微博网易微博

电源故障是导致数据中心中断的常见原因，但它们并不是唯一的罪魁祸首。随着企业的计算环境变得越来越复杂，数据中心的IT系统故障和网络错误导致更多的意外停机。

电源故障是导致数据中心中断的常见原因，但它们并不是唯一的罪魁祸首。随着企业的计算环境变得越来越复杂，数据中心的IT系统故障和网络错误导致更多的意外停机。
　　
　　Uptime Institute一直在研究媒体报道的数据中心中断事件，以追踪导致意外停机的原因。在过去三年中，它已经从传统媒体或社交媒体上报道的162次中断事件中筛选了一些信息。在此期间，可用数据稳步攀升。研究人员收集了2016年27次停机、2017年57次停机和2018年78次停机的数据。
　　
　　“中断事件发生得越来越频繁。”Uptime Institute的研究执行主任Andy Lawrence表示，Uptime Institute主要的业务是提供弹性服务，建立和运行数据中心的建议，以及认证服务。
　　
　　Lawrence在该组织发布研究结果之后表示，分布在世界各地的数据中心几乎每天都会发生重大停机，这并不一定意味着停电次数急剧增加，但停机时间越来越受到关注，“我们很清楚，停电中断的影响肯定会增加。”他说。
　　
　　在Uptime Institute的研究中有一个重要发现：电源与整体故障的关联性较小，而网络和IT系统的关联性较大。这种转变的一个原因是，电力系统的运行比过去更加可靠，内部部署数据中心电力故障的数量越来越少。
　　
　　Uptime Institute首席技术官Chris Brown说，“在过去的20年里，科技行业一直致力于如何设计电力系统，使IT资产能够继续运行，即使电力系统中发生故障或中断。IT设备采用2N配电系统使得IT系统能够通过一系列单一事件继续运行。”
　　
　　同时，日益复杂的IT环境导致更多的IT和网络相关问题。“数据现在分布在多个地方，对网络有一些重要的依赖关系，例如应用程序和架构的方式以及数据库复制的方式。这是一个非常复杂的系统，如今干扰该系统的可能性比过去几年要少。”Uptime Institute负责IT优化和战略的副总裁Todd Traver说。
　　
　　评估数据中心中断的严重性
　　
　　为了区分可能导致业务崩溃的中断和只是造成不便的中断，Uptime Institute对数据中心的规模进行评估。Lawrence说，评级系统允许研究人员了解其中断模式如何随时间变化。UptimeInstitute的数据中心中断规模有五个等级：
　　
　　•1级是可忽略不计的停机中断。其中断是可记录的，但对服务的影响很小或没有明显影响，也没有服务中断。
　　
　　•2级的特点是服务中断影响很小。即使发生服务中断，但对用户、客户或声誉的影响微乎其微。
　　
　　•3级是业务重要的服务中断。它涉及客户或用户服务中断，主要是范围、持续时间或效果有限。财务影响很小甚至没有影响，会产生一些声誉或合规性影响。
　　
　　•第4级是严重的业务或服务中断。涉及服务和/或操作的中断。其后果包括一些财务损失、违规行为、声誉损害和可能的安全问题。这可能造成客户损失。
　　
　　•5级是关键业务或任务关键中断，涉及服务和/或运营的重大和破坏性中断。可能存在巨大的财务损失、安全问题、合规性违规、客户损失和声誉受损。
　　
　　Uptime Institute研究了三年内所有公开报告的数据中心中断(1至5级)时，发现IT系统和网络问题超过了电源成为主要原因(如图所示)。
　　
　　网络成为中断的主要原因
　　
　　当逐年比较数据中心中断的原因时，这种趋势尤其明显。2017年，电力是28%中断的罪魁祸首。2018年，只有11%的电力中断被认为是主要原因。2017年IT系统是32%中断的主要原因，2018年达到35%。网络中断上涨很快：2017年的中断有19%归咎于网络，而2018年则为32%。
　　
　　Traver在谈到2018年中断数量快速上升的原因时说，“网络中断的迅速增长是中断大幅上升的原因。这不是通过一个或两个站点连接，而是通过三个或四个站点或更多站点连接。网络在IT弹性方面发挥着越来越大的作用。”
　　
　　此外，随着越来越多的IT资源被移交给服务提供商，并且不再受使用这些资源的组织的直接控制，这就增加了管理和操作的复杂性。
　　
　　“2018年的三分之二的中断与网络和IT有关。这是与过去几年相比的巨大变化。”Traver说。
　　
　　深入了解数据中心停机时间
　　
　　UptimeInstitute的研究深入探讨了数据中心中断的具体原因。在网络方面，其中断的常见原因包括：
　　
　　•光纤在数据中心外部切断，路由选择不足。
　　
　　•主要交换机间歇性故障，未部署辅助路由器。
　　
　　•没有备份的主要交换机故障。
　　
　　•维护期间的流量配置不正确。
　　
　　•路由器和软件定义的网络配置错误。
　　
　　•非备份单个组件(如交换机和路由器)断电。
　　
　　Traver表示，错误配置的路由器和软件定义的网络是常见的网络问题。他们应该是通过测试检测出来。
　　
　　Traver说，“当涉及到光纤切断时，一些公司往往不知道自己有一个单一的故障点。他们可能有两个独立的供应商，但他们不知道，光纤是在同一条沟槽中铺设的。这些公司没有做适当的尽职调查来确定这一点。”
　　
　　当IT成为罪魁祸首时，列举的一些原因包括：
　　
　　•管理不善的升级，软件级别的测试不充分。
　　
　　•大型磁盘驱动器或存储区域网络的故障和后续数据损坏。这可能是由硬件故障引起的，由于配置或编程错误而加剧这种情况。
　　
　　•负载平衡或流量管理系统中的同步失败或编程错误。
　　
　　•错误编程的故障/同步或灾难恢复系统。
　　
　　•非备份单个组件(如服务器或大型磁盘驱动器)断电。
　　
　　Lawrence在谈到负载均衡/流量管理问题表示，当组织尝试更广泛地分发IT资源时，可能会出现编程错误和同步问题。他说，“减少对单一网站的依赖通常是更广泛战略的一部分，就像挤压气球一样，问题突然出现在其他地方。”
　　
　　Traver补充说，“当组织没有真正规划所有平台的应用程序和数据，或者他们没有经常测试它们时，就会出现问题。”
　　
　　当电力成为罪魁祸首时，导致停电的一些主要原因包括：
　　
　　•雷击，导致浪涌和断电。备份软件/配置失败。
　　
　　•转换开关出现间歇性故障，导致无法启动发电机或转移到第二个数据中心。
　　
　　•UPS故障和无法转移到二级系统。
　　
　　•操作人员错误操作，关闭电源或配置错误。
　　
　　•市电中断以及发电机或UPS的后续故障。
　　
　　•由电涌引起的IT设备损坏。
　　
　　•IT设备未配备双电源供应，无法切换到二级供电。
　　
　　Brown说，在与电力有关的中断中，都是常见的问题。他说，“数据中心工程师一直在努力解决这些问题，例如如何通过设计缓解问题。”
　　
　　Traver表示，“总的来说，组织需要更加关注数据中心的弹性，了解系统是如何设计的。并且也知道它是如何失败的，并为失败做好计划。这是我认为缺失的部分。”他说。
　　
　　Lawrence说，“设备越来越好，管理越来越好，经验越来越丰富。数据中心正在成为一个更成熟的行业。但即便如此，停机中断仍然是一个非常严重和付出惨重代价的问题。”
　　
　　编辑：Harris
　　
　　

最新文章

刊首语更多>>

资源下载更多>>


咨询QQ: 杂志订阅编辑网管培训班市场部发行部电话服务: 010-82024981