两个多月前,大火摧毁了位于斯特拉斯堡的OVHcloud的一个数据中心,第二个数据中心受损严重,无法重新开放。火灾还使奥弗在莱茵河畔工业园区的另外两个设施长期处于离线状态。
这家云运营商一直在加倍努力地让用户的服务器重新上线——由于许多人没有提供可选的备份服务,或者更糟糕的是,他们没有意识到自己需要这样做,这项工作变得更加困难。目前更难获得有关火灾原因的信息,因为,OVHcloud说,当局参与其中。
问题是,数据中心的火灾非常罕见,破坏性的停机也非常罕见。而有关这些火灾的信息更是难找。
数据中心事故报告网络(DCIRN)的一项调查发现,在过去18年中,只有31份数据中心火灾报告。”由于该行业的保密性,毫无疑问,还有更多的数据中心火灾事件没有成为新闻,”DCIRN的美洲首席执行官丹尼斯•克罗宁(DennisCronin)评论道。
考虑到这一点,我们每年有1.5份数据中心火灾事故报告。这比我们报告的今年由于啮齿动物造成的停电次数要少——而且是今年由于一只海狸在加拿大造成停电而造成的与动物有关的停电次数的一半。
克罗宁发现并非所有的火灾报告都是真实的火灾。65%的报告是真实的火灾,但其他的则是误报,或者是不幸的事件,因为其他东西引发了灭火系统,而灭火系统本身可能会导致硬盘驱动器的破坏和服务的中断。
如何在数据中心火灾时清除烟雾
然而,它们是破坏性的。平均停机时间为17.5小时,与OVHcloud事件相比,这听起来相当平淡,在OVHcloud事件中,恢复一些服务需要数周时间,而且一些客户已经永久性地丢失了数据。
所以,考虑到斯特拉斯堡大火是最极端的,看看OVHcloud是如何处理这个问题的是很有启发性的。即使拥有最好的恢复功能,在任何数据中心发生这种情况的可能性都是有限的——尽管大多数运营商都希望他们的程序能将风险控制在一个小于无穷小的水平。
OVHcloud已经发布了一系列关于未来免费备份的公告,并提高了其基础设施的恢复能力。其中一些公告包括提供异地备份,而另一些则似乎是提供类似于AWS和Azure等云运营商已经提供的区域和可用性区域的恢复服务。
然而,评估操作员对实际火灾的反应是令人沮丧的,因为仍然无法衡量其反应如何。正如我们所说,OVHcloud还不能确切地揭示火灾的原因。
创始人OctaveKlaba的初步评论认为,UPS在获得常规服务的第二天就着火了。法国媒体的评论集中在OVHcloud建筑结构和防火方面的弱点。
但由于这些延误,目前还不可能对此进行评估。OVHcloud说,由于法国当局以及保险公司和其他方面的参与,事故报告将推迟数月。
那太不幸了。我们在过去看到,一些数据中心事件需要很长时间才能理解或报告,这推迟了更广泛的行业从这些事件中学习的可能性。
例如,2017年的一次电力激增和UPS问题导致新加坡证券交易所倒闭:该报告于2018年6个月后发布。当英国航空公司因一个银行假日而停电,导致2017年672架次航班停飞时,花了两年时间和一场诉讼才解决了责任所在。
如果英航的一架飞机坠毁了,原因将通过一个涉及黑匣子数据记录器的合法程序来确定。如果数据中心崩溃,用户可能会蒙在鼓里,而利益相关方则闭门争论。
发生毁灭性的火灾已经够糟了。如果那场火灾的细节在事件发生后很长一段时间内仍被浓烟掩盖,那就不符合任何人的利益。
编辑:Harris