OVH失火事件——数据中心之痛点
- 2021/3/19 7:58:56 作者: 来源:海峰看科技
-
当地时间3月10日,欧洲最大的云服务和网络托管服务运营商OVH位于法国斯特拉斯堡的数据中心发生严重火灾。
当地时间3月10日,欧洲最大的云服务和网络托管服务运营商OVH位于法国斯特拉斯堡的数据中心发生严重火灾。
OVH拥有超过100万个客户、300多个托管网站,服务范围涉及138个国家和4个大洲。这场大火无疑是IDC史无前例的一场灾难。此次事件导致了该数据中心的四个设施中,SBG-2设施严重受损,SBG-1的十二个机房中的四个受到损失,SBG-3、SBG-4的机房大楼尽管未受到损失,但其服务也受到了不同程度的影响.
受此次失火事件影响的客户包括网络威胁情报公司BadPackets、视频游戏制造商Rust、加密货币交易所Deribit的博客和文档站点、电信公司AFR-IX、加密实用程序VeraCrypt、新闻媒体eeNewsEurope、艺术建筑群蓬皮杜中心,以及其他许多客户。
截至目前,据OVH短时间调查后的解释,此次数据中心起火可能是由于UPS(不间断电源)引起。(该调查并非最终解释,目前对于OVH失火的触发原因还未被正式确定)
UPS是数据中心的备用电源系统的关键组件。原本应在检测到断电后启用,起到维护基础架构的作用,同时还可以抑制电涌来保护设备,起到防灾目的的UPS,却成为了这场史无前例的事件的始作俑者。在数字化转型已成为大趋势的今天,当越来越多的企业将自己的应用和数据上云后,如何保证用户数据的安全成为了任何企业都无法回避的问题。但当真正的灾难来临,就如同此次OVH失火事件,让我们不得不反思,企业在面对数据安全的痛点时,又该如何应对。
容灾备份——数据安全不容忽视的一环
OVH数据中心的火灾绝对不是少数个例,同时,火灾也不是威胁数据中心的唯一因素。人为的错误,各种各样的天灾,甚至一个情绪崩溃的员工,都是数据中心不容忽视的安全隐患。
美国“9·11恐怖袭击事件”后,许多在世贸中心的大型投资公司由于丢失了重要信息数据,被迫破产倒闭。经过这次事件,自上世纪七十年代开始起步的容灾备份技术再次受到人们瞩目。
而就在OVH失火的前一天,3月9日,全球知名加密数字钱包平台Blockchain出现异常,多用户无法使用相关服务。Blockchain最终确认,此次服务中断的原因是因为旗下数据中心出现火灾。
值得注意的是,Blockchain的数据中心在确认数据中心火灾事件之后,Blockchain便将受影响的数字活动重新转移到其他数据中心,降低了服务恢复的时间。再次强调了一个完备的容灾备份方案对企业的重要性。
幸运的是,如今在我国,华为云、腾讯云、阿里云等云服务商都已经为企业提供了成熟、完备的数据保护解决方案、应用级容灾解决方案。例如华为云为客户构建了从底层数据到上层应用,从单数据中心到跨多个数据中心的多层次全方位容灾解决方案,其中包含了四个应用场景:本地高可用:单数据中心业务高可用,避免单部件故障引起的业务中断;主备容灾:同城/异地容灾,灾难发生时,容灾中心业务可快速恢复,对外提供服务;双活容灾:同城容灾,业务均衡负载到生产和容灾中心,两数据中心同时提供服务,应用零中断,数据零丢失;两地三中心:同城双活/主备容灾,异地主备容灾,多份容灾,更高的业务连续性保障。
多场景的应用,可以满足千行万业的灾备系统建设要求,保障企业业务的连续性。
重视运维——防患于未然
尽管OVH失火事件的原因还未被正式发布,但就截至目前发布的消息,若真的是UPS导致的失火,笔者便产生了一个疑问:如此重要的数据中心的消防系统为什么没有在第一时间预警、减少、阻止火灾损失的发生。这是否暗示了平日里的运维工作存在疏忽?
除了对服务器硬件的维护,数据中心运营商还应当对供电系统、备用电源、线路、消防系统等细节部分的有效性进行周期性的检查和维护。另外,数据中心运营商还应加强紧急机制的设定,并以更多数据中心资源保障冗余。
根据国务院信息化工作办公室出台的《重要信息系统灾难恢复指南》,单位应当保证至少每年一次灾难恢复演习。只有平日里做好演习工作,才能在不可预测的灾难到来时临危不乱,实现无缝运营。
在起跑线上解决问题——数据中心建设屡出奇招
数据中心运营商们从没有停止过对于到底怎样才能更好地保障数据中心的安全,同时减少运维的成本的思考。显然,把数据中心建在一个安全的地方便能规避大量的隐患。问题是,建在哪里才算安全呢?各大企业各显神通,给出了自己的答案。
2015年,阿里巴巴启用了位于浙江千岛湖的数据中心,采用湖水制冷,使年平均PUE(PowerUsageEffectiveness,电力使用效率,越接近1越好,1代表所有能源都用在了服务器本身,没有损耗)低至1.3。
同样是阿里巴巴,于2016年启用了位于张北县的张北数据中心,利用了其所在地海拔高,年平均温度低,以及有丰富的风能和太阳能资源的优势。
腾讯贵安七星数据中心,隐匿在贵州的山洞中,位于两山之间,地理位置安全隐蔽。利用天然地势给“山洞数据中心”构筑了一个强大的外壳。山洞温度低,周边水电资源丰富,极限PUE能达到达1.1左右。
再看国外的数据中心建设。
微软进行了迄今为止最“大胆”的尝试——在苏格兰奥克尼群岛的海底部署了一个包含864台服务器的水下数据中心“胶囊”。实现了数据中心“下海”,利用海水进行散热。
Facebook干脆把数据中心设到离北极圈仅仅100公里的瑞典吕勒奥镇,节省了一大笔散热开支。
纵观这些数据中心的选址,除了安全因素外,运营商还格外讲究运维成本的节省,尤其是在用电量上。
究其原因,是因为数据中心是个名副其实的“吞电兽”。随着智慧城市、云计算等应用带来的庞大需求,将会持续刺激数据量的增长,进而推动数据中心耗电量增长。国内数据中心PUE普遍位于1.5~2.0区间内。有人曾预测,2025年数据中心年耗电量将约为3950亿千瓦时,占全社会用电量的4.1%。而对于数据中心而言,IT设备和空调制冷设备是数据中心的主要能耗来源,两者通常占数据中心总能耗的85%。如何降低PUE、制冷、散热的成本,是数据中心运营商必须面对的一个课题。
借助自然的力量,在保证数据中心安全的同时,还可以有效地降低能耗,成为了运营商在数据中心建设上屡出奇招的推动力。
OVH失火事件的反思
对于“避免数据完全丢失的关键在于异地容灾备份”,运营商与企业似乎早已达成了共识,然而高昂的费用却注定了这并不是所有企业都能负担得起的。
尽管运营商绞尽脑汁在“规建维优”层面上,对保障数据安全和降低成本,做出了种种努力与尝试,痛点依旧存在。随着数字化业务的增长,未来对数据中心的需求,信息数据的重要性也会随之增加。数据中心运营商将面对巨大的挑战,但同时也是巨大的机遇。能否提供可靠,安全,高性价比的服务将会成为成败的关键。
编辑:Harris
当地时间3月10日,欧洲最大的云服务和网络托管服务运营商OVH位于法国斯特拉斯堡的数据中心发生严重火灾。