近期数据中心(信息科技与基础设施)领域出现了太多的灾难性事件。大厂接二连三地崩,根本原因是什么?难道是技术不过关吗?2023年2月,中共中央国务院印发《数字中国建设整体布局规划》,明确数字中国建设要夯实数字基础设施,真正让数字技术给人民带来福祉。随时可能坍塌的数字基础设施是我们需要的吗?数据中心未来如何发展?
一、警示̶̶灾难性事件
近期数据中心(信息科技与基础设施)领域出现了太多的灾难性事件:
1)2024年9月10日阿里巴巴成立25周年当天,阿里新加坡机房由于锂电池爆炸导致的火灾,持续三十多个小时,仍未完全扑灭,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司,如Lazada和字节跳动,造成了严重服务中断;
2)8月26日,中国电信上海网络全部中断;
3)8月19日,网易云音乐APP崩了;
4)7月19日,微软全球蓝屏事件;
5)2024年5月,谷歌堪称云计算史上的“无双级”大事故;
6)2024年4月8日15点23分腾讯云故障持续了近87分钟,被称为云计算史诗级二翻车;
7)2023年12月3日,“腾讯视频崩了”登上微博热搜;
8)2023年12月1日,GB/T42581-2023国家标准实施首日,上海医保系统瘫痪,无法进行结算;
9)2023年11月27日晚,因系统故障,滴滴服务异常,经技术团队连夜修复,次日上午滴滴网约车等服务已恢复,骑车等其他服务还在恢复中;
10)2023年11月12日,就在“双十一”后的第二天,“阿里云盘崩了”的消息一度冲上微博热搜,连同冲上热搜的还有诸如淘宝、闲鱼、钉钉等阿里云支持下的其他阿里官方产品;被称为云计算史上史诗级灾难。11月27日,部分地域云数据库控制台访问异常,又一次出现服务异常;
11)2023年11月9日,工银金融服务(FS)遭受勒索软件攻击,导致部分FS系统中断;
12)2023年11月8日,OpenAI旗下ChatGPT和API出现“严重停机”(Major Outage)事件,整个故障的时间大致持续了100分钟;
13)2023年10月14日下午,新加坡Equinix数据中心突发中断,新加坡的星展银行(DBS)和花旗银行的银行访问和支付服务出现困难;
14)2023年3月29日,某运营商数据中心冷冻系统故障导致唯品会业绩损失超亿元、影响持续12小时,腾讯旗下的微信和QQ等业务出现崩溃状况,参保患者无法实时结算医保费用;
15)2022年4月12日早上,菲律宾马尼拉最高法院的一个数据中心起火。导致菲律宾最高法院的网站长时间瘫痪。据《马尼拉时报》报道,最高法院的首席公共信息官表示,UPS发生了爆炸;
16)2021年12月,雅加达CyberOne数据中心发生火灾,两人丧命,据报道该数据中心的服务器发生了爆炸。尚未披露任何关于火灾详细原因;
17)2021年3月,属于OVH clound的斯特拉斯堡数据中心在一起大火中被烧毁,360万个网站下线。据信造成那场火灾的主要原因是UPS系统,当地消防部门最近出具的一份报告指出了存在几处明显的不足,但至今也没有对火灾原因给出解释;
18)2020年8月,澳洲电信Telstra位于英国首都伦敦的托管数据中心由于UPS故障引起火灾并引起宕机。当地消防部门共调集了4辆消防车和25名消防员到场救援;
19)2016年4月22日,某公司北京亦庄数据中心UPS升级改造过程中,因供电中断,导致机房全部设备断电,系统宕
机,73家银行的核心、支付、网银、手机银行等业务全部中断,涉及全国12个省份;
20)2013年6月23日星期日,某大行数据中心因夜间给DB2数据库打补丁,导致上午系统运行缓慢,本可以更快速恢复服务,又因处置不当,导致全行业务出现近一小时的“瘫痪”。该行营业网点因无法“取钱”,市民误以为“闹钱荒”,导致包括该行在内的各家银行网点出现挤兑现象,造成了严重的社会影响;
二、重视提升智能化运营管理能力
各种爆炸性的中断事件层出不穷地发生,上面列举的还只是其中的一部分。
上面提供场地服务、算力和平台服务的数据中心哪个没有冗余和容错设施?上面提供业务处理服务的数据中心哪个没有进行灾备建设?是技术不先进吗?但是仍然中断事件频发,显然冗余、容错、灾备等等各种新技术以及新产品的应用并不能完全解决问题。随时可能坍塌的数字基础设施是我们需要的吗?
员工都会有疏忽、设备都会出故障、软件都会有Bug、新技术的应用也会引入新的风险……但是会不会因此导致灾难,就要看管理的水平了。
在2024数智+能源技术发展论坛,暨第二十届数据中心基础设施用户满意度调查结果揭晓大会上的主旨演讲《聚焦数字中国建设探路数据中心方向》指出,未来数据中心的竞争,除了建设等级满足需要等硬实力方面竞争外,更加是数据中心应对灾难场景的业务连续性管理能力、持续稳定达成运行目标的服务能力,以及数智化运营水平等软实力的竞争。
数据中心和数据基础设施的建设必须要满足业务需求,采取必要的冗余、容错、灾备、多活等高可用技术方案,技术先进很重要,否则运营将会“巧妇难为无米之炊”。然而上述爆炸性的中断事件层出不穷地发生,证明了只有这些技术措施是不够的,究其根因就是工程师们对“纯”技术的信仰掩盖不了管理者对“科技管理”的不足和“侥幸心态”而带来的灾难后果。数据中心必须建设和加强应对灾难场景的业务连续性管理能力、持续稳定达成运行目标的服务能力。为了提升管理能力,我们还应提升数智化运营水平。
著名科学家钱学森曾讲:“研制导弹,三分靠技术,七分靠管理”。这一比例在数据中心领域仍然适用,这一比例已被写进GB/T42581-2023《信息技术服务数据中心业务连续性等级评价准则》国家标准。在国外,大家更多地引用帕累托法则,认为大多技术引起的问题可能因为管理的不足所导致的,两成是技术、八成是管理。
有人说现在早已不是钱学森那个年代了,我们现在在搞双态运维,用工程化的技术手段“代替”管理,已经实现自动运维,并且开始智能运维了,管理不那么重要了。其实任何数字化系统的背后逻辑依然是管理。只是管理的执行被取代而已。同时由于引入了包括数智化系统在内的新技术新产品,同时也引入了网络安全、数据安全以及科技伦理等多方面的风险,管理的领域更加地复杂,管理变得更加重要了。
在数字经济大时代,数字化技术①及其所依托的数字基础设施起着举足轻重的作用,数据中心的服务中断已经从过去给银行业带来灾难演变到对各行各业带来深远影响。要夯实数字基础设施,真正让数字技术给人民带来福祉,必须要有过硬的技术和技术设施,同时更要补足管理短板,让技术和技术设施在需要的时候真正能够发挥作用。
注:①数字化技术digital technology:数字化转型过程中用到的信息技术及其组合,包括但不限于云计算、大数据(数据分析)、移动计算、社交计算、物联网、智能化、边缘和个域计算、区块链以及网络安全技术等。【来源:GB/T43439-20233.1】
编辑:Harris