咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
如何看待马斯克所称“史上最大IT事故,没有之一”
  • 当地时间,2024年7月19日,黑色星期五,微软公司旗下部分应用和服务出现访问延迟、功能不全或蓝屏无法访问问题。人们需要汲取这次灾难的教训,必须站在总体国家安全观的高度来看待运维工作,对于运维工作要时刻保持敬畏之心!真正让数字技术给人民带来福祉。

    当地时间,2024年7月19日,黑色星期五,微软公司旗下部分应用和服务出现访问延迟、功能不全或蓝屏无法访问问题。已对多国包括航空、铁路、银行、企业、媒体等在内的多领域造成影响。这次事故对于国内的波及有限,是因为我们在自主可控方面取得了进展,没有将造成这次灾难的国外系统应用到我们的关键应用系统中,从而躲过一劫。但我们仍需汲取这次灾难的教训。必须站在总体国家安全观的高度来看待运维工作,对于运维工作要时刻保持敬畏之心!真正让数字技术给人民带来福祉。
      
      一、事故的发生和解决方案
      
      当地时间,2024年7月19日,黑色星期五,微软公司旗下部分应用和服务出现访问延迟、功能不全或蓝屏无法访问问题。随着事件的发酵,导致这次全球最大IT宕机的罪魁祸首也逐渐浮出了水面,“元凶”竟然是一家网络安全巨头,CrowdStrike,是自称能拥有检测网络威胁“最快平均时间”的那种实力选手,《财富》1000里500多家企业都是它的客户。它只是向Windows发送了一个更新……
      
      随后微软亚太安全架构师向部分受影响用户发出解决方案:
      
      今天CrowdStrikeFalcon的Sensor更新之后,内核驱动文件csagent.sys导致全球大面积用户的Windows系统出现蓝屏。
      
      CrowdStrike官方的支持说明如下(注意需要CS用户登录之后才能访问):
      
      https://supportportal.crowdstrike.com/s/login/?ec=302&startURL=/s/article/Tech.Alert-Windows-crashes-related-to-Falcon-Sensor-2024-07-19
      
      如果您的系统出现蓝屏,请尝试以下方式修复:
      
      1、通过恢复模式启动,或者多次异常重启进入安全模式;
      
      2、重命名以下文件为其他文件名:
      
      C:\Windows\System32\drivers\CrowdStrike\csagent.sys
      
      或者直接重命名以下文件夹
      
      C:\Windows\System32\Drivers\Crowdstrike
      
      二、事故的影响
      
      受此次事故影响,Crowdstrike美股盘前大跌13%,微软跌超2%。
      
      特斯拉遭遇“黑色星期五”,股价周四刚小幅反弹就回落,周五盘中一度跌近5%,收跌4.02%,报239.2美元,市值7628.6亿美元。特斯拉市值一夜蒸发320亿美元,约合人民币2326亿元。
      
      事发时直接受到影响的是特斯拉工厂周四夜班的工人。由于一些工厂里的设备开始报错,特斯拉位于奥斯汀、德克萨斯和内华达的超级工厂都让部分工人提前下班。公司随后在周五上午发出备忘录,告知员工公司受到“Windows主机中断”的影响,导致服务器、笔记本电脑和制造设备出现问题。
      
      知情人士透露,直到周五中午,虽然工厂里有部分生产线仍在运行,但受影响的工人尚未接到通知何时能恢复生产。
      
      这个问题背后的理由不难猜测。根据微软、CrowdStrike发布的声明,虽然问题已经成功定位,但要恢复电脑运行,需要受影响公司的IT人员进行逐台“手动恢复”。根据媒体获得的CrowdStrike技术支持团队的通信信息,受影响的系统至多可能需要重启15次。
      
      一向讨厌复杂步骤的马斯克则给出了他的解决方案——直接在所有系统中全部删掉CrowdStrike的软件。说完这句话似乎觉得不过瘾,他还附上了一张“火烧CrowdStrike机房”的AI生成图片。
           
      微软操作系统陷入瘫痪,影响了全世界多地机场办理值机和预订机票以及医疗和银行系统登录、电视广播节目播出、超市和电信系统运作等,给人们日常生活造成不便。一些地区的港口运营、物流运输也受到影响。尤其是眼下正值旅游旺季,航空业受到的影响比较突出。美国联邦航空局最初叫停美国境内所有航班起飞,航空公司稍后反映已经陆续恢复服务。欧洲主要机场也受到影响,其中德国柏林一家机场19日早些时候一度暂停所有航班。多个国家和地区出现航班延误、旅客滞留和日常运作出现问题等。6月23日刚刚遭遇电脑故障,导致仿佛回到了启德机场年代的香港国际机场这次也未能幸免。
      
      美国、澳大利亚、日本、荷兰、德国、印度、捷克、新西兰、韩国、西班牙等国部分航空公司出现航班延误或机场服务中断,美国达美航空和美联航宣布停飞所有航班。从香港到澳大利亚,许多亚太地区的机场也都受到了影响。澳大利亚广播公司遭遇“重大”技术故障,澳政府针对此次大范围技术故障召开紧急会议;英国天空新闻台也出现过无法直播问题。英国最大的铁路运营商GTR称面临技术问题;西日本旅客铁道公司(JR西日本)列车行驶位置信息因Windows系统故障导致无法获取。以色列、南非等国银行系统受到技术故障影响,澳大利亚超市自动收银机也出现结算异常问题。路透社报道称伦敦证券交易所也受到影响。
      
      甚至连奥运会组委会都表示“影响了制服和认证的交付”……总而言之,全球几乎出现了瘫痪的情况。马斯克也是连连公开表态:史上最大IT事故,没有之一。
      
      与之形成鲜明对比的是,中国大陆的关键基础设施,如北京和上海的国际机场,则未受到影响。
      
      三、敲响了一个警钟
      
      不过对于这件事情,我们不能仅仅是一个看热闹的态度,还是需要痛定思痛。
      
      那么CrowdStrike的这个更新到底干了什么?全球蓝屏是由Windows主机的Falcon内容更新bug引起的。
      
      员工都会有疏忽、设备都会出故障、软件都会有Bug、新技术的应用也会引入新的风险……但是会不会因此导致灾难,就要看业务连续性管理的水平了。
      
      11年前,某国有大行数据中心也因为打补丁更新bug,导致2013年6月23日星期日上午系统运行缓慢,本可以更快速恢复服务,又因处置不当,导致全行业务出现近一小时的“瘫痪”。如果在更新前,进行包括压力测试在内的全面的测试和验证,这次灾难就可避免;如果在更新中及更新后进行加强监控、制定紧急回退预案,就可以尽快发现异常尽快处置,就不会造成长时间的业务中断。
      
      而这一次大灾难,跟11年前那次相比,更容易避免,但是还是发生了,这问题很严重,完全可以称为“人祸”。要知道,这次的Bug是一个必发Bug,换句话说但凡测试了一次就能发现,而不像11年前那次需要全面的测试才有可能发现。再进一步就是Crowdstrike在给全球用户发送更新的时候甚至都不测试一次……
      
      而对于用户来说,将这个软件应用于自己的关键业务系统时,居然任由外部公司远程自动更新自己的系统,在更新自己的系统时,居然完全没有事先测试和验证的意识。
      
      对于运维,但凡有敬畏之心、不至于发生这样事故!
      
      这次事故对于国内的波及有限。中国企业在此次微软故障中的表现,证明了我国在实现“安全可控”计算系统目标方面的进展。一位中国政府员工表示,这次事件突显了中国的科技自给自足战略的成功。近年来,中国在科技自给自足方面取得了显著进展,这不仅体现在硬件方面,还包括操作系统和应用软件等多个领域。然而,这次事件也提醒我们,尽管中国在科技自给自足方面取得了进展,但仍需继续努力。科技的快速发展意味着我们必须不断创新,保持领先地位。可以想见,在未来,我国会继续加大对自主研发的投入,鼓励本土科技企业的发展。
      
      然而我国大陆地区受这次事件影响有限,仅仅是因为我们在自主可控方面取得了进展,没有将造成这次灾难的国外系统应用到我们的关键应用系统中,从而躲过一劫。难道我们自己的软件系统就不会有一天也引发一次类似的灾难?所以我们仍需汲取这次灾难的教训。
      
      我们自主可控的系统开发应用时间短,稳定性等各方面尚存在改进空间,运维压力较大,我们更应该长存敬畏之心。
      
      有人说做了灾备就不会有灾难。受这次故障影响的这些行业和客户难道都没有做灾备吗?可见灾备并不能真正解决问题。
      
      近日,还有人在说为什么自然灾害增加了,数据中心宕机却少了?这话刚说完,打脸的事情就发生了。
      
      近年来,随着中国制造2025、网络强国战略、国家大数据战略、两化融合、互联网+、一带一路、云计算、大数据等新的一批国家战略制定和新技术如火如荼地发展,作为新基建的重要领域之一,中国数据中心行业发展进入快车道。2023年2月,中共中央国务院又印发了《数字中国建设整体布局规划》,明确数字中国建设要夯实数字基础设施和数据资源体系两大基础。数字中国的建设、信息技术的应用带来网络流量高增长,结合企业及政府和社会的信息化建设,驱动着数据中心不断向大型化、复杂化方向演进。随着业务应用数据大集中,以及国家发改委、中央网信办、工信部、国家能源局四部门提出加快实现数据中心集约化、规模化、绿色化发展的要求,也带来了数据中心和信息系统运行风险的大集中。当前各行各业数字化转型逐步深入,元宇宙应用深入探索,在银行业后,已经诞生了更多对数据中心及信息技术系统高度依赖的行业,数据中心对提升全社会生产效率和全要素生产率作用巨大,数据中心服务的中断不再是数据中心自己的事,已经成为一个系统性的社会风险,必须站在总体国家安全观的高度来看待运维工作,对于运维工作要时刻保持敬畏之心!真正让数字技术给人民带来福祉。
      
      编辑:Harris
      
      

     

    当地时间,2024年7月19日,黑色星期五,微软公司旗下部分应用和服务出现访问延迟、功能不全或蓝屏无法访问问题。人们需要汲取这次灾难的教训,必须站在总体国家安全观的高度来看待运维工作,对于运维工作要时刻保持敬畏之心!真正让数字技术给人民带来福祉。