打造一套真正能落地的 AI 软件解决方案

事件起因
2024年7月19日,全球范围内发生了一起由CrowdStrike安全软件更新引发的大规模IT中断事件。CrowdStrike是一家全球知名的下一代终端安全厂商,其核心产品Falcon平台提供基于云的SaaS服务,涵盖端点保护、威胁情报等多个领域。问题源于CrowdStrike推送的一个有缺陷的更新,其中包含一个名为“C-00000291*.sys”的文件,该文件在微软Windows操作系统中触发了错误,导致计算机无法正常工作并出现“蓝屏死机”。

知名研究公司 IDC 的数据显示,CrowdStrike 是仅次于微软的第二大“现代终端保护”软件开发商,在规模为 126 亿美元的市场中占有 18% 的份额。这家总部位于美国得州奥斯汀的公司向全球 2.9 万家机构销售其产品,所以此次宕机可能会影响数百万台电脑。这些电脑可能需要数周或更长时间才能重新恢复正常,因为它们必须手工修复。
CrowdStrike CEO乔治·库尔茨(George Kurtz)承认了这一错误,并表示问题已经被发现、隔离,并且已经部署了修复程序。一些批评者认为,CrowdStrike在追求更大利润和试图安抚股东的同时,牺牲了基本的安全原则,缺乏质量保证和测试。
微软的后续措施
面对这一全球性的IT中断事件,微软迅速采取了一系列措施来应对危机。首先,微软与CrowdStrike紧密合作,以确保问题能够得到快速识别和解决。微软还提供了技术支持和指导,帮助受影响的用户进行系统恢复。此外,微软加强了对其Windows操作系统的监控和安全更新,以防止类似事件再次发生,并提高了对第三方软件更新的兼容性测试,确保系统的稳定性和安全性。
造成的影响


大量社会基础设施一度停摆
从2024年7月19日的中午时分开始,事件在全球范围内都导致了一系列严重的后果,包括航班被迫停飞、火车服务出现延误、银行服务异常,甚至巴黎奥运会的服务也受到了影响,波及了全球至少超过二十个国家。据不完全统计,至少20多个国家在内,包括医院、银行、航空公司等大量社会基础设施一度停摆,造成的直接和间接经济损失以十亿美元计算。
据估计,CrowdStrike在全球有超过24000个客户,市值超800亿美元,是仅次于Palo Alto Networks的网络安全公司。此次事件导致数以百万到千万计的Windows系统不可用,恢复过程需要手工操作,估计完全恢复需要的时间将以周计。
在中国境内,CrowdStrike软件的安装数量达到了数万台,涉及的单位数量大约有数百个,这些用户主要分布在北京、上海、广州和深圳等经济发达地区。这次事件中受影响最严重的是外国企业、其在中国的分支机构以及合资企业,其中一些机构有高达40%的终端设备遭受了系统崩溃。
事件的启发
此次事件给网络安全行业敲响了警钟,提醒了国内企业要警惕单一供应链的风险。在全球经济一体化的背景下,过度依赖单一供应商或技术来源可能导致巨大的运营风险。这次事件强调了自给自足和技术支持国产化的重要性。国内企业应加强自主研发能力,推动技术国产化,减少对外部供应商的依赖,提高供应链的多样性和韧性。
对于安全厂商,需要把好质量关,做好升级策略,并在出现事故时积极与公众沟通。对于安全产品使用者,应选择有实力有信用背书的安全厂商,并在部署终端安全软件时做好资产分类和分级管理。对于国家相关主管机构,应持续推进国产化,加强关键基础信息系统的保护,并落实相应的能力建设。
业务稳定和网络安全不仅是技术问题,更是管理和战略问题。业界和用户应从此次事件中吸取教训,全面综合考虑各种因素,确保网络安全和业务连续性。通过提高自主研发能力,加强供应链管理,以及与国内外合作伙伴的紧密合作,可以更好地应对未来可能出现的各种挑战。
参考内容:
【1】CrowdStrike导致全球性IT基础设施中断事件分析报告 - 安全内参 | 决策者的网络安全知识库 (secrss.com)
【2】微软蓝屏事故背后:一个小文件是如何让全球计算机瘫痪的 - IT之家 (ithome.com)