上周,CrowdStrike 的一次更新失误导致数百万台 Windows 设备突然停止运行。此次混乱影响了大约 850 万台机器,而起因是测试软件的一个缺陷。
这次错误的更新不知何故逃过了常规检查,导致大面积崩溃。作为回应,CrowdStrike 承诺将加强测试并改进未来更新的错误处理。
值得注意的是,这次惨败不仅影响了 CrowdStrike,还引发了微软的严重中断,加剧了整体混乱。双重故障凸显了当出现问题时云服务和软件生态系统是多么脆弱。
今天,CrowdStrike 问题仍在继续,官方在 X 上发布了以下帖子,随后是 博客文章:
更新:我们的初步事后审查 (PIR) 可在以下链接中找到。详细信息包括事件概述、补救措施和初步了解。更多信息将在我们的完整根本原因分析 (RCA) 中提供。
自动恢复技术,加上战略……
— CrowdStrike (@CrowdStrike) 2024 年 7 月 24 日
CrowdStrike 问题的根源
CrowdStrike 的 Falcon 软件是企业防范恶意软件和安全漏洞的重要工具,也是问题的核心。一个例行更新原本是为了收集有关潜在威胁的遥测数据,却导致了灾难性的崩溃。有问题的文件是快速响应内容中的一个 40KB 的小更新,它设法避开了全面测试,导致全系统故障,让人想起了老式计算机病毒。
的核心 CrowdStrike 问题 与快速响应内容更新相关,旨在通过更新 Falcon 传感器来增强恶意软件检测能力。
此特定更新包含错误数据,由于错误而绕过了内容验证程序。通常,CrowdStrike 的更新会经过自动和手动测试。
然而,这次更新要么没有经过同样严格的测试,要么莫名其妙地通过,导致大面积系统崩溃。
问题的根源在于对内容验证器的可靠性缺乏信心。三月份,一项新的部署让 CrowdStrike 相信他们的验证流程万无一失。
事实证明,这一假设是完全错误的。错误的更新触发了传感器内容解释器中的越界内存异常,导致 Windows 机器崩溃并出现可怕的蓝屏死机 (BSOD)。
这 CrowdStrike 问题 病毒爆发于周五,当时企业正准备结束周末。时机非常糟糕,导致众多组织立即陷入混乱。
该错误更新原本是为了增强安全性,但却导致系统瘫痪,造成大量宕机和用户不满。
微软中断是如何开始的?
微软的中断很大程度上受到 CrowdStrike 错误更新的影响。此事件凸显了云服务的脆弱性以及相互依赖的系统如何加剧中断。
造成这一现象的确切原因 微软中断 有所不同,但它与 CrowdStrike 问题同时发生,强调了对技术基础设施的更广泛影响。
CrowdStrike 中断是什么?
这 CrowdStrike 中断 是 CrowdStrike 的 Falcon 软件更新错误导致的重大中断。此更新旨在收集有关潜在威胁的遥测数据,但却导致约 850 万台 Windows 设备大规模崩溃。
该事件被追溯到快速响应内容更新中的一个缺陷,该缺陷未能通过验证过程。
CrowdStrike 中断是什么时候开始的?
CrowdStrike 的中断发生在周五,这是一个特别不合时宜的时机,因为周末企业正在放假。
这个时间点加剧了影响,导致众多组织立即陷入混乱,并导致严重的停机和挫败感。
什么是 CrowdStrike Falcon?
CrowdStrike Falcon 是一个基于云的平台,为企业提供端点保护。它结合了防病毒、威胁情报以及端点检测和响应 (EDR),以防范恶意软件和安全漏洞。
Falcon 通过在 Windows 计算机的内核级别部署传感器来运行,持续监控可疑活动并使用机器学习来增强检测能力。该软件的频繁更新(如快速响应内容)对于保持对新兴威胁的防护至关重要。
善后
为了应对 CrowdStrike 问题的这次灾难,该公司承诺采取多项措施防止此类灾难再次发生。这些措施包括:
- 增强测试:实施本地开发人员测试、内容更新和回滚测试、压力测试、模糊测试和故障注入。
- 改进错误处理:增强 Falcon 传感器内内容解释器的错误处理能力。
- 交错部署:逐步向大部分安装基数推出更新,而不是一次性推出所有更新。
此次事件的核心软件是 CrowdStrike Falcon,它是一个基于云的平台,提供端点保护。它结合了防病毒、威胁情报和端点检测与响应 (EDR),可防范恶意软件和安全漏洞,这对全球企业来说至关重要。
Falcon 通过在 Windows 计算机的内核级别部署传感器来运行。这些传感器持续监控可疑活动并使用机器学习来提高检测能力。快速响应内容等更新对于保持对新威胁的防护至关重要。然而,最近的事件表明,如果这些更新没有经过彻底审查,就会存在风险。
特色图片来源: CrowdStrike