Cloudflare 的内容交付网络 有经验的 由于机器人管理系统中的查询配置错误,2025 年 11 月 19 日星期二发生严重中断,影响了全球各种互联网服务。 Cloudflare 联合创始人兼首席执行官 Matthew Prince 在一份报告中详细介绍了原因 博客文章,识别管理自动爬虫的机器人管理系统中的问题。这一具体问题导致 Cloudflare 遭遇“2019 年以来最严重的停机”。大约 20% 通过 Cloudflare 网络的网络流量,如 报道 去年由该公司。这次中断使包括 X、ChatGPT 和 DownDetector 在内的许多服务中断了几个小时。此事件类似于之前涉及 Microsoft Azure 和 亚马逊网络服务。 Cloudflare 的机器人控件解决了爬虫抓取数据以进行生成 AI 训练等挑战。该公司最近推出了“AI Labyrinth”,这是一种利用人工智能生成的内容来阻止不合规的人工智能爬虫和机器人的缓解方法。然而,此次中断源于对数据库权限系统的修改,而不是源于生成式 AI 技术、DNS 或 Cloudflare 最初认为的“超大规模 DDoS 攻击”等恶意活动。普林斯解释说 机器人管理 系统的机器学习模型会为网络请求生成机器人分数,并使用经常更新的配置文件来识别自动请求。 “生成此文件的基础 ClickHouse 查询行为的变化导致它具有大量重复的‘特征’行。”此查询更改导致 ClickHouse 数据库产生重复信息。配置文件迅速超出了预设的内存限制,导致“为我们的客户处理依赖于机器人模块的任何流量的核心代理系统”的故障。因此,使用 Cloudflare 规则阻止机器人的公司会错误地切断合法流量,而未在规则中使用生成的机器人分数的客户仍保持在线状态。 Cloudflare 概述了 四项具体计划 为防止类似事件发生:
- 硬化摄入: 加强 Cloudflare 生成的配置文件的摄取,使其符合与用户生成的输入相同的标准。
- 启用更多全局终止开关: 为功能实施额外的整体禁用选项。
- 消除核心转储: 防止核心转储或其他错误报告导致系统资源过多。
- 检查故障模式: 检查所有核心代理模块的错误条件故障模式。





