Reddit 起诉 Perplexity 涉嫌大规模数据抓取

红迪网有提交针对答案引擎公司 Perplexity 和三个数据抓取服务提供商 SerpApi、Oxylabs 和 AWMProxy 的诉讼。该法律行动旨在制止 Reddit 投诉所称的非法、工业规模规避其数据保护的行为。投诉称 Perplexity 是这些数据抓取公司中至少一家的客户。 Reddit 使用一个比喻来描述所指控的活动，将提供商比作“潜在的银行抢劫犯”，他们无法直接访问公司的数据“金库”，而是瞄准了携带信息的“装甲卡车”。这意味着被告正在通过间接渠道访问 Reddit 的内容。该诉讼称，Perplexity 选择通过这些方式获取数据，而不是寻求直接许可协议，而某些竞争对手已经采取了这种方式。根据法庭文件，Reddit 于 2024 年 5 月向 Perplexity 发出了一份停止函，要求其停止从该平台抓取数据。据报道，这封信发出后，Perplexity 服务上出现的 Reddit 引用量有所增加。为了进一步调查，Reddit 在其平台上创建了一个帖子，该帖子被配置为只能由 Google 抓取。该公司表示，“几小时内”，Perplexity 的答案引擎就“生成了”这篇特定帖子的内容。 Reddit 辩称，Perplexity 获得这些内容的唯一方法是，它或其共同被告从 Google 的搜索结果中抓取 Reddit 内容，并将其快速集成到其系统中。

三星推出采用 Vision AI 的 Perplexity TV 应用

该平台的用户生成内容由人类撰写和排名的帖子组成，涉及广泛的主题，已成为训练人工智能模型的宝贵资源。 2023年，Reddit实施了API变更，引发了用户抗议；该公司将这些变化定位为确保人工智能开发人员使用其数据而获得补偿的一种方式。此后，Reddit 已与 OpenAI 和谷歌等公司达成了数据许可协议，据报道正在寻求其他安排。这并不是 Reddit 在这一领域的第一次法律挑战；该公司此前曾起诉 Anthropic，声称其机器人在该公司另有声明后仍继续访问该网站。 Reddit 首席法律官本·李 (Ben Lee) 将这种情况描述为“工业规模的‘数据洗钱’经济”，由人工智能“争夺高质量人类内容的军备竞赛”推动。他表示，“爬虫绕过技术保护窃取数据，然后将其出售给渴望培训材料的客户。Reddit 是主要目标，因为它是有史以来最大、最具活力的人类对话集合之一。” Lee 将共同被告 Oxylabs UAB、AWM Proxy 和 SerpAI 视为“这种非法行为的教科书例子”，并将它们描述为不起眼的立陶宛爬虫、前俄罗斯僵尸网络以及宣传可疑策略的公司。他补充道，“由于无法直接抓取 Reddit，他们会掩盖自己的身份、隐藏自己的位置，并伪装自己的网络抓取工具，以从 Google 搜索中窃取 Reddit 内容。” Perplexity 的通讯主管 Jesse Dwyer 在回应诉讼时表示，该公司尚未收到法律备案。德怀尔告诉边缘”，“我们将始终积极争取用户自由、公平地获取公共知识的权利。”他补充说：“我们的方法仍然是原则性和负责任的，因为我们通过准确的人工智能提供事实答案，我们不会容忍对开放性和公共利益的威胁。”

特色图片来源