旧金山关于“道德” AI提供者的讨论强调了AI公司和网站出版商之间的紧张关系日益增长。辩论集中在AI公司如何收获Web数据来培训其模型并为聊天机器人供电,而无需将流量发送回原始内容来源。
测量以爬网比率的不平衡
多年来,Web一直在不成文的协议上运行:网站允许搜索引擎机器人爬网,以换取推荐流量,从而驱动用户和收入。生成的AI聊天机器人通过提供直接答案来破坏此模型,从而减少了用户访问源网站的需求。为了量化这一转变,CloudFlare支持了全球约20%的网站,它已经开始跟踪“爬行与引用比率”。该指标比较了公司机器人访问网站以获取数据的次数与该网站回到该网站的人数数量的数量。高比例表明,公司的数据远远超过其流量返回的价值。
不同的AI公司如何比较
9月第一周的数据显示公司之间存在显着差异。 Claude Chatbot的制造商Anthropic显示出特别高的爬网比率。为了应对发现,Anthropic表示无法确认Cloudflare的数字,并指出今年早些时候推出的新的Web搜索功能正在引起迅速增长的推荐流量。 Openai没有回应置评请求。另一个AI答案引擎的困惑性提供了有关此事的详细说明。
就公共内容而言,出版商可以选择不公开其内容。就事实而言,您知道的版权法一直在事实和表达之间划清界限。那是人类询问本身的基础。
方法学说明指出,这些比率仅跟踪Web活动并将流量排除在本机应用程序中,这可能会降低整体数字。但是,该方法始终应用于所有公司。
对网站所有者和Google不断变化的角色的影响
这个大规模的数据收集有直接的网站所有者成本。大约一年前的一份业务内部报告指出,人类和Openai机器人的爬网造成某些网站的交通成本大幅上升,其中一位开发人员报告了客户的云计算账单翻了一番。 Google的爬网与引用比率目前低于许多AI-First公司,这主要是因为其传统搜索结果仍然链接到网站。但是,随着Google通过AI概述之类的功能集成了更多直接的AI答案,因此其比率正在波动。 CloudFlare数据显示,Google的比率从1月的3.3:1增加到4月的18:1,然后在7月的9:1定居。 Google表示,它仍然致力于将流量发送到网络。





