Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

DeepMind找到带有固定尺寸嵌入的抹布极限

Kerem GülenbyKerem Gülen
5 9 月, 2025
in Artificial Intelligence
Home Artificial Intelligence

Google DeepMind已经确定了依靠密集嵌入的检索功能(RAG)系统中的基本建筑限制。该限制表明,固定尺寸的嵌入不能代表所有相关文档组合,因为数据库量表会影响检索效率。核心问题在于固定大小嵌入的代表性。当数据库超过一定大小时,固定尺寸嵌入无法准确表示相关文档的所有可能组合。该限制源于沟通复杂性和符号级理论的原则。已经建立了基于嵌入尺寸的理论能力限制。 512个尺寸的嵌入达到了500,000个文档的极限。将尺寸提高到1024,将限制扩展到约400万个文件。进一步增加到4096个维度将上限提高到2.5亿个文件。这些限制代表了在自由嵌入优化下的最佳估计估计,其中向量直接针对测试标签进行了优化。根据Google DeepMind的报告,现实世界中的语言约束嵌入预计会更快地失败。为了证明这一限制,Google DeepMind引入了极限基准,该基准旨在压力测试嵌入者。限制基准包括两种配置:限制完整和限制小。极限完整配置由50,000个文档组成,即使是强大的嵌入式的性能崩溃,召回@100通常下降到20%以下。限制小型配置(仅包含46个文档)仍然对模型构成挑战。性能差异很大,远离可靠。测试限制的特定结果小配置包括:POMBPTRIEVER LLAMA3 8B实现了54.3%的召回@2,并具有4096个维度。 Gritlm 7b获得了38.4%的召回@2,也有4096个维度。使用4096个维度,E5-属性7B召回了29.5%的召回@2。双子座的嵌入方式达到了33.7%的召回@2,其中3072个维度。研究表明,即使只有46个文档,也没有嵌入者可以完全召回,这强调了限制源于单矢量嵌入体系结构本身,而不仅仅是数据集大小。相比之下,经典的稀疏词汇模型BM25规避了这一限制。稀疏模型在有效无界的维空间中运行,从而促进了密集嵌入无法有效代表的组合的捕获。当前的RAG实现通常假定嵌入可以随着数据量增加而无限期地扩展。 Google DeepMind的研究证明了这一假设的不正确性,表明嵌入尺寸固有地限制了检索能力。该约束显着影响企业搜索引擎管理数百万个文档,依赖复杂逻辑查询的代理系统以及遵循指令的检索任务,而查询动态定义相关性。现有的基准(例如MTEB)不能充分捕获这些限制,因为它们仅测试了查询文档组合的狭窄子集。研究小组建议,可扩展的检索需要超越单矢量嵌入。单矢量嵌入的替代方案包括交叉编码器,通过直接评分查询文档对,在极限基准上获得了完美的回忆,尽管推理潜伏期很高。多矢量模型(例如Colbert)通过分配每个序列的多个向量来提供更具表现力的检索,从而提高了极限任务的性能。稀疏模型,包括BM25,TF-IDF和神经稀疏的猎犬,在高维搜索方面更好地扩展,但缺乏语义概括。关键发现是建筑创新,而不是简单地增加嵌入尺寸,这是必不可少的。研究小组的分析表明,尽管使用广泛使用,但密集的嵌入受数学限制的限制。一旦语料库大小超过与嵌入维度相关的限制,密集的嵌入将无法捕获所有可能的相关性组合。限制基准测试了这种限制,召回@100在限制完整的20%以下(50,000个文档)下降到20%以下,甚至最大的最大模型以大约54%的召回@2上的限制限制(46个文档)。 BM25或更新的架构(例如多矢量检索器和交叉编码器)等古典技术对于大规模构建可靠检索引擎至关重要。


特色图像信用

Tags: 深态特色

Related Posts

Openai:新的“科学开放式”使用GPT-5

Openai:新的“科学开放式”使用GPT-5

5 9 月, 2025
Openai将于2025年与Broadcom生产自定义AI芯片

Openai将于2025年与Broadcom生产自定义AI芯片

5 9 月, 2025
AI聊天机器人在3个回复中的1个中传播错误信息

AI聊天机器人在3个回复中的1个中传播错误信息

5 9 月, 2025
Lunalock Ransomware以AI培训威胁袭击艺术家/客户

Lunalock Ransomware以AI培训威胁袭击艺术家/客户

5 9 月, 2025
TCL QM9K将双子座与存在检测相结合

TCL QM9K将双子座与存在检测相结合

5 9 月, 2025
Gmail中的双子座总结了电子邮件和线程

Gmail中的双子座总结了电子邮件和线程

4 9 月, 2025
Please login to join discussion

Recent Posts

  • Openai:新的“科学开放式”使用GPT-5
  • 在七个国家 /地区泄漏的政府级个人数据
  • XCHAT扩展到所有X用户,补充加密
  • 当两个马克·扎克伯格碰撞时
  • Openai将于2025年与Broadcom生产自定义AI芯片

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.