Google DeepMind已经确定了依靠密集嵌入的检索功能(RAG)系统中的基本建筑限制。该限制表明,固定尺寸的嵌入不能代表所有相关文档组合,因为数据库量表会影响检索效率。核心问题在于固定大小嵌入的代表性。当数据库超过一定大小时,固定尺寸嵌入无法准确表示相关文档的所有可能组合。该限制源于沟通复杂性和符号级理论的原则。已经建立了基于嵌入尺寸的理论能力限制。 512个尺寸的嵌入达到了500,000个文档的极限。将尺寸提高到1024,将限制扩展到约400万个文件。进一步增加到4096个维度将上限提高到2.5亿个文件。这些限制代表了在自由嵌入优化下的最佳估计估计,其中向量直接针对测试标签进行了优化。根据Google DeepMind的报告,现实世界中的语言约束嵌入预计会更快地失败。为了证明这一限制,Google DeepMind引入了极限基准,该基准旨在压力测试嵌入者。限制基准包括两种配置:限制完整和限制小。极限完整配置由50,000个文档组成,即使是强大的嵌入式的性能崩溃,召回@100通常下降到20%以下。限制小型配置(仅包含46个文档)仍然对模型构成挑战。性能差异很大,远离可靠。测试限制的特定结果小配置包括:POMBPTRIEVER LLAMA3 8B实现了54.3%的召回@2,并具有4096个维度。 Gritlm 7b获得了38.4%的召回@2,也有4096个维度。使用4096个维度,E5-属性7B召回了29.5%的召回@2。双子座的嵌入方式达到了33.7%的召回@2,其中3072个维度。研究表明,即使只有46个文档,也没有嵌入者可以完全召回,这强调了限制源于单矢量嵌入体系结构本身,而不仅仅是数据集大小。相比之下,经典的稀疏词汇模型BM25规避了这一限制。稀疏模型在有效无界的维空间中运行,从而促进了密集嵌入无法有效代表的组合的捕获。当前的RAG实现通常假定嵌入可以随着数据量增加而无限期地扩展。 Google DeepMind的研究证明了这一假设的不正确性,表明嵌入尺寸固有地限制了检索能力。该约束显着影响企业搜索引擎管理数百万个文档,依赖复杂逻辑查询的代理系统以及遵循指令的检索任务,而查询动态定义相关性。现有的基准(例如MTEB)不能充分捕获这些限制,因为它们仅测试了查询文档组合的狭窄子集。研究小组建议,可扩展的检索需要超越单矢量嵌入。单矢量嵌入的替代方案包括交叉编码器,通过直接评分查询文档对,在极限基准上获得了完美的回忆,尽管推理潜伏期很高。多矢量模型(例如Colbert)通过分配每个序列的多个向量来提供更具表现力的检索,从而提高了极限任务的性能。稀疏模型,包括BM25,TF-IDF和神经稀疏的猎犬,在高维搜索方面更好地扩展,但缺乏语义概括。关键发现是建筑创新,而不是简单地增加嵌入尺寸,这是必不可少的。研究小组的分析表明,尽管使用广泛使用,但密集的嵌入受数学限制的限制。一旦语料库大小超过与嵌入维度相关的限制,密集的嵌入将无法捕获所有可能的相关性组合。限制基准测试了这种限制,召回@100在限制完整的20%以下(50,000个文档)下降到20%以下,甚至最大的最大模型以大约54%的召回@2上的限制限制(46个文档)。 BM25或更新的架构(例如多矢量检索器和交叉编码器)等古典技术对于大规模构建可靠检索引擎至关重要。