DeepMind找到带有固定尺寸嵌入的抹布极限

Google DeepMind已经确定了依靠密集嵌入的检索功能（RAG）系统中的基本建筑限制。该限制表明，固定尺寸的嵌入不能代表所有相关文档组合，因为数据库量表会影响检索效率。核心问题在于固定大小嵌入的代表性。当数据库超过一定大小时，固定尺寸嵌入无法准确表示相关文档的所有可能组合。该限制源于沟通复杂性和符号级理论的原则。已经建立了基于嵌入尺寸的理论能力限制。 512个尺寸的嵌入达到了500,000个文档的极限。将尺寸提高到1024，将限制扩展到约400万个文件。进一步增加到4096个维度将上限提高到2.5亿个文件。这些限制代表了在自由嵌入优化下的最佳估计估计，其中向量直接针对测试标签进行了优化。根据Google DeepMind的报告，现实世界中的语言约束嵌入预计会更快地失败。为了证明这一限制，Google DeepMind引入了极限基准，该基准旨在压力测试嵌入者。限制基准包括两种配置：限制完整和限制小。极限完整配置由50,000个文档组成，即使是强大的嵌入式的性能崩溃，召回@100通常下降到20％以下。限制小型配置（仅包含46个文档）仍然对模型构成挑战。性能差异很大，远离可靠。测试限制的特定结果小配置包括：POMBPTRIEVER LLAMA3 8B实现了54.3％的召回@2，并具有4096个维度。 Gritlm 7b获得了38.4％的召回@2，也有4096个维度。使用4096个维度，E5-属性7B召回了29.5％的召回@2。双子座的嵌入方式达到了33.7％的召回@2，其中3072个维度。研究表明，即使只有46个文档，也没有嵌入者可以完全召回，这强调了限制源于单矢量嵌入体系结构本身，而不仅仅是数据集大小。相比之下，经典的稀疏词汇模型BM25规避了这一限制。稀疏模型在有效无界的维空间中运行，从而促进了密集嵌入无法有效代表的组合的捕获。当前的RAG实现通常假定嵌入可以随着数据量增加而无限期地扩展。 Google DeepMind的研究证明了这一假设的不正确性，表明嵌入尺寸固有地限制了检索能力。该约束显着影响企业搜索引擎管理数百万个文档，依赖复杂逻辑查询的代理系统以及遵循指令的检索任务，而查询动态定义相关性。现有的基准（例如MTEB）不能充分捕获这些限制，因为它们仅测试了查询文档组合的狭窄子集。研究小组建议，可扩展的检索需要超越单矢量嵌入。单矢量嵌入的替代方案包括交叉编码器，通过直接评分查询文档对，在极限基准上获得了完美的回忆，尽管推理潜伏期很高。多矢量模型（例如Colbert）通过分配每个序列的多个向量来提供更具表现力的检索，从而提高了极限任务的性能。稀疏模型，包括BM25，TF-IDF和神经稀疏的猎犬，在高维搜索方面更好地扩展，但缺乏语义概括。关键发现是建筑创新，而不是简单地增加嵌入尺寸，这是必不可少的。研究小组的分析表明，尽管使用广泛使用，但密集的嵌入受数学限制的限制。一旦语料库大小超过与嵌入维度相关的限制，密集的嵌入将无法捕获所有可能的相关性组合。限制基准测试了这种限制，召回@100在限制完整的20％以下（50,000个文档）下降到20％以下，甚至最大的最大模型以大约54％的召回@2上的限制限制（46个文档）。 BM25或更新的架构（例如多矢量检索器和交叉编码器）等古典技术对于大规模构建可靠检索引擎至关重要。

特色图像信用

No Result