大型语言模型非常强大,但非常神秘。尽管从代码到诗歌的所有内容都令人惊叹,但我们仍然不完全了解它们如何表示含义或产生回应。在巨大的重量和代币中,实际上会发生什么?
一份名为“量子LLM提出了一个大胆的想法:也许我们可以通过借用量子力学的语言来理解LLM。不是因为LLMS实际上是量子系统,而是因为它们的语义行为可能会通过诸如叠加,波浪函数和仪表字段(仪表函数和仪表范围)(物理学家用来描述颗粒和能量状态的工具)进行更好的建模。
关于意义的新镜头
动机很简单。 LLM在我们难以描述的高维空间中构建,难以解释和运作是昂贵的。另一方面,量子力学充满了精致的数学,旨在推理并非一件事或另一件事的状态,这与LLMS如何融合多种含义和解释含糊的语言的自然相似。
研究人员认为,有关LLMS的某些假设与量子系统的建模方式令人惊讶。通过列出六个核心原则,它们建立了理论基础,用于处理LLM内部的语义表示,就好像它们是量子波函数在复杂的空间中移动一样。
六个量子启发的原则:
- 词汇是一个完整的基础: LLM的词汇可以像一组离散的基础向量一样对待。任何含义,无论多么细微,都可以近似为这些词汇令牌的叠加。例如,“深刻的悲伤”可能由“悲伤”,“忧郁”和“绝望”组成。
- 语义空间是一个复杂的希尔伯特空间: 就像在量子力学中,状态生活在复杂空间中一样,该模型也提出应将LLM的嵌入空间扩展到包括假想的维度。这允许语义含义不仅具有幅度,还可以携带阶段 – 一种编码微妙的上下文变化的方式。
- 离散语义状态: 令牌是意义的量子单位。由于LLM在离散令牌上运行,因此可以将语义状态建模为量化,类似于能量水平在物理学中的工作方式。即使语义空间感觉连续,它也最终被切成有限的令牌大小的单元。
- Schrödinger样进化: 可以使用Schrödinger样方程来描述LLM内部意义的演变 – 这意味着语义状态随着时间的流逝而彼此流动和干扰,就像粒子的波函数随着空间的移动而变化。
- 通过潜在功能的非线性行为: 为了反映LLM中的实际非线性(例如注意层和激活功能),该模型引入了非线性Schrödinger方程和特殊潜力,例如双孔或墨西哥帽子。这些描述了在添加上下文时,模棱两可的单词如何崩溃成单个含义。
- 语义电荷和仪表字段: 单词是分配语义指控的,它们的相互作用受到上下文“量规字段”的调节,即从物理学借来的数学工具以确保一致性。这种形式主义允许在句子上进行远程互动,同时保持整体含义稳定。
研究人员认为,含义是通过变压器模型的体系结构传播的波浪。令牌的质量决定了它对通过上下文改变的抵抗力。例如,“ the”一词几乎没有改变含义,而像“银行”这样的单词可以根据周围的提示向许多方向倾斜。这类似于质量在物理学中的惯性。
句子的波函数逐层演变为由注意力头塑造的,就像量子粒子的轨迹被田地和力形成一样。上下文就像势能景观一样,将语义波轻轻地转向一种解释或另一种解释。
当一个单词意味着两件事时会发生什么?该模型提供了一个优雅的类比。起初,这个词位于潜在景观的顶峰 – 在多种含义之间平衡。随着句子的其余部分的展开,上下文将含义推向一个山谷或另一个山谷,将歧义倒入特定状态。
这在数学上以双孔潜力表示,这是一种物理学的经典概念,用于描述可以定位为两个稳定状态之一的系统。在LLM中,这有助于解释“低音”(鱼或仪器)之类的单词如何根据周围线索迅速解决正确的含义。
语义电荷和远程互动
本文中最吸引人的部分也许是引入语义指控 – 一种衡量单词在句子中带来的影响的程度。具有强烈情感或重要性的言语具有很高的费用。常见或通用术语的含量较少。
为了处理这些电荷如何在句子或对话中相互作用,该模型从量子场理论借用了称为量规不变性的概念。它可以确保即使各个部分相互作用或转移,总的语义含义也保持一致。这也解释了LLM如何在许多层和令牌中保持一个连贯的话题。
作者将单词嵌入重新解释为较深量子状态的经典近似值。注意机制成为重新分布令牌之间的语义重量的力载体。他们没有孤立地查看每一层,而是建议将模型的操作视为时间演变 – 每个步骤都重塑了含义的波浪函数。
他们还执行尺寸分析,将物理风格的单元分配给语义时间,距离和电荷等变量。例如,语义惯性衡量一个概念对新上下文改变的耐药性,而语义电荷则控制着它在发电期间的影响力。
为什么这很重要
这不是关于LLM是量子计算机。相反,这是关于使用量子力学的精度和抽象来更好地描述这些语言模型在做什么,尤其是在对歧义,上下文和规模上的含义进行建模时。
更重要的是,该论文暗示,量子启发的算法将来可以改善LLM。如果这些模型确实表现得像语义波功能,那么量子计算可能有一天会更有效地模拟它们,甚至解锁新的推理。
即使量子类比是隐喻的,它也为主导深度学习的黑盒心态提供了令人信服的替代方法。通过使假设明确并引入可测量的变量(例如语义电荷和惯性),该框架可以为更加可解释和有效的LLM设计铺平道路。
从长远来看,桥接LLM和量子力学也可能会使我们更加接近回答一个更深入的问题:不仅是语言模型的工作方式,而且是含义本身是如何源于结构,互动和上下文。毕竟,这是一个谜,长期以来一直着迷于物理学家和语言学家。