最近的一项研究表明,尽管大型语言模型能够处理复杂的编码和推理任务,但在没有专门的训练方法的情况下,大型语言模型一直难以应对多位数乘法。研究发表在 arXiv 芝加哥大学的Xiaoyan Bai和Chenhao Tan以及来自麻省理工学院、哈佛大学、滑铁卢大学和Google DeepMind的合作者的预印本服务器确定了这一限制的原因并找到了解决方案。标准大型语言模型在将两个四位数相乘时,即使层数增加到 12,精度仍低于 1%。这些模型收敛于“局部最优”,无法存储和检索多位数乘法所需的中间计算,这些计算被归类为远程依赖性。相反,使用隐式思维链 (ICoT) 方法训练的模型实现了 100% 的准确率。 ICoT 模型展示了跟踪远程依赖性并通过在训练期间逐渐删除中间推理步骤来内化推理过程的能力。研究团队从 ICoT 模型的内部状态中解码出中间值,例如运行总和,这对于标准微调模型来说是不可能的。 ICoT 模型将其注意力组织成不同的路径,计算早期层中数字对的乘积,并将它们存储在特定位置以便在后面层中检索。这创建了一个有效的乘法内部结构。研究还发现,ICoT 模型使用优雅的结构来表示运算,将数字编码为波状模式(傅立叶基)并在空间上组织算术。在数字对相乘的过程中,该模型自然地利用了一种称为明可夫斯基和的几何运算,该运算并未由研究人员明确编程。研究人员通过引入修改后的训练目标,教会模型跟踪每一步的运行总和,从而将中间值和部分乘积向前推进,从而在两层模型中实现了 99% 的准确率。这一补充使该模型能够开发类似于 ICoT 的机制,包括存储和检索部分产品以及同时跟踪多个数字对。谭辰浩说:“我们的研究正在试图绘制出那个地形图。”该研究强调,架构见解和培训技术可以克服仅靠扩展无法解决的障碍,并强调内置指导在推进人工智能功能方面的重要性。这些发现阐明了大型语言模型如何学习和“思考”的基本方面,长期依赖问题从算术扩展到语言建模中的其他顺序任务。




