大型语言模型(LLM)已改变了AI解决推理问题的方式,从回答棘手的数学问题到使人类语言含糊不清。但是有一个捕捉 – 当推理变得太复杂时,这些模型通常会挣扎。单个AI可能会陷入本地决策陷阱,仅仅因为它不知道它不知道的问题而缺少更好的解决方案。
由香港大学和上海AI实验室的一组研究人员,由Sen Yang,Yafu Li,Wai Lam和Yu Cheng领导,提出了一种解决方案: 搜索代理(MOSA)的混合物。这种方法允许多个AI模型一起工作,利用其组合优势来解决复杂的推理问题。 MOSA不仅依靠一个模型的观点,还可以使不同的AI代理探索各种推理路径并改善彼此的答案。
他们的发现,在研究中提出“多LLLM协作搜索复杂的问题解决,”证明这种方法可显着提高数学和常识性推理任务中的AI准确性。
为什么AI模型在复杂的推理方面挣扎?
从本质上讲,推理涉及将问题分解为较小的步骤,并探索不同的路径以找到最佳解决方案。传统基于搜索的方法,例如 广度优先搜索(BFS) 或者 深度优先搜索(DFS),帮助AI系统地导航这些路径。但是即使采用了类似的高级技术 经过思考链(COT)推理,在模型逐步分解他们的思考过程的地方,单个LLM仍然可以遇到限制:
- 有限的探索:AI模型往往会陷入熟悉的推理模式,无法探索替代解决方案。
- 语言的歧义:自然语言本质上是含糊的,因此AI很难正确评估所有可能的解释。
- 多样性和准确性之间的权衡:调整AI的温度(随机生成答案)有助于引入多样性,但通常以精确成本为代价。
MOSA旨在通过组装多个AI模型来协作推理任务,确保更广泛的探索,同时保持准确性,以解决这些问题。
MOSA如何工作?
MOSA建立在一种著名的搜索技术的基础上 蒙特卡洛树搜索(MCTS),通常用于AI游戏策略。在典型的MCT设置中,AI探索了不同的动作,从过去的结果中学习以改善其决策。 MOSA通过将多个LLM集成到搜索中,从而增强了这一过程,每个LLM都充当独立的推理药物。
这是Mosa策划合作的方式:
- 多样化的搜索探索:每个AI代理都提出了不同的推理路径,从而增加了搜索方向的多样性。
- 逐步改进:AI代理分析和完善彼此的推理步骤,从而减少错误。
- 汇总决策:MOSA不依赖单个AI的输出,而是从多个模型中汇总了最佳贡献,从而确保了更可靠的结论。
通过使用具有不同训练数据和优势的多个模型,MOSA可防止任何单个AI主导决策过程,避免局部优化陷阱。
MOSA如何击败单个AI模型
为了测试MOSA的有效性,研究人员进行了四个众所周知的推理基准的实验:
- GSM8K (年级数学单词问题)
- svamp (语言结构变化的数学推理)
- Math-500 (用于高级数学问题的具有挑战性的数据集)
- StrategyQa (常识性推理问题)
结果很明显:MOSA始终优于单代理AI模型和现有的多代理基线。
- 在 Math-500,MOSA是最艰难的数据集之一,提高了准确性 1.8% 超过以前的最佳方法。
- 集成多个LLM时,MOSA显示 提高1.71% 与传统的单模搜索相比,总体推理准确性。
- AI团队越多样化,结果就越好 – 添加了更多的LLM,进一步提高了性能。
研究强调了一个重要趋势: AI合作通常比AI竞争更有效。正如人类在团队中工作以解决复杂的问题一样,AI模型可以在一起工作时彼此的优势。这对需要深厚推理的领域具有深远的影响,包括:
- 自动化科学发现:AI合作可以加快材料科学,药物发现和物理学的突破。
- 高级辅导系统:类似MOSA的方法可以使AI驱动的学习助手更加准确和乐于助人。
- 法律和财务分析:多代理AI可以通过交叉检查推理途径来增强合同分析,财务预测和风险评估。
AI可以防御自己的错误吗?
Mosa最有前途的方面之一是它捕获和纠正错误的能力。单个AI模型通常会自信地产生错误,从而难以检测。但是,随着多个AI代理人审查彼此的工作,错误的可能性较小。研究小组还引入了 神经聚集器,将不同推理路径的最佳方面合并为更精致的最终答案的AI函数。
特色图片来源: 安德森·瑞安(Anderson Rian)/Unsplash