大型语言模型(LLM)的兴起无非是变革性。这些AI系统在复杂的推理方面表现出色,将问题分解为结构化的逻辑步骤,称为 经过思考链(COT)推理。但是,随着AI研究推动效率,一个关键问题出现了: 较小的模型可以通过从较大的模型中蒸馏而继承这些高级推理功能吗?
一个新 学习 由Yuetai Li,Xiang Yue,Zhangchen Xu,Fengqing Jiang,Luyao Niu,Bill Yuchen Lin,Bhaskar Ramasubramanian和华盛顿大学,卡内基梅隆大学和西部华盛顿大学的华盛顿大学的Radha Poovendran提出了比以前更为复杂的。在研究中称为“小型模型努力向有力的推理者学习,”研究人员已经确定了他们所说的 小型模型可学习性差距– 小型模型(≤3b参数)难以从其较大对应物的复杂推理中受益的现象。相反,这些模型在接受培训时表现更好 较短,更简单的推理步骤 或从其他 小型型号。
这一发现挑战了传统的信念,即 更大总是更好 当涉及AI知识转移时。该研究还提出了 AI蒸馏的新方法– 将推理复杂性混合在一起以帮助较小的模型更有效地学习。
为什么小型AI模型在复杂的推理中挣扎
llms GPT-4O,Claude 3 Opus和Gemini 在大规模数据集上接受培训,并进行了优化以处理复杂的推理链。他们的逐步解释提高了诸如等领域的问题的准确性 数学,逻辑推断和结构化决策。
自然,AI研究人员试图 “收缩” 这种智能成较小的型号 – 使用较大型号的输出对其进行调节。这个想法很简单:训练较小的模型 长而详细的推理痕迹 由较大的AI产生,希望它能吸收相同的结构化逻辑。
但是研究发现了这种方法 经常适得其反。
- 小型模型无法内化长期的推理步骤:接受训练 冗长而复杂的解释,较小的模型努力概括,导致性能下降。
- 他们从更简单的推理链中学习得更好:训练小型模型 较短,更简洁的推理序列 提高他们处理逻辑步骤的能力。
- 更大并不总是更好地教AI:大型模型生成的推理链并不总是改善较小的模型的推理,有时它们会阻碍它。
这种效果在 与数学相关的任务,结构化解决问题的地方起着至关重要的作用。研究小组评估了各种基准的小型模型,包括 Math,GSM8K,AIME,AMC和OlympiaDbench,发现复杂的推理蒸馏通常导致性能下降。
修复:混合蒸馏
解决这个问题 学习瓶颈,研究人员提出了 混合蒸馏 方法。这种方法不是专门训练长床序列或从大型模型中提取的小型模型,而是这种方法 平衡推理的复杂性 通过结合多种推理方式。
他们的策略包括两种配置:
- 混合:结合 短而长的推理链,确保小型模型既可以接触到详细和简化的逻辑。
- 混合:合理步骤的融合 大小车型,优化知识转移而不会压倒较小的模型。
实验表明 混合蒸馏可显着改善小型模型推理 与单源数据的培训相比。
例如:
- QWEN2.5-3B-INSTRUCT 改进 8点以上 在数学和AMC基准上使用 混合,与仅培训长COT数据相比。
- 获得的相同模型 7+点 使用 混合,与大型教师模型的直接蒸馏相比。
外卖? 小型模型不需要逐字模仿大型模型 – 它们需要精心策划的推理复杂性。
特色图片来源: KeremGülen/Midjourney