获得大型语言模型(LLM)来推理更好的原因是一回事。让他们做到这一点而不会通过荒谬的计算而燃烧。 Tu Darmstadt,UCLA,Google DeepMind和Mila的一份新研究论文深入研究了这一权衡 – 可能只会改变AI开发人员在测试时考虑扩展推理的方式。
核心张力? LLM是否应该花费他们的计算产生更多答案(所谓的自洽或SC),还是使用生成奖励模型(GenRMS)验证一些有希望的答案。事实证明,选择错误可以使您的模型浪费的计算最多增加了128倍 – 几乎没有明显的性能颠簸。
大规模推理的新数学
GPT-4,Llama或Qwen等LLM通过产生多个思想链(COTS)并选择最常见的结果来解决数学和科学问题。这就是SC背后的想法 – 人群的蛮力智慧。但是,研究人员也对GenRM感到兴奋,GenRM是一种新的方法,可以通过进一步的思想推理来验证答案,从而使LLM像他们自己的法官一样行事。
以前的比较使GenRM看起来非常有效:匹配SC的精度具有较少的解决方案。但是本文称这是框架的 – 很难。为什么?因为没有人计算所有这些验证步骤的真实计算成本。
计算预算改变了一切
这项研究介绍了一个干净的框架,用于测量固定计算预算下的SC和GenRM方法的实际成本。它是这样的工作:您可以花费计算生成更多答案(SC),或者将预算分配在一些答案和许多验证之间(GENRM)。他们用于计算总推断计算的模型简单简单:c(s,v)= s(1 +λv),其中s是解决方案的数量,v verification verifications的数量,并且λ反映了相对于解决方案的验证长度。
残酷的结果:SC仍然是国王(除非您有钱)
实验毫无疑问。在7B到70B参数以及在数学和科学推理任务中,整个骆驼和QWEN模型中,故事重复:SC在较低的计算预算下胜过GenRM。只有当计算缩放量表超过8×时,才能赶上。而获得适度的3.8%的性能提高SC需要更令人垂涎的128×更多计算。
对于QWQ-32B(例如QWQ-32B)以及像AIME24(例如Aime24)的高级“思考模型”,该结果甚至可以保持不变。当计算紧张时,SC赢了。 GENRM仅在计算实际上是免费的时才有意义 – 或当问题如此困难以至于验证巨大的回报。
IEA警告:AI可以在2030年之前将全球数据中心的能源使用加倍
使用GenRM的明智方法(如果必须的话)
尽管如此,这项研究并没有完全消除GENRM。实际上,它得出 推理缩放法律 对于GENRM – 用于解决最佳问题的蓝图。关键发现?缩放GENRM时,将计算分配给生成溶液的速度比验证快于1.5至2倍。在数字上,他们的缩放定律发现了最佳的解决方案计数尺度,其计算预算为s∝c^0.57,而最佳验证量表则为v∝C^0.39。
这项研究使从业者提供了非常实用的指南:如果计算有限,请信任SC,并将其用于生成更多的解决方案。如果计算丰富,尤其是如果您要处理更艰难的推理任务,则使用具有正确缩放平衡的GENRM可能值得 – 但只有认真的优化。
对于面临现实世界约束的AI开发人员而言,除非您拥有近乎无限的资源,否则收获几乎是可笑的:更多的想法会更加验证。即使那样,验证仍需要聪明,高效且最少。
完整的纸,“何时求解,何时验证:Compute – 最佳问题解决和LLM推理的生成验证,” arxiv。他们的代码库是开放的 github。