为什么在验证时投掷更多的AI计算可能是一个错误

获得大型语言模型（LLM）来推理更好的原因是一回事。让他们做到这一点而不会通过荒谬的计算而燃烧。 Tu Darmstadt，UCLA，Google DeepMind和Mila的一份新研究论文深入研究了这一权衡 – 可能只会改变AI开发人员在测试时考虑扩展推理的方式。

核心张力？ LLM是否应该花费他们的计算产生更多答案（所谓的自洽或SC），还是使用生成奖励模型（GenRMS）验证一些有希望的答案。事实证明，选择错误可以使您的模型浪费的计算最多增加了128倍 – 几乎没有明显的性能颠簸。

大规模推理的新数学

GPT-4，Llama或Qwen等LLM通过产生多个思想链（COTS）并选择最常见的结果来解决数学和科学问题。这就是SC背后的想法 – 人群的蛮力智慧。但是，研究人员也对GenRM感到兴奋，GenRM是一种新的方法，可以通过进一步的思想推理来验证答案，从而使LLM像他们自己的法官一样行事。

以前的比较使GenRM看起来非常有效：匹配SC的精度具有较少的解决方案。但是本文称这是框架的 – 很难。为什么？因为没有人计算所有这些验证步骤的真实计算成本。

计算预算改变了一切

这项研究介绍了一个干净的框架，用于测量固定计算预算下的SC和GenRM方法的实际成本。它是这样的工作：您可以花费计算生成更多答案（SC），或者将预算分配在一些答案和许多验证之间（GENRM）。他们用于计算总推断计算的模型简单简单：c（s，v）= s（1 +λv），其中s是解决方案的数量，v verification verifications的数量，并且λ反映了相对于解决方案的验证长度。

残酷的结果：SC仍然是国王（除非您有钱）

实验毫无疑问。在7B到70B参数以及在数学和科学推理任务中，整个骆驼和QWEN模型中，故事重复：SC在较低的计算预算下胜过GenRM。只有当计算缩放量表超过8×时，才能赶上。而获得适度的3.8％的性能提高SC需要更令人垂涎的128×更多计算。

对于QWQ-32B（例如QWQ-32B）以及像AIME24（例如Aime24）的高级“思考模型”，该结果甚至可以保持不变。当计算紧张时，SC赢了。 GENRM仅在计算实际上是免费的时才有意义 – 或当问题如此困难以至于验证巨大的回报。

IEA警告：AI可以在2030年之前将全球数据中心的能源使用加倍

使用GenRM的明智方法（如果必须的话）

尽管如此，这项研究并没有完全消除GENRM。实际上，它得出 推理缩放法律 对于GENRM – 用于解决最佳问题的蓝图。关键发现？缩放GENRM时，将计算分配给生成溶液的速度比验证快于1.5至2倍。在数字上，他们的缩放定律发现了最佳的解决方案计数尺度，其计算预算为s∝c^0.57，而最佳验证量表则为v∝C^0.39。

这项研究使从业者提供了非常实用的指南：如果计算有限，请信任SC，并将其用于生成更多的解决方案。如果计算丰富，尤其是如果您要处理更艰难的推理任务，则使用具有正确缩放平衡的GENRM可能值得 – 但只有认真的优化。

对于面临现实世界约束的AI开发人员而言，除非您拥有近乎无限的资源，否则收获几乎是可笑的：更多的想法会更加验证。即使那样，验证仍需要聪明，高效且最少。

完整的纸，“何时求解，何时验证：Compute – 最佳问题解决和LLM推理的生成验证，” arxiv。他们的代码库是开放的 github。

特色图像信用

Tags: LLMS 人工智能

为什么在验证时投掷更多的AI计算可能是一个错误

Related Posts

人工智能研究工具可能会造成比他们解决的更多问题

您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊？

微软的阿黛尔（Adele）想给您的AI认知概况

Apple Research论文揭示了3D内容生成的Matrix3D

研究：Genai评估的黄金标准

AI终于解决了生物学最难的难题

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

为什么在验证时投掷更多的AI计算可能是一个错误

大规模推理的新数学

计算预算改变了一切

残酷的结果：SC仍然是国王（除非您有钱）

使用GenRM的明智方法（如果必须的话）

Related Posts

人工智能研究工具可能会造成比他们解决的更多问题

您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊？

微软的阿黛尔（Adele）想给您的AI认知概况

Apple Research论文揭示了3D内容生成的Matrix3D

研究：Genai评估的黄金标准

AI终于解决了生物学最难的难题

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us