Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

为什么在验证时投掷更多的AI计算可能是一个错误

Kerem GülenbyKerem Gülen
11 4 月, 2025
in Research
Home Research

获得大型语言模型(LLM)来推理更好的原因是一回事。让他们做到这一点而不会通过荒谬的计算而燃烧。 Tu Darmstadt,UCLA,Google DeepMind和Mila的一份新研究论文深入研究了这一权衡 – 可能只会改变AI开发人员在测试时考虑扩展推理的方式。

核心张力? LLM是否应该花费他们的计算产生更多答案(所谓的自洽或SC),还是使用生成奖励模型(GenRMS)验证一些有希望的答案。事实证明,选择错误可以使您的模型浪费的计算最多增加了128倍 – 几乎没有明显的性能颠簸。

大规模推理的新数学

GPT-4,Llama或Qwen等LLM通过产生多个思想链(COTS)并选择最常见的结果来解决数学和科学问题。这就是SC背后的想法 – 人群的蛮力智慧。但是,研究人员也对GenRM感到兴奋,GenRM是一种新的方法,可以通过进一步的思想推理来验证答案,从而使LLM像他们自己的法官一样行事。

以前的比较使GenRM看起来非常有效:匹配SC的精度具有较少的解决方案。但是本文称这是框架的 – 很难。为什么?因为没有人计算所有这些验证步骤的真实计算成本。

计算预算改变了一切

这项研究介绍了一个干净的框架,用于测量固定计算预算下的SC和GenRM方法的实际成本。它是这样的工作:您可以花费计算生成更多答案(SC),或者将预算分配在一些答案和许多验证之间(GENRM)。他们用于计算总推断计算的模型简单简单:c(s,v)= s(1 +λv),其中s是解决方案的数量,v verification verifications的数量,并且λ反映了相对于解决方案的验证长度。

残酷的结果:SC仍然是国王(除非您有钱)

实验毫无疑问。在7B到70B参数以及在数学和科学推理任务中,整个骆驼和QWEN模型中,故事重复:SC在较低的计算预算下胜过GenRM。只有当计算缩放量表超过8×时,才能赶上。而获得适度的3.8%的性能提高SC需要更令人垂涎的128×更多计算。

对于QWQ-32B(例如QWQ-32B)以及像AIME24(例如Aime24)的高级“思考模型”,该结果甚至可以保持不变。当计算紧张时,SC赢了。 GENRM仅在计算实际上是免费的时才有意义 – 或当问题如此困难以至于验证巨大的回报。


IEA警告:AI可以在2030年之前将全球数据中心的能源使用加倍


使用GenRM的明智方法(如果必须的话)

尽管如此,这项研究并没有完全消除GENRM。实际上,它得出 推理缩放法律 对于GENRM – 用于解决最佳问题的蓝图。关键发现?缩放GENRM时,将计算分配给生成溶液的速度比验证快于1.5至2倍。在数字上,他们的缩放定律发现了最佳的解决方案计数尺度,其计算预算为s∝c^0.57,而最佳验证量表则为v∝C^0.39。

这项研究使从业者提供了非常实用的指南:如果计算有限,请信任SC,并将其用于生成更多的解决方案。如果计算丰富,尤其是如果您要处理更艰难的推理任务,则使用具有正确缩放平衡的GENRM可能值得 – 但只有认真的优化。

对于面临现实世界约束的AI开发人员而言,除非您拥有近乎无限的资源,否则收获几乎是可笑的:更多的想法会更加验证。即使那样,验证仍需要聪明,高效且最少。

完整的纸,“何时求解,何时验证:Compute – 最佳问题解决和LLM推理的生成验证,” arxiv。他们的代码库是开放的 github。


特色图像信用

Tags: LLMS人工智能

Related Posts

人工智能研究工具可能会造成比他们解决的更多问题

人工智能研究工具可能会造成比他们解决的更多问题

14 5 月, 2025
您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

14 5 月, 2025
微软的阿黛尔(Adele)想给您的AI认知概况

微软的阿黛尔(Adele)想给您的AI认知概况

14 5 月, 2025
Apple Research论文揭示了3D内容生成的Matrix3D

Apple Research论文揭示了3D内容生成的Matrix3D

14 5 月, 2025
研究:Genai评估的黄金标准

研究:Genai评估的黄金标准

12 5 月, 2025
AI终于解决了生物学最难的难题

AI终于解决了生物学最难的难题

6 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.