Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Bytedance Vapo:您将很快听到的AI升级

Kerem GülenbyKerem Gülen
11 4 月, 2025
in Research
Home Research

野性种子研究人员推出了价值增强近端政策优化(VAPO),这是一个强化学习训练框架,旨在增强大型语言模型对复杂,冗长的任务的推理,从而在AIME24基准上实现了新的最先进的结果。

使用基于价值的强化学习以前面临的重大障碍,培训LLM用于复杂推理。在价值模型偏差方面挣扎的方法,有效地适应了长度变化的响应序列,并管理稀疏的奖励信号,尤其是在基于验证器的任务中,仅提供二进制反馈。

VAPO通过三个核心创新解决了这些挑战:基于详细的价值培训框架,一种基于响应长度的参数调整参数的长度自适应广泛优势估计(GAE)机制,以及先前研究的技术集成。

这种组合创建了一个系统,改进协同工作。使用没有特定SFT数据的QWEN2.5-32B模型,VAPO将基准分数从5到60提高,使以前的最新方法提高了10分。

VAPO建立在近端策略优化(PPO)算法的基础上,但结合了关键修改以增强数学推理。训练分析表明,与无价值DAPO方法相比,VAPO表现出更平滑的训练曲线,表明更稳定的优化。

VAPO还显示出更好的长度缩放,以改善概括,归因于其价值模型的颗粒信号的更快得分增长以及在以后的训练阶段的较低熵。虽然减少的熵可以潜在地限制探索,但该方法有效地平衡了这一问题,改善了可重复性和稳定性,并且性能影响最小。

bytedance-vapo-the-ai-upgrade-youll-about-about-soon
图像:bytedance种子

在AIME24基准测试中,DeepSeek R1使用GRPO获得47分,DAPO达到50分。使用QWEN-32B型号VAPO将DAPO的性能匹配,只有60%的更新步骤,并在5,000步中设置了60.4个新的最新分数。相比之下,由于价值模型学习崩溃,香草PPO仅得分仅为5分。


这个基准询问AI是否可以像工程师一样思考


消融研究证实了VAPO内七个不同修改的有效性。价值预言可防止模型崩溃;脱钩的GAE可以完全优化长响应;自适应GAE平衡了短而长的响应优化;剪贴高器鼓励彻底探索;令牌级别的损失增加了长时间反应的加权;合并示例LM损失增加了6分;小组采样为最终得分贡献了5分。

研究人员 强调 利用QWEN2.5-32B模型的VAPO表明,这种基于价值的方法可以果断地超过GRPO和DAPO等无价值的方法,从而为复杂的推理任务建立了新的绩效水平,并解决了长期陷入困境的现场训练价值模型中的基本挑战。


特色图像信用

Tags: vapo兽

Related Posts

人工智能研究工具可能会造成比他们解决的更多问题

人工智能研究工具可能会造成比他们解决的更多问题

14 5 月, 2025
您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

14 5 月, 2025
微软的阿黛尔(Adele)想给您的AI认知概况

微软的阿黛尔(Adele)想给您的AI认知概况

14 5 月, 2025
Apple Research论文揭示了3D内容生成的Matrix3D

Apple Research论文揭示了3D内容生成的Matrix3D

14 5 月, 2025
研究:Genai评估的黄金标准

研究:Genai评估的黄金标准

12 5 月, 2025
AI终于解决了生物学最难的难题

AI终于解决了生物学最难的难题

6 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.