Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Bytedance Vapo:您将很快听到的AI升级

Kerem GülenbyKerem Gülen
11 4 月, 2025
in 研究
Home 研究
Share on FacebookShare on Twitter
Google Preferred Source

野性种子研究人员推出了价值增强近端政策优化(VAPO),这是一个强化学习训练框架,旨在增强大型语言模型对复杂,冗长的任务的推理,从而在AIME24基准上实现了新的最先进的结果。

使用基于价值的强化学习以前面临的重大障碍,培训LLM用于复杂推理。在价值模型偏差方面挣扎的方法,有效地适应了长度变化的响应序列,并管理稀疏的奖励信号,尤其是在基于验证器的任务中,仅提供二进制反馈。

VAPO通过三个核心创新解决了这些挑战:基于详细的价值培训框架,一种基于响应长度的参数调整参数的长度自适应广泛优势估计(GAE)机制,以及先前研究的技术集成。

这种组合创建了一个系统,改进协同工作。使用没有特定SFT数据的QWEN2.5-32B模型,VAPO将基准分数从5到60提高,使以前的最新方法提高了10分。

VAPO建立在近端策略优化(PPO)算法的基础上,但结合了关键修改以增强数学推理。训练分析表明,与无价值DAPO方法相比,VAPO表现出更平滑的训练曲线,表明更稳定的优化。

VAPO还显示出更好的长度缩放,以改善概括,归因于其价值模型的颗粒信号的更快得分增长以及在以后的训练阶段的较低熵。虽然减少的熵可以潜在地限制探索,但该方法有效地平衡了这一问题,改善了可重复性和稳定性,并且性能影响最小。

bytedance-vapo-the-ai-upgrade-youll-about-about-soon
图像:bytedance种子

在AIME24基准测试中,DeepSeek R1使用GRPO获得47分,DAPO达到50分。使用QWEN-32B型号VAPO将DAPO的性能匹配,只有60%的更新步骤,并在5,000步中设置了60.4个新的最新分数。相比之下,由于价值模型学习崩溃,香草PPO仅得分仅为5分。


这个基准询问AI是否可以像工程师一样思考


消融研究证实了VAPO内七个不同修改的有效性。价值预言可防止模型崩溃;脱钩的GAE可以完全优化长响应;自适应GAE平衡了短而长的响应优化;剪贴高器鼓励彻底探索;令牌级别的损失增加了长时间反应的加权;合并示例LM损失增加了6分;小组采样为最终得分贡献了5分。

研究人员 强调 利用QWEN2.5-32B模型的VAPO表明,这种基于价值的方法可以果断地超过GRPO和DAPO等无价值的方法,从而为复杂的推理任务建立了新的绩效水平,并解决了长期陷入困境的现场训练价值模型中的基本挑战。


特色图像信用

Tags: vapo兽

Related Posts

研究人员将超快激光实验增强了 20 倍

研究人员将超快激光实验增强了 20 倍

3 6 月, 2026
民意调查显示 71% 的美国人认为人工智能进步太快

民意调查显示 71% 的美国人认为人工智能进步太快

20 5 月, 2026
NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

20 5 月, 2026
到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

20 5 月, 2026
研究发现,人工智能技能现在对于职位晋升和加薪至关重要

研究发现,人工智能技能现在对于职位晋升和加薪至关重要

20 5 月, 2026
新的磁性芯片设计可能超越当今的人工智能加速器

新的磁性芯片设计可能超越当今的人工智能加速器

19 5 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌钱包将于今年夏天添加来自部分欧盟国家的数字身份证
  • Google 向符合条件的 Workspace 用户推出了在 Drive 中询问 Gemini
  • 任天堂将在欧洲发布易于维修的 Switch 2
  • 英国立法者因 Grok 生成的深度伪造品起诉 xAI
  • 苹果开始在德克萨斯州执行年龄验证法

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.