12月5日,腾讯发布了混元2.0,这是一个总参数达4060亿的大型语言模型。此次更新的目标是通过专家混合架构和精细化训练方法在数学、编码和复杂推理方面取得进步。该模型有两种变体:思考和指导。其架构在每次推理期间激活 320 亿个参数,从而实现高效处理。它支持 256,000 个令牌的上下文窗口,允许处理大量输入而无需截断。腾讯将HY 2.0 Think定位为复杂推理任务的“国内顶尖”。该版本在多个评估领域均超越了其前身Hunyuan-T1-20250822。在IMO-AnswerBench数学基准测试中,HY 2.0 Think得分为73.4,体现了强大的数学领域解决问题能力。在软件工程评估中,SWE-bench Verified 基准的性能显着提高,从之前模型的 6.0 上升到 53.0。此增强功能展示了针对现实编程挑战生成和调试代码的更高准确性。 https://twitter.com/TencentHunyuan/status/1996948083377332614 腾讯将这些进步归功于预训练数据质量的改进和双阶段强化学习方法。该策略集成了 RLVR(带有可验证奖励的强化学习)和 RLHF(来自人类反馈的强化学习),前者使用客观指标进行训练,后者结合人类评估来完善输出。 HY 2.0 Think 采用长度惩罚策略来防止响应过于冗长,从而实现了腾讯所说的“行业领先”的每个代币的计算效率。该设计优化了生成过程中的资源使用,减少了处理时间和成本。编码和代理功能也取得了进步,Tau2-Bench 得分从 17.1 攀升至 72.4。这些指标评估自主任务执行和与代码相关的交互。集成扩展到腾讯的消费应用程序,例如元宝和ima,该模型增强了用户交互。开发者可以通过腾讯云API平台接入,进行自定义实现。腾讯计划开源相关技术和模型供社区使用。





