这家中国公司DeepSeek AI发布了其大型语言型号R1,该模型仅使用512 NVIDIA H800 GPU接受了294,000美元的培训。在杂志上发表的论文中 自然,该公司详细介绍了如何通过使用反复试验的增强学习方法来实现低成本,从而使该模型能够针对拥有更大预算的竞争对手(例如OpenAI)实现竞争性能。
DeepSeek的强化学习方法如何有效
DeepSeek的主要创新是摆脱创建带注释的数据集的昂贵,人为密集型的过程。通常,用于推理任务的传统AI模型经常在大量数据集上进行培训,其中人类专家为复杂问题提供逐步解决方案。取而代之的是,DeepSeek开发了一种自主学习系统,该系统使用强化学习来通过奖励和惩罚系统来完善模型的推理技能。卡内基·梅隆大学(Carnegie Mellon University)的研究人员在《自然论文》(Nature Paper)随附的一篇文章中,将过程与学习视频游戏的儿童进行了比较。
“当孩子在游戏世界中导航自己的化身时,他们通过反复试验学习一些行动(例如收集金币)会赚取积分,而其他行动(例如,诸如跑入敌人)将他们的分数恢复到零。在类似的脉络中,DeepSeek-R1在正确回答问题时获得了很高的分数,而当它给出了错误的答案时,则获得了很高的分数。”
该方法对于数学和编程任务特别有效,在该任务中,可以将答案确定为对与错。该模型将产生潜在的解决方案,然后通过自动评分系统进行评估。然后,它将迭代其方法,直到达到最高分数,而无需人工干预。这一高效,自我指导的过程使该公司能够建立一个强大的AI系统,其竞争对手所需的投资一小部分。
对模型的局限性和关注
尽管强化学习方法被证明是具有成本效益的,但它也有一些局限性。该模型的输出通常隐藏了基本的推理步骤,因此很难理解其如何得出结论。当被要求提供推理时,R1产生了非常长而难以阅读的解释(有时超过10,000个单词)在英语和中文之间切换。该技术还在需要细微差别或主观性的任务上苦苦挣扎,而没有单一的“正确”答案。除了其技术局限性,该模式在中国的发展引起了人们对潜在政府影响的关注。 《华盛顿邮报》最近的一份报告发现,R1的产出表现出偏见。研究人员发现,当涉及中国当局认为敏感的群体的提示涉及的集体时,该模型将拒绝生成主要安全缺陷的代码。但是,当被要求为西藏,台湾或法轮锣宗教运动等实体创建代码时,该模型产生了具有内置漏洞的安全版本。这表明该模型的行为可能是由中国政府的政治优先事项塑造的。