Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

DeepSeek发布R1模型,以$ 294,000的培训,可在512 H800 GPU上

Aytun ÇelebibyAytun Çelebi
19 9 月, 2025
in 人工智能
Home 消息 人工智能
Share on FacebookShare on Twitter
Google Preferred Source

这家中国公司DeepSeek AI发布了其大型语言型号R1,该模型仅使用512 NVIDIA H800 GPU接受了294,000美元的培训。在杂志上发表的论文中 自然,该公司详细介绍了如何通过使用反复试验的增强学习方法来实现低成本,从而使该模型能够针对拥有更大预算的竞争对手(例如OpenAI)实现竞争性能。

DeepSeek的强化学习方法如何有效

DeepSeek的主要创新是摆脱创建带注释的数据集的昂贵,人为密集型的过程。通常,用于推理任务的传统AI模型经常在大量数据集上进行培训,其中人类专家为复杂问题提供逐步解决方案。取而代之的是,DeepSeek开发了一种自主学习系统,该系统使用强化学习来通过奖励和惩罚系统来完善模型的推理技能。卡内基·梅隆大学(Carnegie Mellon University)的研究人员在《自然论文》(Nature Paper)随附的一篇文章中,将过程与学习视频游戏的儿童进行了比较。

“当孩子在游戏世界中导航自己的化身时,他们通过反复试验学习一些行动(例如收集金币)会赚取积分,而其他行动(例如,诸如跑入敌人)将他们的分数恢复到零。在类似的脉络中,DeepSeek-R1在正确回答问题时获得了很高的分数,而当它给出了错误的答案时,则获得了很高的分数。”

该方法对于数学和编程任务特别有效,在该任务中,可以将答案确定为对与错。该模型将产生潜在的解决方案,然后通过自动评分系统进行评估。然后,它将迭代其方法,直到达到最高分数,而无需人工干预。这一高效,自我指导的过程使该公司能够建立一个强大的AI系统,其竞争对手所需的投资一小部分。

对模型的局限性和关注

尽管强化学习方法被证明是具有成本效益的,但它也有一些局限性。该模型的输出通常隐藏了基本的推理步骤,因此很难理解其如何得出结论。当被要求提供推理时,R1产生了非常长而难以阅读的解释(有时超过10,000个单词)在英语和中文之间切换。该技术还在需要细微差别或主观性的任务上苦苦挣扎,而没有单一的“正确”答案。除了其技术局限性,该模式在中国的发展引起了人们对潜在政府影响的关注。 《华盛顿邮报》最近的一份报告发现,R1的产出表现出偏见。研究人员发现,当涉及中国当局认为敏感的群体的提示涉及的集体时,该模型将拒绝生成主要安全缺陷的代码。但是,当被要求为西藏,台湾或法轮锣宗教运动等实体创建代码时,该模型产生了具有内置漏洞的安全版本。这表明该模型的行为可能是由中国政府的政治优先事项塑造的。


特色图像信用

Tags: DeepSeek特色

Related Posts

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

3 6 月, 2026
微软推出 Project Solara,打造代理优先的未来

微软推出 Project Solara,打造代理优先的未来

3 6 月, 2026
谷歌将允许网站选择退出人工智能搜索结果

谷歌将允许网站选择退出人工智能搜索结果

3 6 月, 2026
OpenAI 通过企业插件和新站点功能扩展了 Codex

OpenAI 通过企业插件和新站点功能扩展了 Codex

3 6 月, 2026
Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

2 6 月, 2026
流行的 Codex 软件包被发现窃取身份验证凭据

流行的 Codex 软件包被发现窃取身份验证凭据

2 6 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.