中国人工智能实验室 DeepSeek 宣布发布其 DeepSeek-R1-Lite-Preview 模型,声称该模型可与 OpenAI 的 o1 模型相媲美。新模型提供了一个独特的功能:推理过程透明,让用户可以看到其逐步解决问题的方法。该公告是在 OpenAI 推出其产品两个月后发布的 o1-预览 模型,凸显了人工智能推理领域日益激烈的竞争。
DeepSeek推出推理模型与OpenAI竞争
DeepSeek-R1-Lite-Preview 可以通过网络聊天机器人访问, 深度搜索聊天,用户可以在其中与模型交互,每天限制为 50 条消息。虽然详细的基准测试和模型卡尚未发布,但早期评估表明推理模型的性能可与 OpenAI 在 AIME 和 MATH 任务上的基准测试相媲美。 DeepSeek 声称它在 MATH 基准上达到了 91.6% 的最先进准确率。
DeepSeek-R1 的推出正值人工智能中的传统缩放定律(该定律表明增加数据和计算能力将提高性能)开始显示出收益递减。为此,公司正在寻求新的方法,例如 DeepSeek-R1 等底层推理模型。与传统模型不同,推理模型在推理过程中扩展了其计算处理,以增强决策能力。
尽管其功能很有前景,但新模型还遵守中国人工智能技术中常见的严格审查协议。观察证实,DeepSeek-R1 避免了敏感的政治话题,例如有关习近平或台湾的询问。用户报告了绕过这些限制的成功尝试,允许模型在某些情况下提供未经过滤的内容。这方面提出了关于在政府严格监管的地区开发的人工智能模型的功能和监管合规性之间的平衡的持续问题。
DeepSeek 声称,其 DeepSeek-R1 模型(或更具体地说,DeepSeek-R1-Lite-Preview)在两个著名的人工智能基准 AIME 和 MATH 上与 OpenAI 的 o1-preview 模型相匹配。 AIME 使用其他 AI 模型评估模型的性能,而 MATH 使用一系列应用题测试问题解决能力。然而,该模型也有其缺点。 X 上的一些用户 指出 DeepSeek-R1 与 o1 一样,面临着井字棋和其他基于逻辑的任务的挑战。
展望未来,DeepSeek 计划发布其 R1 模型的开源版本,并通过 API 扩展访问范围,继续其对开源 AI 社区的承诺。该公司得到 High-Flyer Capital Management 的支持,该管理公司遵循将人工智能融入交易决策的战略。 High-Flyer 的业务包括对硬件基础设施的大量投资,并拥有用于模型训练的 Nvidia A100 GPU 集群。
特色图片来源: 深度搜索