DeepSeek 在 V4 之前在 GitHub 更新中揭示了 MODEL1 架构

DeepSeek 通过最近对其 FlashMLA 代码库的更新揭示了名为“MODEL1”的新模型的详细信息 GitHub。标识符“MODEL1”在存储库中的 114 个文件中出现了 28 次，标志着该公司 R1 发布一周年之际的披露。此前有报道称 DeepSeek 计划于 2026 年 2 月中旬（农历新年）左右发布其下一代 V4 模型。开发人员对更新后的代码库的分析表明，MODEL1 具有与 DeepSeek-V3.2 不同的架构，在存储库中代号为“V32”。代码逻辑差异表明键值缓存布局、稀疏性处理和 FP8 数据格式解码发生了变化，表明需要进行重组以实现内存优化和计算效率。 Reddit LocalLLaMA 社区的研究人员著名的 FlashMLA 源代码更新添加了广泛的 MODEL1 支持，包括与 Nvidia 即将推出的 Blackwell 架构 (SM100) 和当前 Hopper 芯片的兼容性。据报道，这些变化表明 MODEL1 恢复到统一的 512 标准维度，并引入了“值向量位置感知”功能，以及 DeepSeek 最近发布的“Engram”条件记忆系统的潜在实现。 FlashMLA 存储库包含针对 Nvidia Hopper GPU 优化的 DeepSeek 多头潜在注意力解码内核，是技术线索的来源。 DeepSeek 的 V4 模型预计将集成 Engram 架构，该架构通过利用基础事实的查找系统而不是通过计算重新计算它们，从而有助于从超过 100 万个标记的上下文中进行高效检索。据报道，DeepSeek 员工的内部测试表明，V4 在编码基准方面可能优于 Anthropic 和 OpenAI 的竞争对手模型，特别是在长代码提示的情况下。 MODEL1 曝光之际，DeepSeek 自 2025 年 1 月推出 R1 以来已接近一年。据 ITPro 称，R1 的发布导致 Nvidia 市值单日减少 5930 亿美元。据报道，DeepSeek 的 R1 模型的训练成本不到 600 万美元，在数学和编码基准方面的性能与 OpenAI 的 o1 模型相当或超过。该公司随后于 8 月发布了 V3.1，并于 12 月发布了 V3.2，V3.2 据称提供与 OpenAI 的 GPT-5 相当的性能。 DeepSeek 尚未正式对 MODEL1 发表评论，也未确认 V4 的具体发布时间。

特色图片来源

No Result