Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

DeepSeek 为 R2 引入流形约束超连接

Kerem GülenbyKerem Gülen
6 1 月, 2026
in News, Research
Home News
Share on FacebookShare on Twitter

就在新的一年开始之前,人工智能界被介绍了模型训练方面的潜在突破。中国人工智能公司 DeepSeek 的研究团队发布了一项研究 纸 概述了一种称为流形约束超连接(Manifold-Constrained Hyper-Connections)(简称 mHC)的新颖架构方法。这种新方法可以为工程师提供构建和扩展大型语言模型的途径,而无需通常所需的过高的计算成本和资本。

一年前,随着 R1 的发布,DeepSeek 首次引起了文化的关注。该模型的能力可与 OpenAI o1 的功能相媲美,但据报道其训练成本仅为 OpenAI o1 的一小部分。这一发布令美国开发商感到震惊,因为它挑战了只有大量资本和硬件储备才能产生尖端人工智能的假设。新发表的 mHC 论文托管在预印本服务器 arXiv 上,可以作为 DeepSeek 即将推出的模型 R2 的技术框架。 R2 型号原本预计于 2025 年中期推出,但据报道由于首席执行官梁文峰对性能以及中国获得先进人工智能芯片的机会有限的担忧而被推迟。

这篇新论文试图弥合目前阻碍人工智能可扩展性的复杂技术差距。大型语言模型建立在神经网络的基础上,旨在保存多层信号。然而,随着模型的增长和更多层的添加,信号可能会衰减或降级,从而增加其变成噪声的风险。研究人员将其比作“电话”游戏:参与链条的人越多,原始消息变得混乱或改变的可能性就越大。核心工程挑战是优化可塑性和稳定性之间的权衡,确保信号在尽可能多的层中得到保存而不会退化。

该论文的作者,包括首席执行官梁文峰,将他们的研究建立在超连接(HC)的基础上,这是字节跳动研究人员于 2024 年推出的一个框架。标准 HC 使神经网络层共享信息的渠道多样化,但它们带来了信号丢失的风险,并且内存成本很高,使得它们难以大规模实施。 DeepSeek 的 mHC 架构旨在通过限制模型内的超连接来解决这个问题。这种方法保留了 HC 所带来的信息复杂性,同时避免了内存问题,即使对于资源有限的开发人员来说,也可以以一种实用的方式训练高度复杂的模型。

mHC 框架的首次亮相预示着人工智能发展演变的一个支点。直到最近,盛行的行业智慧还认为,只有最富有的公司才有能力建造前沿模型。 DeepSeek 继续证明,可以通过巧妙的工程设计而不是原始的财务力量来实现突破。通过发布这项研究,DeepSeek 已向小型开发人员提供了 mHC 方法,如果该架构在预期的 R2 模型中证明是成功的,则可能会实现高级 AI 功能的民主化。


特色图片来源

Tags: 人工智能深度搜索

Related Posts

JWST 识别出 SN Eos:光谱证实的最遥远的超新星

JWST 识别出 SN Eos:光谱证实的最遥远的超新星

21 1 月, 2026
Netflix 为 Star Search 直播首映推出实时互动投票

Netflix 为 Star Search 直播首映推出实时互动投票

21 1 月, 2026
Netflix 计划在 2026 年重新设计移动应用程序,以提高日常用户参与度

Netflix 计划在 2026 年重新设计移动应用程序,以提高日常用户参与度

21 1 月, 2026
OpenAI 通过行为年龄预测对青少年实施安全过滤

OpenAI 通过行为年龄预测对青少年实施安全过滤

21 1 月, 2026
Setapp Mobile 将于 2 月 16 日停止在欧盟的运营

Setapp Mobile 将于 2 月 16 日停止在欧盟的运营

21 1 月, 2026
谷歌与《普林斯顿评论》合作在 Gemini 推出免费 SAT 模拟考试

谷歌与《普林斯顿评论》合作在 Gemini 推出免费 SAT 模拟考试

21 1 月, 2026
Please login to join discussion

Recent Posts

  • JWST 识别出 SN Eos:光谱证实的最遥远的超新星
  • Netflix 为 Star Search 直播首映推出实时互动投票
  • Snap 支付数百万美元解决青少年成瘾诉讼
  • Anthropic首席执行官抨击美国和英伟达向中国销售人工智能芯片
  • Netflix 计划在 2026 年重新设计移动应用程序,以提高日常用户参与度

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.