Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

DeepSeek 为 R2 引入流形约束超连接

Kerem GülenbyKerem Gülen
6 1 月, 2026
in 消息, 研究
Home 消息
Share on FacebookShare on Twitter
Google Preferred Source

就在新的一年开始之前,人工智能界被介绍了模型训练方面的潜在突破。中国人工智能公司 DeepSeek 的研究团队发布了一项研究 纸 概述了一种称为流形约束超连接(Manifold-Constrained Hyper-Connections)(简称 mHC)的新颖架构方法。这种新方法可以为工程师提供构建和扩展大型语言模型的途径,而无需通常所需的过高的计算成本和资本。

一年前,随着 R1 的发布,DeepSeek 首次引起了文化的关注。该模型的能力可与 OpenAI o1 的功能相媲美,但据报道其训练成本仅为 OpenAI o1 的一小部分。这一发布令美国开发商感到震惊,因为它挑战了只有大量资本和硬件储备才能产生尖端人工智能的假设。新发表的 mHC 论文托管在预印本服务器 arXiv 上,可以作为 DeepSeek 即将推出的模型 R2 的技术框架。 R2 型号原本预计于 2025 年中期推出,但据报道由于首席执行官梁文峰对性能以及中国获得先进人工智能芯片的机会有限的担忧而被推迟。

这篇新论文试图弥合目前阻碍人工智能可扩展性的复杂技术差距。大型语言模型建立在神经网络的基础上,旨在保存多层信号。然而,随着模型的增长和更多层的添加,信号可能会衰减或降级,从而增加其变成噪声的风险。研究人员将其比作“电话”游戏:参与链条的人越多,原始消息变得混乱或改变的可能性就越大。核心工程挑战是优化可塑性和稳定性之间的权衡,确保信号在尽可能多的层中得到保存而不会退化。

该论文的作者,包括首席执行官梁文峰,将他们的研究建立在超连接(HC)的基础上,这是字节跳动研究人员于 2024 年推出的一个框架。标准 HC 使神经网络层共享信息的渠道多样化,但它们带来了信号丢失的风险,并且内存成本很高,使得它们难以大规模实施。 DeepSeek 的 mHC 架构旨在通过限制模型内的超连接来解决这个问题。这种方法保留了 HC 所带来的信息复杂性,同时避免了内存问题,即使对于资源有限的开发人员来说,也可以以一种实用的方式训练高度复杂的模型。

mHC 框架的首次亮相预示着人工智能发展演变的一个支点。直到最近,盛行的行业智慧还认为,只有最富有的公司才有能力建造前沿模型。 DeepSeek 继续证明,可以通过巧妙的工程设计而不是原始的财务力量来实现突破。通过发布这项研究,DeepSeek 已向小型开发人员提供了 mHC 方法,如果该架构在预期的 R2 模型中证明是成功的,则可能会实现高级 AI 功能的民主化。


特色图片来源

Tags: 人工智能深度搜索

Related Posts

索尼公布 PS5 版《战神:Laufey》

索尼公布 PS5 版《战神:Laufey》

3 6 月, 2026
研究人员将超快激光实验增强了 20 倍

研究人员将超快激光实验增强了 20 倍

3 6 月, 2026
微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box

微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box

3 6 月, 2026
Anthropic 邀请另外 150 个组织加入 Glasswing 项目

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

3 6 月, 2026
六月 Android Drop 带来安全工具和更智能的搜索功能

六月 Android Drop 带来安全工具和更智能的搜索功能

3 6 月, 2026
微软推出 Project Solara,打造代理优先的未来

微软推出 Project Solara,打造代理优先的未来

3 6 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.