就在新的一年开始之前,人工智能界被介绍了模型训练方面的潜在突破。中国人工智能公司 DeepSeek 的研究团队发布了一项研究 纸 概述了一种称为流形约束超连接(Manifold-Constrained Hyper-Connections)(简称 mHC)的新颖架构方法。这种新方法可以为工程师提供构建和扩展大型语言模型的途径,而无需通常所需的过高的计算成本和资本。
一年前,随着 R1 的发布,DeepSeek 首次引起了文化的关注。该模型的能力可与 OpenAI o1 的功能相媲美,但据报道其训练成本仅为 OpenAI o1 的一小部分。这一发布令美国开发商感到震惊,因为它挑战了只有大量资本和硬件储备才能产生尖端人工智能的假设。新发表的 mHC 论文托管在预印本服务器 arXiv 上,可以作为 DeepSeek 即将推出的模型 R2 的技术框架。 R2 型号原本预计于 2025 年中期推出,但据报道由于首席执行官梁文峰对性能以及中国获得先进人工智能芯片的机会有限的担忧而被推迟。
这篇新论文试图弥合目前阻碍人工智能可扩展性的复杂技术差距。大型语言模型建立在神经网络的基础上,旨在保存多层信号。然而,随着模型的增长和更多层的添加,信号可能会衰减或降级,从而增加其变成噪声的风险。研究人员将其比作“电话”游戏:参与链条的人越多,原始消息变得混乱或改变的可能性就越大。核心工程挑战是优化可塑性和稳定性之间的权衡,确保信号在尽可能多的层中得到保存而不会退化。
该论文的作者,包括首席执行官梁文峰,将他们的研究建立在超连接(HC)的基础上,这是字节跳动研究人员于 2024 年推出的一个框架。标准 HC 使神经网络层共享信息的渠道多样化,但它们带来了信号丢失的风险,并且内存成本很高,使得它们难以大规模实施。 DeepSeek 的 mHC 架构旨在通过限制模型内的超连接来解决这个问题。这种方法保留了 HC 所带来的信息复杂性,同时避免了内存问题,即使对于资源有限的开发人员来说,也可以以一种实用的方式训练高度复杂的模型。
mHC 框架的首次亮相预示着人工智能发展演变的一个支点。直到最近,盛行的行业智慧还认为,只有最富有的公司才有能力建造前沿模型。 DeepSeek 继续证明,可以通过巧妙的工程设计而不是原始的财务力量来实现突破。通过发布这项研究,DeepSeek 已向小型开发人员提供了 mHC 方法,如果该架构在预期的 R2 模型中证明是成功的,则可能会实现高级 AI 功能的民主化。





