NVIDIA 推出了 AI 模型训练方面的重大进步 归一化变压器 (nGPT)。这种新架构旨在增强大型语言模型 (LLM) 的训练过程,有可能将训练时间加快 4 至 20 倍,同时保持模型的稳定性和准确性。 nGPT 模型简化了训练过程,使用更少的资源,为人工智能开发提供更高效的解决方案。
nGPT 有何不同:超球面学习
nGPT 效率的核心是一个称为 超球面表示学习。在传统的变压器模型中,数据的处理通常没有一致的几何框架。 NVIDIA 的 nGPT 通过将所有关键组件(例如嵌入、注意力矩阵和隐藏状态)映射到超球面的表面来改变这一情况。这种几何设置有助于确保模型的所有层在训练期间保持平衡,从而创建更加稳定和高效的学习过程。
这种方法显着减少了训练步骤的数量。 nGPT 不像以前的模型那样直接将权重衰减应用于模型权重,而是依赖于 学习到的缩放参数,优化模型在训练期间的调整方式。重要的是,这种方法消除了对其他标准化技术的需要,例如 层规范 或者 均方根标准值,使过程变得更简单、更快。

用更少的资源进行更快的训练
nGPT 架构的结果是显而易见的。在使用 OpenWebText 数据集进行的测试中,NVIDIA 的 nGPT 在速度和效率方面始终优于传统 GPT 模型。由于文本输入长达 4,000 个标记,nGPT 需要少得多的训练轮次来实现类似的验证损失,从而大大减少了训练这些复杂模型所需的时间。
此外,nGPT 的超球形结构提供了更好的 嵌入可分离性。这意味着该模型可以更轻松地区分不同的输入,从而提高标准人工智能测试的准确性。该模型改进的泛化能力还使其能够在初始训练之外的任务上表现更好,加快收敛速度,同时保持高精度。

为什么这对人工智能训练很重要
nGPT 的一个关键优势是它能够将两者结合起来 正常化 和 表示 学习到一个统一的框架。这种设计简化了模型的架构,使其更容易扩展并适应更复杂的混合系统。这可能会导致未来更强大的人工智能系统的开发,因为 nGPT 的方法可以集成到其他类型的模型和架构中。
特色图片来源: 凯雷姆·葛兰/表意文字