Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

NVIDIA 的 nGPT 模型将 AI 训练时间缩短了 20 倍

Kerem GülenbyKerem Gülen
21 10 月, 2024
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

NVIDIA 推出了 AI 模型训练方面的重大进步 归一化变压器 (nGPT)。这种新架构旨在增强大型语言模型 (LLM) 的训练过程,有可能将训练时间加快 4 至 20 倍,同时保持模型的稳定性和准确性。 nGPT 模型简化了训练过程,使用更少的资源,为人工智能开发提供更高效的解决方案。

nGPT 有何不同:超球面学习

nGPT 效率的核心是一个称为 超球面表示学习。在传统的变压器模型中,数据的处理通常没有一致的几何框架。 NVIDIA 的 nGPT 通过将所有关键组件(例如嵌入、注意力矩阵和隐藏状态)映射到超球面的表面来改变这一情况。这种几何设置有助于确保模型的所有层在训练期间保持平衡,从而创建更加稳定和高效的学习过程。

这种方法显着减少了训练步骤的数量。 nGPT 不像以前的模型那样直接将权重衰减应用于模型权重,而是依赖于 学习到的缩放参数,优化模型在训练期间的调整方式。重要的是,这种方法消除了对其他标准化技术的需要,例如 层规范 或者 均方根标准值,使过程变得更简单、更快。

NVIDIA 的 nGPT 模型将 AI 训练时间缩短了 20 倍
NVIDIA 的 nGPT 模型将 AI 训练时间缩短了 20 倍(图片来源)

用更少的资源进行更快的训练

nGPT 架构的结果是显而易见的。在使用 OpenWebText 数据集进行的测试中,NVIDIA 的 nGPT 在速度和效率方面始终优于传统 GPT 模型。由于文本输入长达 4,000 个标记,nGPT 需要少得多的训练轮次来实现类似的验证损失,从而大大减少了训练这些复杂模型所需的时间。

此外,nGPT 的超球形结构提供了更好的 嵌入可分离性。这意味着该模型可以更轻松地区分不同的输入,从而提高标准人工智能测试的准确性。该模型改进的泛化能力还使其能够在初始训练之外的任务上表现更好,加快收敛速度​​,同时保持高精度。

NVIDIA 的 nGPT 模型将 AI 训练时间缩短了 20 倍
NVIDIA 的 nGPT 模型将 AI 训练时间缩短了 20 倍(图片来源)

为什么这对人工智能训练很重要

nGPT 的一个关键优势是它能够将两者结合起来 正常化 和 表示 学习到一个统一的框架。这种设计简化了模型的架构,使其更容易扩展并适应更复杂的混合系统。这可能会导致未来更强大的人工智能系统的开发,因为 nGPT 的方法可以集成到其他类型的模型和架​​构中。


特色图片来源: 凯雷姆·葛兰/表意文字

Tags: NGPT人工智能精选英伟达

Related Posts

JBL 推出 AI 驱动的 BandBox 放大器

JBL 推出 AI 驱动的 BandBox 放大器

23 1 月, 2026
Spotify 推出人工智能驱动的提示播放列表

Spotify 推出人工智能驱动的提示播放列表

22 1 月, 2026
Claude AI 带来 Anthropic 彻底改革招聘测试

Claude AI 带来 Anthropic 彻底改革招聘测试

22 1 月, 2026
人类以新的安全伦理原则彻底修改了克劳德的宪法

人类以新的安全伦理原则彻底修改了克劳德的宪法

22 1 月, 2026
YouTube 将为创作者推出人工智能相似度管理工具

YouTube 将为创作者推出人工智能相似度管理工具

22 1 月, 2026
亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

22 1 月, 2026
Please login to join discussion

Recent Posts

  • Barret Zoph 将领导 OpenAI 积极的商业转型
  • Substack 推出 Beta TV 应用程序,进入客厅
  • LiveKit 作为 ChatGPT 语音模式背后的引擎,估值达 10 亿美元
  • 收购 Bending Spoons 后,Vimeo 开始裁员
  • 亚马逊准备新一轮裁员,AWS和Prime Video受到冲击

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.