NVIDIA 将 Fugatto 称为“世界上最灵活的声音机器”

英伟达有揭幕 Fugatto，一种能够创建和修改音频内容的生成式人工智能模型。该模型旨在帮助音乐制作人、电影创作者和游戏开发者通过文本提示生成新颖的声音。 Fugatto 结合了各种音频生成功能，采用先进的算法来增强音频行业的创意流程。

NVIDIA 推出 Fugatto，一种用于音频创作的生成式 AI

富加托是 Foundational Generative Audio Transformer Opus 1 的缩写，由全球领先的 AI 系统芯片和软件供应商 NVIDIA 推出。该技术可以从现有音频文件中生成和改变声音，使其与以前的模型不同。例如，它可以将钢琴旋律转换为人声或修改录音的口音和情绪语气。这种灵活性使创作者能够探索不同领域的一系列创新应用。

Fugatto 背后的团队由十多名研究人员组成，其中包括 NVIDIA 应用音频研究经理 Rafael Valle。 Valle 强调了该项目的目标：“我们希望创建一个能够像人类一样理解并产生声音的模型。” Fugatto 设计的关键是它能够集成与音频生成和转换相关的多个任务，展示其广泛的训练数据产生的新兴属性。

用户可以通过自由形式的提示指示 Fugatto 创建音景、音乐片段，甚至独特的音效。例如，制作人可以快速为曲目制作不同风格或乐器的原型。值得注意的是，Fugatto 具有 ComposableART 等技术，允许用户合并不同的命令。正如参与该模型的人工智能研究人员 Rohan Badlani 所说，测试显示了令人惊讶的结果，尽管他有技术背景，但他形容这次体验在艺术上是有益的。

NVIDIA 推出 Fugatto "世界上最灵活的发声机" — Fugatto 结合了各种音频生成功能，采用先进的算法来增强音频行业的创作流程（图片来源）

在训练过程中，Fugatto 使用了 25 亿个参数，并在 NVIDIA 强大的 DGX 系统上开发，该系统配备 32 个 H100 Tensor Core GPU。该模型的训练依赖于包含数百万个音频样本的多样化混合数据集，增强了其多口音和多语言功能。这个雄心勃勃的项目也花了一年多的时间来开发，团队克服了数据生成和模型训练方面的多项挑战。

Fugatto 提供了多种潜在的应用，包括广告公司和语言学习平台。有人建议，营销活动可以受益于它定制具有不同口音或情绪的画外音的能力。在教育领域，学习者可能会喜欢以熟悉的声音为特色的个性化课程。游戏开发人员可以动态调整游戏内音频，集成响应用户操作的交互元素。

虽然 Fugatto 的功能令人印象深刻，但 NVIDIA 尚未宣布立即向公众发布这项技术的计划。该公司对生成式人工智能可能被滥用表示担忧，NVIDIA 负责应用深度学习研究的副总裁 Bryan Catanzaro 强调，鉴于此类技术存在风险，必须谨慎行事。 OpenAI 和该领域的其他公司在负责任地部署其模型方面面临着类似的挑战，特别是在知识产权和错误信息方面。

特色图片来源：英伟达

Tags: 人工智能英伟达

NVIDIA 将 Fugatto 称为“世界上最灵活的声音机器”

Related Posts

Bluesky 在重大更新中推出 Live Now 徽章和现金标签

三星改造移动游戏中心以修复损坏的游戏发现

埃隆·马斯克 (Elon Musk) 孩子之一的母亲因 Grok Deepfake 性行为起诉 xAI

卡普空公布《生化危机安魂曲》游戏玩法和二月发布日期

Paramount+ 提高订阅价格并终止 2026 年免费试用

美国参议院猛烈抨击科技巨头 "失败" 深假护栏

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

NVIDIA 将 Fugatto 称为“世界上最灵活的声音机器”

NVIDIA 推出 Fugatto，一种用于音频创作的生成式 AI

Related Posts

Bluesky 在重大更新中推出 Live Now 徽章和现金标签

三星改造移动游戏中心以修复损坏的游戏发现

埃隆·马斯克 (Elon Musk) 孩子之一的母亲因 Grok Deepfake 性行为起诉 xAI

卡普空公布《生化危机安魂曲》游戏玩法和二月发布日期

Paramount+ 提高订阅价格并终止 2026 年免费试用

美国参议院猛烈抨击科技巨头 "失败" 深假护栏

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us