英伟达有 揭幕 Fugatto,一种能够创建和修改音频内容的生成式人工智能模型。该模型旨在帮助音乐制作人、电影创作者和游戏开发者通过文本提示生成新颖的声音。 Fugatto 结合了各种音频生成功能,采用先进的算法来增强音频行业的创意流程。
NVIDIA 推出 Fugatto,一种用于音频创作的生成式 AI
富加托是 Foundational Generative Audio Transformer Opus 1 的缩写,由全球领先的 AI 系统芯片和软件供应商 NVIDIA 推出。该技术可以从现有音频文件中生成和改变声音,使其与以前的模型不同。例如,它可以将钢琴旋律转换为人声或修改录音的口音和情绪语气。这种灵活性使创作者能够探索不同领域的一系列创新应用。
Fugatto 背后的团队由十多名研究人员组成,其中包括 NVIDIA 应用音频研究经理 Rafael Valle。 Valle 强调了该项目的目标:“我们希望创建一个能够像人类一样理解并产生声音的模型。” Fugatto 设计的关键是它能够集成与音频生成和转换相关的多个任务,展示其广泛的训练数据产生的新兴属性。
用户可以通过自由形式的提示指示 Fugatto 创建音景、音乐片段,甚至独特的音效。例如,制作人可以快速为曲目制作不同风格或乐器的原型。值得注意的是,Fugatto 具有 ComposableART 等技术,允许用户合并不同的命令。正如参与该模型的人工智能研究人员 Rohan Badlani 所说,测试显示了令人惊讶的结果,尽管他有技术背景,但他形容这次体验在艺术上是有益的。
在训练过程中,Fugatto 使用了 25 亿个参数,并在 NVIDIA 强大的 DGX 系统上开发,该系统配备 32 个 H100 Tensor Core GPU。该模型的训练依赖于包含数百万个音频样本的多样化混合数据集,增强了其多口音和多语言功能。这个雄心勃勃的项目也花了一年多的时间来开发,团队克服了数据生成和模型训练方面的多项挑战。
Fugatto 提供了多种潜在的应用,包括广告公司和语言学习平台。有人建议,营销活动可以受益于它定制具有不同口音或情绪的画外音的能力。在教育领域,学习者可能会喜欢以熟悉的声音为特色的个性化课程。游戏开发人员可以动态调整游戏内音频,集成响应用户操作的交互元素。
虽然 Fugatto 的功能令人印象深刻,但 NVIDIA 尚未宣布立即向公众发布这项技术的计划。该公司对生成式人工智能可能被滥用表示担忧,NVIDIA 负责应用深度学习研究的副总裁 Bryan Catanzaro 强调,鉴于此类技术存在风险,必须谨慎行事。 OpenAI 和该领域的其他公司在负责任地部署其模型方面面临着类似的挑战,特别是在知识产权和错误信息方面。
特色图片来源: 英伟达