微软获得实时音频到图像生成器的专利

您正在参加另一场无休止的 Zoom 或 Teams 会议。嗡嗡作响的声音、几乎无法吸引你注意力的幻灯片、当有人滔滔不绝地讲述季度统计数据时，你的目光呆滞。现在，想象一下，会议中的人工智能不再让你厌倦电子表格，而是开始现场制作视觉效果——在人们说话时实时生成的实际图像，让对话变得生动起来。这听起来很未来主义，但这正是微软正在通过一项新专利打造的东西。

微软的语音转图像专利

微软的最新想法（是的，目前还只是一个想法）是获取实时音频流（讲座、会议、任何口头对话）并将其即时转换为图像。美国专利商标局刚刚于 2024 年 10 月 10 日删除了详细信息，在微软四月份提交后。该系统本质上会监听你的通话，生成文本记录，通过人工智能模型提供文本，然后弹出与所说内容相匹配的图像。

不再需要“让我为此拉一张幻灯片”。

无聊的会议结束了吗？也许不是，但会很接近

大多数虚拟会议都相当乏味。 我们不要假装我们没有花很多时间走神。

但如果这些会议突然开始随着对话的进展而出现视觉效果怎么办？有人提到新产品概念，几秒钟之内，人工智能生成的图像开始出现在屏幕上。人们引用的枯燥数字突然变成动态图表，无需任何人点击按钮。那是什么？东南亚供应链瓶颈？嘭！出现交互式地图，突出显示关注的区域。

现在，在您过于兴奋之前，让我们明确一下——这仍处于专利阶段。 如果您已经存在足够长的时间，您就会知道很多专利不会流向任何地方。申请专利就像种下一颗种子——它可能会长成伟大的东西，也可能只是一个永远不会被开发的想法。

也就是说，如果微软真的这么做，那么这项技术的明显归宿是微软团队。他们一直在通过各种人工智能驱动的工具来增强 Teams，从 Copilot 到增强的视频会议功能，所以这将是一个可以采取的步骤。

我们已经见过文本转图像工具，例如达尔-E 和中途震撼人们的心灵。现在，我们可以看到这个概念应用于现场演讲。这就像实时为人工智能创造力发声。

但现在，我们等待。

特色图片来源：凯雷姆·葛兰/中途

Tags: 人工智能微软精选

微软获得实时音频到图像生成器的专利

Related Posts

Openai现在比麦当劳还多

超越新闻：向广播记者AI实时事实检查

比特币价格前景：AI和数据科学如何重塑加密市场的预测

Chatgpt的统治受到这些AI竞争对手的威胁

Openai让每个人都可以尝试其病毒图像工具

AI的代码革命：发电机与助手 – 开发人员的深入潜水

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

微软获得实时音频到图像生成器的专利

微软的语音转图像专利

无聊的会议结束了吗？也许不是，但会很接近

Related Posts

Openai现在比麦当劳还多

超越新闻：向广播记者AI实时事实检查

比特币价格前景：AI和数据科学如何重塑加密市场的预测

Chatgpt的统治受到这些AI竞争对手的威胁

Openai让每个人都可以尝试其病毒图像工具

AI的代码革命：发电机与助手 – 开发人员的深入潜水

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us