您正在参加另一场无休止的 Zoom 或 Teams 会议。嗡嗡作响的声音、几乎无法吸引你注意力的幻灯片、当有人滔滔不绝地讲述季度统计数据时,你的目光呆滞。现在,想象一下,会议中的人工智能不再让你厌倦电子表格,而是开始现场制作视觉效果——在人们说话时实时生成的实际图像,让对话变得生动起来。这听起来很未来主义,但这正是微软正在通过一项新专利打造的东西。
微软的语音转图像专利
微软的最新想法(是的,目前还只是一个想法)是获取实时音频流(讲座、会议、任何口头对话)并将其即时转换为图像。美国专利商标局刚刚 于 2024 年 10 月 10 日删除了详细信息,在微软四月份提交后。该系统本质上会监听你的通话,生成文本记录,通过人工智能模型提供文本,然后弹出与所说内容相匹配的图像。
不再需要“让我为此拉一张幻灯片”。

无聊的会议结束了吗?也许不是,但会很接近
大多数虚拟会议都相当乏味。 我们不要假装我们没有花很多时间走神。
但如果这些会议突然开始随着对话的进展而出现视觉效果怎么办?有人提到新产品概念,几秒钟之内,人工智能生成的图像开始出现在屏幕上。人们引用的枯燥数字突然变成动态图表,无需任何人点击按钮。那是什么?东南亚供应链瓶颈?嘭!出现交互式地图,突出显示关注的区域。
现在,在您过于兴奋之前,让我们明确一下——这仍处于专利阶段。 如果您已经存在足够长的时间,您就会知道很多专利不会流向任何地方。申请专利就像种下一颗种子——它可能会长成伟大的东西,也可能只是一个永远不会被开发的想法。
也就是说,如果微软真的这么做,那么这项技术的明显归宿是 微软团队。他们一直在通过各种人工智能驱动的工具来增强 Teams,从 Copilot 到增强的视频会议功能,所以这将是一个可以采取的步骤。
我们已经见过文本转图像工具,例如 达尔-E 和 中途 震撼人们的心灵。现在,我们可以看到这个概念应用于现场演讲。这就像实时为人工智能创造力发声。
但现在,我们等待。
特色图片来源: 凯雷姆·葛兰/中途