Google的Gemini Live最初是在Google Event于去年Made揭示的,他正在接受大量升级。这些增强功能包括相机馈电过程中的视觉叠加层以及设计用于更多自然对话的新音频模型。升级旨在使双子座的生活更有乐于助人,响应迅速的数字助理。
自引入以来 双子座活着 已经看到了一些改进,特别是共享相机提要和屏幕的能力。 Google现在宣布了其相机共享功能和新的本机音频模型的增强,以进一步增强与AI聊天机器人相互作用的自然性。
在即将推出的Google Pixel 10系列的演讲中,Google提供了有关即将改进Android的Gemini Live的详细信息。一个关键功能是添加视觉叠加层,该叠加层突出相机供稿中的特定对象。这些视觉提示采取了感兴趣的对象周围的白色信号矩形的形式,周围区域略微变暗以确保突出。
“视觉指导”功能旨在帮助用户快速找到和识别相机视野中的项目。预期用途的示例包括突出机器上的正确按钮,识别羊群中的特定鸟,或确定特定项目的正确工具。该功能还扩展到提供建议,例如在特定场合推荐适当的鞋类。
视觉指导能力还可以管理更具挑战性的场景。 Google产品经理在国际旅行中讲述了个人经历,在那里他们遇到了解释外语停车标志,路标和当地法规的困难。产品经理使用Gemini Live将相机指向现场,并询问了停车允许性。 Gemini Live随后咨询了当地规则,翻译了标志,并强调了街上的一个区域,提供了两个小时的免费停车场。
视觉指导将直接在Google Pixel 10系列上提供,并将在下周开始推出其他Android设备。计划在随后的几周内扩展到iOS设备。 Google AI Pro或Ultra订阅无需访问视觉指导功能。
除了视觉叠加层外,Google还在Gemini Live中实现了新的本机音频模型。该模型旨在促进更响应和表现力的对话。
新的音频模型将根据对话的上下文进行更适当的响应。例如,在讨论一个压力大的话题时,音频模型将使用平静和更具衡量的音调做出响应。
用户将控制音频模型的语音特征。如果用户发现很难跟上双子座的演讲,他们可以要求它更慢。相反,当时间限制时,用户可以指示双子座加速其语音。
该系统还可以从特定的角度提供叙事。正如Google在其博客文章中所说的那样,用户可以“从朱利叶斯·凯撒(Julius Caesar)的角度向您介绍罗马帝国的信息,并获得丰富而引人入胜的叙述,并带有角色口音。”
本文于美国东部时间7:50更新,以提供有关自然音频模型的澄清,并结合了Google博客文章中的演示资产。





