谷歌在最近的 Made by Google 活动中推出了其新的人工智能功能 Gemini Live。这款创新工具让用户能够与人工智能进行语音对话,该功能由谷歌最新的大型语言模型提供支持。
Google 将自己定位为 OpenAI ChatGPT 高级语音模式的直接竞争对手,该模式仍处于有限的 alpha 测试阶段。Google 率先发布这项完全开发的功能,迈出了重要一步。虽然 OpenAI 最初提出了类似的概念,但 Google 的快速跟进令许多人感到惊讶。
Gemini Live 提供什么服务?
Gemini Live 通过实现动态、自由的对话来增强移动 AI 交互。此功能独特地允许用户在 AI 响应过程中中断,以更深入地探索特定点,或者在方便时暂停和恢复聊天 – 本质上提供了一个可随时访问的数字助手。
此外,Gemini Live 支持免提操作。即使手机处于后台或锁定状态,用户也可以继续与人工智能互动,模仿传统电话通话的自然流程。从今天开始,该功能将以英语向 Android 上的 Gemini Advanced 用户提供,并计划在不久的将来向 iOS 用户和其他语言用户提供支持。
用户很快就能享受到 YouTube Music 上的 Keep、任务、实用工具和高级功能等新扩展。例如,用户可以从电子邮件中检索食谱、编制购物清单或创建怀旧音乐播放列表,而无需在应用程序之间切换。
此外,日历扩展程序将使用户能够更有效地管理自己的日程安排。只需拍摄一张音乐会传单的照片,用户就可以查看当天的空闲时间,并设置购票提醒。
Gemini 的深度集成进一步丰富了 Android 生态系统,提供了情境感知功能,提升了用户体验。用户只需长按电源按钮或说“Hey Google”即可访问 Gemini。这种集成让用户可以直接与屏幕上的内容互动,例如请求有关他们在 YouTube 上观看的视频的详细信息,或要求 Gemini 将旅行视频博客中的餐馆添加到 Google 地图中。
谷歌还在应对增强 AI 能力的同时确保速度和准确性的双重挑战。Gemini 1.5 Flash 等新型号正在推出,以提供更快、更可靠的响应。谷歌计划继续完善这些方面,并扩大与其他谷歌服务的集成,包括 Home 和 Messages。
产品经理 Leland Rechis 解释称,Google 对 Gemini Live 实施了某些限制。值得注意的是,该功能不允许唱歌或模仿十个预定义选项以外的任何声音。这一决定很可能是为了避免版权问题而采取的预防措施。
此外,与竞争对手 OpenAI 在演示中强调情感语音识别不同,谷歌选择不优先考虑 Gemini Live 检测用户声音中情感细微差别的能力。这种关注——或者说缺乏关注——可以被视为与 OpenAI 的战略分歧,尤其是考虑到过去的争议,比如一名 OpenAI 的声音与女演员斯嘉丽·约翰逊非常相似。
特色图片来源:Google