Google的Gemini AI助手现在允许上传音频文件,使用户可以从录音中转录,汇总和提取关键信息。这项新功能可将大约10分钟的语音备忘录,会议,讲座和访谈直接转换为AI环境中的可搜索文档。在Web和移动应用程序上都支持音频文件上传。用户可以通过标准文件upload接口访问该功能。这与Gemini Live的实时语音命令处理不同,因为新功能处理用于数据提取和分析的预录音频。 Google的双子座副总裁Josh Woodward表示,音频文件上传是Gemini用户最要求的功能。这需要强调在AI助手中进行简化的音频处理的需求。
转录精度和特征集成
在测试过程中,双子座精确地转录了各种音频类型,包括喜剧专辑素描和电话交谈,只有较小的名称识别错误。该系统还有效地确定了关键元素,并从音频内容中生成了待办事项列表。音频处理的添加与最近的Gemini集成一致,例如在各种应用中实现,测试基于卡的视觉界面以及扩展的个性化选项。这些更新共同增强了双子座的功能和用户体验。
与其他AI助手进行比较
尽管双子座的音频功能并非唯一,但它们与使用其耳语转录模型的竞争对手的功能相媲美。 Anthropic的Claude还支持某些开发人员工具中的音频处理,并且困惑可以从YouTube视频中提取数据。双子座的目标是专注于广泛用户群的日常用例。
高级音频数据处理
除了简单的转录外,Gemini还允许用户请求简化语言,提取特定于扬声器的评论,从音频内容中产生问题或从记录的讨论中创建学习指南。这些选项提供了有效操纵和重新利用音频信息的工具。
音频功能的局限性
当前的音频文件上传限制的当前限制限制了其对更长记录的适用性。自由层用户还面临音频处理的每日使用限制。这些局限性可能会影响用户广泛的音频处理需求。 Google尚未发布针对大容量音频处理的特定价格。但是,音频处理已集成到常规的双子座配额中。这表明用户应管理其用法,以避免超过分配的资源。




