谷歌有 推出 Gemini 2.0是其人工智能模型的重大进步,旨在增强跨不同平台的用户交互和任务执行。这个新模型对其前身 Gemini 1.5 进行了改进,Gemini 1.5 于 2023 年 12 月推出。Gemini 2.0 具有本机多模式功能,使其能够跨文本、视频、图像、音频和代码处理和生成内容。该模型旨在促进计算机任务中更加代理的体验,利用高级推理来执行用户指导的操作。
谷歌推出Gemini 2.0:AI交互和任务执行的进步
Gemini 2.0 融入了重要的改进,例如增强的多模态,包括本机生成的音频输出和图像。 Gemini 2.0 闪存的推出是一款具有低延迟和高性能的主力模型,在关键基准测试中超越了其前身。现在值得注意的功能包括无缝处理多模式输入和输出的能力,以及用于 Google 搜索和代码执行的本机工具集成。
谷歌和 Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 强调,这一进步建立在他们组织全球信息的长期使命之上。 “通过 Gemini 2.0,我们很高兴推出我们迄今为止最强大的模型,”他说。该模型将从 Gemini 和 Search 开始集成到 Google 产品中,并将提供新功能,例如 Deep Research(旨在协助复杂主题探索的功能)。
Salesforce CEO对Google Gemini Live的大力赞扬
AI 概述是 Google 搜索的一项关键功能,现已覆盖约 10 亿用户,促进了提出查询的创新方式。借助 Gemini 2.0 增强的推理能力,AI 概述将解决更复杂的主题,包括高级数学和编码任务。此次推出于本周开始进行有限测试,旨在于明年初在不同语言和地区提供更广泛的可用性。
对定制硬件功能(包括 Trillium 第六代 TPU)长达十年的投资支持了 Gemini 2.0 的开发。这些 TPU 为整个训练和推理过程提供动力。 Gemini 2.0 的目的不仅是为了理解信息,而且是在对早期测试人员的反馈进行广泛评估后,使其变得更加有用。
项目和原型的代理能力
Gemini 2.0 还引入了几个实验原型,探索下一代 AI 代理功能。例如,更新后的 Project Astra 使 Gemini 2.0 能够通过摄像头输入了解其环境来执行复杂的任务。用户报告说,多种语言的对话功能得到了改进,搜索、镜头和地图等 Google 服务的导航也得到了改善。 Project Astra 可以记住长达十分钟的会话通信上下文,增强个性化,同时保持用户对记忆保留的控制。
Project Mariner 代表了另一个关键原型,专为网络导航而设计,以帮助用户完成日常任务。通过 Chrome 扩展进行演示,Project Mariner 可以通过与屏幕上的文本和图像交互来流畅地执行操作,相对于现实世界的 Web 任务表现出 83.5% 的基准性能。
此外,由 Gemini 2.0 提供支持的编码助手 Jules 集成在 GitHub 工作流程中,使开发人员能够委派复杂的项目。这些进步展示了人工智能如何提高各个领域生产力的转变,不仅限于编码,而且最终扩展到日常用户应用程序。
投资于安全和责任
当 Google DeepMind 探索这些新的人工智能功能时,安全部署人工智能的责任仍然至关重要。该公司强调迭代方法,包括评估风险、聘请值得信赖的测试人员以及根据全面的风险评估完善模型。
人们非常关注用户的隐私和安全,特别是允许代理记住用户数据或与用户数据交互的功能。控制措施已经到位,使用户能够轻松删除过去的交互,并且正在研究其他措施来管理潜在的漏洞,例如指令操纵。
哈萨比斯和皮查伊表达了负责任地协调人工智能开发的重要性,表示正在进行的项目将侧重于保持一致的用户指令遵守,并减轻与数字和物理领域代理执行操作相关的风险。
Gemini 2.0 的发展反映了 Google 致力于引领人工智能创新,同时探索复杂的代理技术。随着 Gemini 2.0 Flash 及其相应项目的推出,谷歌旨在增强用户体验,同时应对不断发展的人工智能领域中出现的新挑战。进一步的更新将继续揭示这些功能将如何集成到日常任务和活动中。
图片来源: 谷歌