谷歌的最新项目代号为“Project Jarvis”,旨在利用人工智能在 Chrome 浏览器中自动执行基于网络的任务。
根据 信息,这个由人工智能驱动的项目预计将于今年 12 月的早期预览版中首次亮相,其驱动力是 谷歌的双子座2.0 模型并代表了一种面向消费者的工具,旨在简化在线交互。贾维斯以漫威虚构的贾维斯助手为蓝本,将自主执行多步骤的数字任务,涵盖从在线购物到预订旅行的所有任务。
Gemini 2.0 为 Project Jarvis 提供支持
Gemini 2.0 是 Google 高级人工智能模型的最新版本,是 Jarvis 项目的基础。揭幕于 谷歌 I/O 2024,Gemini 在推理、计划和记忆方面进行了改进,所有这些都是为了帮助用户自主完成复杂的、多步骤的任务。
正如谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 在 I/O 大会上所解释的那样,我们的目标是创建“具有推理、规划和记忆能力的智能系统, [and are] 能够提前思考多个步骤”,同时保持用户的完全监督。凭借这些功能,Gemini 旨在提供“旗舰示例”未来人工智能代理如何提高生产力并减少用户输入。
贾维斯的与众不同之处在于它能够在 铬合金 浏览器, 捕获屏幕截图 指导其与在线表单和按钮的交互。据 The Information 报道,Jarvis 经常对用户的 Chrome 窗口进行屏幕截图来解释每个界面,使其能够“单击”按钮、在字段中输入内容,甚至跨网站比较项目。
屏幕截图驱动的方法还使贾维斯能够 理解复杂的形式 不同站点的布局差异很大。然而,这个功能意味着 Jarvis 的运行速度相对较慢,需要几秒钟的时间来分析每个屏幕截图,然后再继续下一步。虽然尚未针对速度进行优化,但该技术展示了谷歌使用基于云的资源来支持复杂的人工智能任务的战略,否则这些任务需要设备上的处理能力。
应用怎么样?
贾维斯项目承诺改变用户与数字平台交互的方式,重点是自动执行基于网络的日常任务,例如购买产品、预订航班或收集研究成果。
此功能可能会吸引广泛的受众,从忙碌的专业人士到寻求简化任务的日常用户。该信息的报告强调指出 Jarvis 将使用户能够以最少的输入完成广泛的基于网络的流程,允许他们将耗时的活动委托给人工智能。通过这样做,谷歌的目标是将 Jarvis 定位为面向消费者、注重生产力的工具,就像 微软的副驾驶愿景 或苹果的 苹果情报。
用户什么时候可以访问 Google Jarvis?
报告显示,贾维斯计划的早期预览 可能会在今年12月登场,尽管细节可能会改变。该公司可能会首先向有限的受众发布该工具,以便在更广泛的推出之前识别并解决任何错误或限制。
谷歌在过去的产品发布中也使用了类似的方法,例如 巴德人工智能,让早期用户有机会在更广泛的可用性之前提供反馈并做出改进。此测试阶段可能会影响 Google 如何优化 Jarvis,以实现更快、更无缝的性能,同时确保安全协议满足用户期望。
担忧也随之而来
作为对用户网络体验具有重大控制权的人工智能助手,贾维斯提出了新的隐私和安全问题。由于贾维斯依赖于解释潜在敏感信息的屏幕截图,因此强大的安全措施对于确保用户数据受到保护至关重要。谷歌的计划包括在贾维斯看到更广泛的版本之前对这些保护措施进行大量测试,但与如此高级别的系统访问相关的潜在风险正在引发隐私倡导者和开发人员之间的争论。
通过授予贾维斯等人工智能工具对用户设备的直接控制权,谷歌必须实施保护措施以防止漏洞和未经授权的访问。虽然 Jarvis 项目仍处于开发阶段,但它有望通过允许用户在 Chrome 浏览器中委派复杂的多步骤任务来改变人工智能驱动的生产力。通过将 Gemini 2.0 的强大功能与 Chrome 的网络功能相结合,谷歌正在打造一种人工智能,它可以重新定义我们处理从购物到研究等数字任务的方式。
随着谷歌最终确定 Jarvis 供消费者使用,它的成功可能为更先进、更自主的人工智能体验铺平道路,改变我们与浏览器交互的方式,甚至可能改变我们与整个技术交互的方式。