Anthropic 宣布推出两款新的 AI 模型:升级版 Claude 3.5 Sonnet 和全新 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 提供了全面的改进,编码能力显着提高。全新 Claude 3.5 Haiku 以实惠的价格带来先进的 AI 功能,与 Anthropic 之前的旗舰型号 Claude 3 Opus 的性能相匹配,同时保持与其前身相似的速度和成本。
克劳德 3.5 十四行诗
升级后的 Claude 3.5 Sonnet 以其前身的成功为基础,增强了各种任务的性能,尤其是编码方面的性能。 Anthropic 强调 Claude 3.5 Sonnet 在软件工程任务中处于领先地位,在基准测试中显示出显着的改进,例如 SWE-bench 已验证,从 33.4% 提高到 49.0%,超过了市场上的其他型号。
该模型在代理工具使用方面也表现良好,提高了分数 TAU 工作台 零售领域从62.6%上升到69.2%,航空领域从36.0%上升到46.0%。根据 GitLab 和 Cognition 等早期测试人员的说法,这些升级代表了人工智能驱动的编码和自动化的重大飞跃,具有更好的推理能力和最小的附加延迟。
克劳德 3.5 俳句
Claude 3.5 Haiku 旨在提供最先进的性能,同时保持低成本。该模型在 SWE-bench Verified 等基准测试中得分很高,达到 40.6%,超过了许多使用其他尖端模型的智能体,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。该模型旨在为需要快速、可靠的人工智能的应用程序提供服务,例如面向用户的产品和需要个性化体验的任务。
Anthropic 将于本月晚些时候发布 Claude 3.5 Haiku,最初作为纯文本模型提供,并计划在未来支持图像输入。它将通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。
Anthropic 的 Claude AI 现已登陆您的 iPad
计算机使用作为实验性公开测试版提供
人择也有 介绍 一项名为“计算机使用”的新实验功能已在公开测试版中提供。开发人员可以指导 Claude 3.5 Sonnet 像人一样使用计算机——查看屏幕、移动光标和打字。此功能仍处于实验阶段,存在一些限制,但 Replit 和 The Browser Company 等开发人员已经开始探索如何实现涉及多个步骤的复杂流程的自动化。
此功能旨在教授 AI 通用计算机技能,使其在完成以前需要自定义工具的任务时更加通用。开发人员可以通过 Anthropic 的 API 和其他主要云平台访问此测试版。虽然早期结果很有希望,但 Anthropic 承认该技术仍在发展中,在执行一些常见的计算机任务(如滚动和拖动)方面面临挑战。
Asana、Canva、Cognition 和 DoorDash 等公司正在试验新功能,探索人工智能实现传统上需要人工输入的流程自动化的潜力。美国AI安全研究所和英国安全研究所的早期测试发现,更新后的Claude 3.5 Sonnet符合Anthropic的安全标准,适合公众使用。
Anthropic 还正在解决与人工智能与计算机交互能力相关的潜在风险。为了确保负责任的部署,该公司实施了新的安全措施来识别滥用行为,包括用于检测潜在有害行为的分类器。 Anthropic 鼓励开发人员在技术成熟时使用测试版功能来完成低风险任务。
Anthropic 发布升级版 Claude 3.5 Sonnet 和 Claude 3.5 Haiku,凸显了该公司在保持人工智能能力的同时,致力于扩展人工智能能力。 安全标准。实验性计算机使用功能的增加代表着人工智能执行通用任务的潜力向前迈出了新的一步,为开发人员提供了新的探索可能性。
图片来源: 人择