AI Company Anthropic发布了Claude Sonnet 4.5,这是一种新的旗舰模型,该公司将其定位为最有能力编码,构建复杂的AI代理以及使用计算机系统,并在推理和数学方面取得了巨大收益。该新型号现已上市,并伴随着新的开发人员工具包和Claude产品系列的重大更新。
十四行诗4.5特征
根据拟人化的说法 博客文章,该模型在SWE-Bench验证的评估上实现了最新的性能,这是一种测量现实世界软件编码能力的基准。它还显示了OSWORLD基准测试的改进性能,该基准测试了AI模型在计算机上执行现实世界任务的能力,例如导航网站和填充电子表格。该公司还报告说,与以前的模型相比,金融,法律,医学和STEM专家发现SONNET 4.5具有更好的特定领域知识和推理。
开发人员的新工具:Claude Agent SDK
除了新模型外,众人还推出了 Claude Agent SDK。该软件开发套件为开发人员提供了公司用来为其Claude Code产品提供动力的基础架构,从而使他们能够构建自己的自定义AI代理。 SDK旨在解决代理开发中的共同挑战,例如管理长期运行任务,处理许可系统的内存以及协调朝着共同目标的子代理。 https://www.youtube.com/watch?v=OXFVKBB7MCG
克劳德生态系统的产品更新
SONNET 4.5的推出包括对现有Claude产品的几次重大升级。
- 克劳德代码: 引入了检查点,该检查点允许用户保存进度并滚回到先前的状态,刷新的终端接口以及本机VS代码扩展名。
- 克劳德API: 添加了一个新的上下文编辑功能和一个内存工具,以帮助代理运行更长的时间并处理更复杂的任务。
- Claude Apps: 付费计划的用户现在可以直接在其对话中执行代码并创建文件,例如电子表格,幻灯片和文档。
- Claude for Chrome扩展: 现在可用于以前加入候补名单的最大用户。
专注于安全和对齐
人类表明,Claude Sonnet 4.5是迄今为止最合适的模型,在减少诸如欺骗和粘糊精之类的不良行为方面有所改善。该模型是在公司的AI安全3级(ASL-3)框架下发布的,该框架包括诸如旨在检测潜在危险输入和产出的分类器之类的保障措施,尤其是与化学,生物学,放射学和核(CBRN)武器相关的保障措施。
想象一下克劳德
在有限的时间里,Anthropic为其最大订户提供了名为“ Imagine With Claude”的研究预览。在此演示中,该模型可实时生成软件,以响应用户请求,而没有预先编写的代码。此预览旨在展示与正确的基础架构结合使用SON-NET 4.5的功能。
可用性和定价
Claude Sonnet 4.5现已通过Claude API获得。定价与以前的克劳德十四行诗4型号相同,每百万个投入令牌3美元和每百万美元产出代币15美元。 Anthropic建议将所有用途的SONNET 4.5升级,因为它以相同的成本提供了改进的性能。 https://www.youtube.com/watch?v=oz-alrj0ovg
Claude Sonnet 4.5 vs Chatgpt-5:您应该在下一个项目中使用哪一个?
Claude Sonnet 4.5的发行使竞争加剧了人工智能的最前沿,直接挑战 GPT-5。尽管这两种模型代表了高级AI开发,但它们展示了独特的优势,尤其是在编码,代理能力和整体性能的领域。
一目了然:关键差异
| 特征 | 克劳德十四行诗4.5 | GPT-5 |
|---|---|---|
| 主要力量 | 代理编码,计算机使用和长期自主任务。 | 统一的情报,高级推理和多模式功能。 |
| SWE板凳经过验证 | 77.2%(标准),82%(高计算)。 | 72.8%。 |
| OSWorld基准 | 61.4%。 | 未指定,但十四行诗4.5领导图表。 |
| 开发人员工具 | Claude Agent SDK,本机与代码扩展,带有检查点的Claude代码。 | 通过API访问,并集成到Chatgpt和Microsoft Copilot等产品中。 |
| 独特的功能 | 可以自主运行30多个小时。增强的安全性和对齐功能。 | 混合多个AI模型的统一系统。根据任务复杂性动态调整其推理方法。 |
编码和开发人员重点
Claude Sonnet 4.5被定位为“世界上最好的编码模型”。该主张在几个关键基准上的领先表现得到了证实。在SWE-Bench验证的情况下,该模型可以解决现实世界中的GitHub问题的能力,十四行诗4.5的得分为77.2%,表现优于GPT-5的72.8%。凭借额外的计算能力,十四行诗4.5的得分跃升至82%。此外,在终端台上,对AI使用命令行界面的能力的测试,SONNET 4.5取得了50%的成功率,比GPT-5的43.8%高度领先。这表明,对于需要AI来在终端环境中执行复杂的多步骤任务的开发人员和技术用户,SONNET 4.5具有明显的优势。相反,GPT-5作为强大的通用编码模型表示。尽管它在发布时设定了新的最先进的基准测试,但SONNET 4.5的专业焦点似乎使其在以开发人员为中心的任务中具有优势。
代理功能和计算机使用
Claude Sonnet 4.5的出色功能是它可以充当长期自主代理的能力。报告表明该模型可以在30多小时内保持重点和在复杂任务上的注意力,这比以前的模型显着增加。这种耐力对于需要持续努力的任务至关重要,例如大规模代码重构或深入的数据分析。在OSWORLD基准测试中,该基准评估了AI在计算机上执行实际任务的能力,SONNET 4.5的成功率为61.4%。在其工具使用能力中进一步证明了这种熟练度,在τbench评估的电信域中,它得分了98.0%,几乎使其前身的性能和超过GPT-5的性能增加了一倍。另一方面,GPT-5被设计为统一系统,可以根据任务的复杂性在不同的推理方法之间智能切换。这使其可以有效地处理各种任务,但它并不强调与十四行诗4.5相同的长期自主权。
推理,数学和一般表现
在一般推理和数学领域,竞争更加接近。在Aime 2025高中数学比赛中,SONNET 4.5在使用Python时获得了完美的100%得分,略微排除了GPT-5的99.6%。对于通过GPQA钻石基准测量的研究生水平推理,这些模型具有很高的竞争力,而GPT-5则具有略有铅。早期的用户报告和动手测试表明,十四行诗4.5明显更快…





