人类有 发射 Claude 3.7,世界上第一个能够产生标准输出或可控量的“推理”以解决复杂问题的模型。该混合模型旨在通过允许本能响应和有条理推理之间的平衡来增强用户和开发人员的交互。
人类揭幕Claude 3.7:第一个混合推理AI模型

Anthropic的产品负责人Michael Gerstenhaber表示:“ [user] 对行为有很大的控制 – 它的想法多长时间,可以用时间和预算进行交易推理和智慧。” Claude 3.7引入了一个“刮擦”功能,该功能显示了模型的推理过程,从流行的中国AI模型中汲取灵感 DeepSeek。该功能可帮助用户理解模型解决问题的方法,从而促进及时调整。
拟人化研究的产品负责人戴安娜(Dianne)强调了Scratchpad与可调节的推理能力同时的有效性。如果初始尝试未产生所需的故障,则用户可以指示模型分配更多的问题解决问题。

Claude 3.7的混合结构将其与竞争对手区分开。虽然Openai于2024年9月发布了一个名为O1的推理模型,后来又有一个名为O3的更强大的版本,但两者都要求用户在模型之间切换以访问推理功能。 Anthropic的Claude 3.7允许在常规响应和扩展推理之间进行无缝切换,这是一个显着优势。
混合模型与诺贝尔奖赢得的经济学家丹尼尔·卡尼曼(Daniel Kahneman)在他的书《思维,快速而缓慢》中描述的推理框架保持一致,从而提供了本能和故意的认知过程。标准模型(例如大语言模型(LLM))通常会产生即时响应,但可能会在需要彻底推理的任务中步履蹒跚,例如算术计算。
为了增强Claude 3.7的功能,人类采用的强化学习学习了培训模型的其他数据,该数据侧重于诸如编码和法律查询之类的业务应用程序。佩恩指出:“我们做出的改进的事情是 […] 需要长期推理的技术科目或受试者。”在应对复杂的编码挑战时,该模型在特定框架等特定框架(例如SWE基础)中的O1表现都优于OpenAI的O1。
克劳德·艾(Claude AI)现在可以完美地反映您的写作风格
克劳德代码
该公司推出了Claude Code,这是一种新工具,旨在协助AI驱动的编码任务,在复杂的方案中表现良好。佩恩补充说:“该模型已经擅长编码。” “[But] 对于可能需要非常复杂的计划的案件,其他想法将是有益的 – 而您正在寻找公司的代码基础。”

Claude 3.7十四行诗都可以在所有Claude计划(Free,Pro,Team和Enterprise)中获得,以及通过拟人API,Amazon Bedrock和Google Cloud的Vertex AI。该模型保持与前任相同的定价结构:每百万美元的投入令牌3美元和每百万美元产出代币15美元,其中包括思考令牌。
拟人化已经开发了Claude 3.7十四行诗,其哲学将推理纳入模型的核心组成部分。它既可以用作升级的普通LLM,又是推理模型,使用户可以选择何时需要直接响应或更长的时间,或者更反思的答案。在扩展思维模式下,Claude 3.7完善了其响应,增强了数学,物理,指导跟踪和编码任务的性能。
通过API使用Claude 3.7十四行诗,用户可以通过指定最大代币来控制其“思考”预算。这种灵活性使用户可以优先考虑速度与结果的质量。
克劳德(Claude)最近的评估表明,在多个平台上编码功能方面的领导能力。光标将克劳德(Claude)视为现实编码任务的最佳课程,并在管理复杂的代码库方面取得了进步。认知报道了规划代码更改的出色表现,而Vercel指出了其在浏览复杂代理工作流程中的准确性。 Replit有效地利用了Claude来开发复杂的Web应用程序,Canva进行的测试表明,Claude始终提供具有改进的设计质量的生产准备就绪代码,并且错误的错误较少。
Claude Code目前在有限的研究预览中,可以用作协作工具,可以读取,编辑代码,运行测试并与GitHub进行交互,从而简化编码过程。早期测试表明,Claude代码可以在通常需要大量手动工作的单个会话中完成任务。未来的增强功能将集中在工具可靠性,长期命令支持和提高性能上。
Anthropic强调了其致力于开发Claude 3.7十四行诗,重点是安全性,安全性和可靠性。 Claude 3.7在良性和有害要求之间进行了明显的区分,与其前身相比,不必要的拒绝减少了45%。随附的系统卡详细介绍了可以使其他AI研究计划受益的安全评估,并解决了新兴风险,包括迅速的注射攻击。
Claude 3.7十四行诗和Claude代码代表了对AI系统的重大进步,这些系统可以通过整合深层的推理和自主协作来有效地支持人类能力。
特色图片来源:拟人化