GPT-4.1已正式 登陆 在OpenAI API中,引入了三个模型-GPT-4.1,GPT-4.1 mini和GPT-4.1 Nano,几乎在每个维度上都优于他们的前任。这些模型专为需要更好的编码技能,更强的指导跟随和大量长篇文化理解的开发人员而设计,同时降低了延迟和成本。现在,旗舰模型支持多达100万个上下文,并具有2024年6月的新知识截止。
GPT-4.1的新功能是什么?
GPT-4.1家族是对GPT-4O和GPT-4.5的直接升级,在优化现实世界开发人员使用的同时,可改善基准的性能。 GPT-4.1在S上得分为54.6%We Bench经过验证,使其成为编码任务的主要模型之一。在规模上 多章阵基准,在以下教学中,它比GPT-4O的绝对提高了10.5%。对于长上下文任务,它将新的最新分数设置为72% 视频MME基准。
这些模型还可以在整个延迟曲线上进行优化。 GPT-4.1 MINI的性能几乎与GPT-4O相同,同时将延迟减少了一半,并将成本降低了83%。 GPT-4.1 NANO是OpenAI最快,最实惠的型号,用于分类和自动完成任务,同时仍支持100万个令牌上下文窗口。
编码功能飞跃
从生成更清洁的前端接口到更可靠地遵循DIFF格式,GPT-4.1证明自己是一名功能强大的编码助手。在经过SWE基础验证的基准测试中,它正确完成了一半以上的任务 – 从33.2%的GPT-4O完成。它还在Aider的Polyglot Diff基准上胜过GPT-4O甚至GPT-4.5,为开发人员提供了跨多种编程语言的精确编辑,而无需重写整个文件。对于文件级的重写,输出令牌限制已扩展到32,768个令牌。
在内部比较中,GPT-4.1网站比GPT-4O的输出优于80%的时间。代码中的无关编辑从9%下降到仅2%,反映了更好的上下文理解和工具使用情况。
早期采用者突出现实世界的胜利
Windsurf报告了内部基准提高了60%,而Qodo发现GPT-4.1在55%的GitHub拉力请求中提供了更好的建议。这些改进直接转化为更好的代码审查准确性,更少的不必要的建议以及对团队的更快迭代周期。
在各种情况下以较高的指示
GPT-4.1在教学可靠性方面的性能明显更好。它在IFEVAL上获得了87.4%的速度,在多键盘基准上为38%的评分,展示了处理复杂格式的增长,拒绝禁止的说明以及分类或排名输出。 Openai自己的评估表明,GPT-4.1在硬提示中更精确,并且在多转弯指导跟踪方面更好,这是构建可靠的对话系统的重要功能。
Blue J和Hex都针对特定领域的任务测试了GPT-4.1。 Blue J在复杂的税收方案中的准确性提高了53%,而HEX报告的表现几乎是SQL任务的两倍,减少了调试开销和改善生产准备。
100万令牌上下文窗口设置了一个新的栏
GPT-4.1家族中的所有三个模型现在都支持多达100万个上下文的标记,这是React代码库的8倍。这使得在法律文档分析,财务研究和长期软件工作流程中可以有效的新用例。在OpenAI的“针对干草堆”测试中,GPT-4.1可靠地检索了相关内容,无论输入中的位置如何。
OpenAI-MRCR基准进一步通过测试模型区分散布在大规模上下文窗口中的近乎相同提示的能力,进一步证实了这一点。在Graphwalks基准测试中,涉及合成图中跨节点的推理,GPT-4.1得分62%,明显领先于GPT-4O的42%。
汤森·路透社(Thomson Reuters)报告说,使用GPT-4.1在其Cocounsel系统中使用GPT-4.1提高了17%的提高,而凯雷(Carlyle)从复杂文件中提取颗粒状财务数据的提高了50%。
更快的推断和更好的图像理解
Openai使用其推理堆栈中的改进来缩短了首先代币的时间。 GPT-4.1 Nano在128k token的提示中在五秒钟内做出反应。对于多模式任务,GPT-4.1 mini在MMMU和Mathvista等基准中显示出比GPT-4O更强的图像理解。
在Charxiv-Rounowing和视频MME等视觉基准上,GPT-4.1始终领先,后者在没有字幕的情况下得分72%。这使其成为视频理解和科学图表解释的首选。
降价和过渡计划
现在,所有三种GPT-4.1型号都在API中可用,价格下降了很大。与GPT-4O相比,中位数查询的GPT-4.1便宜26%。及时的缓存折扣已增加到75%,并且对于长篇小说输入没有额外的费用。 GPT-4.5预览将在2025年7月14日之前弃用,以支持更有效的GPT-4.1家族。
GPT-4.1的每100万代币定价定为2美元的输入$ 2,缓存输入的0.50美元,输出为8美元。 GPT-4.1纳米分别将其降至0.10美元,$ 0.025和0.40美元,以迄今为止最实惠的选择。