OpenAI 发布了 GPT Image 1.5，生成速度提高了 4 倍

开放人工智能释放 GPT Image 1.5 是 ChatGPT Images 的新版本，于周二通过 API 向所有 ChatGPT 用户开放，提供改进的指令遵循、精确编辑和四倍更快的生成速度，以应对 Google 在首席执行官 Sam Altman 泄露的“红色代码”备忘录后的人工智能进步。 GPT Image 1.5 建立在该公司之前的镜像模型 GPT Image 1 的基础上，该模型于 4 月份推出。随着图像和视频生成器从原型过渡到能够处理复杂的实际应用程序的生产就绪工具，此更新随之而来。该模型引入了后期制作功能，可以对编辑进行精细控制，从而保持面部相似度、灯光、构图和色调等方面的视觉一致性。这些功能与 Google Nano Banana Pro 中的功能直接一致，这是其图像生成器的最新版本，受到了广泛关注。此次发布源于奥特曼上个月泄露的内部备忘录中概述的竞争压力。在其中，他宣布了“红色代码”，并指定了 OpenAI 在谷歌夺取市场份额后重新夺回人工智能领域领导地位的战略。谷歌的旗舰机型 Gemini 3 和 Nano Banana Pro 在各项基准测试中均登上了 LMArena 排行榜的榜首，超越了之前的领跑者。 OpenAI 加快了该图像生成器的时间表（原定于 1 月初），以便做出更紧急的响应。即使在 OpenAI 上周推出 GPT-5.2 后，谷歌仍保持领先地位。 OpenAI 将 GPT-5.2 作为迄今为止最先进的模型，专为开发人员和日常专业人士量身定制。尽管做出了这些努力，谷歌的模型仍然在 LMArena 等平台上主导着关键性能指标。 GPT Image 1.5 的演示突出了其增强的指令遵循能力。用户可以请求有针对性的修改，例如“调整面部表情”或“使灯光更冷”，模型会应用这些更改，而无需重新解释或更改整个图像。这种精度解决了生成人工智能图像工具中的一个常见限制，即迭代编辑通常会导致输出不一致，从而偏离原始意图。 https://cdn.openai.com/ctf-cdn/4o_imagegen_hero.mp4

视频：OpenAI

通过 ChatGPT 侧栏中的专用入口点可以访问新的生成器。 OpenAI 应用程序首席执行官 Fidji Simo 在周二的博客文章中将这个界面描述为“更像是一个创意工作室”。她表示：“新的图像查看和编辑屏幕可以更轻松地创建符合您视觉的图像或从趋势提示和预设过滤器中获取灵感。” OpenAI 同时推出了增强功能，将更多视觉元素集成到 ChatGPT 体验中。搜索查询现在会显示附加的视觉效果以及清晰的来源，支持转换测量值或验证体育得分等实际任务。 Simo 解释了其基本原理：“当你进行创作时，你应该能够看到并塑造你正在制作的东西。当视觉效果比单独的文字更好地讲述故事时，ChatGPT 应该将它们包括在内。”她补充道，“当你需要快速答案或下一步需要另一种工具时，它就在那里。当我们这样做时，我们可以不断缩小你的想法和你将其变为现实的能力之间的距离。”

特色图片来源