Openai只是将其最先进的图像生成器集成到GPT-4O中,使图像生成成为其语言模型的“主要功能”。这允许创建精确的,逼真的图像,可用于从图表到视觉交流的各种任务。
人类一直依靠视觉图像来获得不仅仅是装饰,还想到洞穴绘画演变成现代的信息图表。尽管当前的生成模型在创建令人惊叹的视觉效果方面表现出色,但它们通常在产生实用图像方面缺乏。例如,徽标和图需要精确的含义和共享上下文,GPT-4O旨在交付的东西。
GPT-4O可以准确地渲染文本,密切关注提示并利用其内置的知识库,包括转换上传的图像。这些功能有助于使图像创建成为更实用的工具,从而通过精确地增强视觉交流。
培训涉及将模型暴露于在线图像和文本的混合中,不仅教它们与语言之间的关系,还教它们如何互连。密集的训练后进一步增强了模型的视觉流利性,从而产生了一致和上下文感知的图像产生。
GPT-4O图像生成功能包括:
- 文本渲染: 将精确的符号与图像整合在一起。
- 多转变一代: 通过连续对话来完善图像。
- 在文章中学习: 分析和从用户删除图像中学习。
- 世界知识: 链接文本和图像之间的知识。
- 光真主和风格: 创建或转换各种样式的图像。
尽管取得了这些进步,但该模型并非完美无瑕。 Openai承认诸如裁剪问题,幻觉以及精确的图形和多语言文本渲染的挑战之类的限制,他们所有这些都计划解决后发布后。
安全仍然是优先事项。 OpenAI的目的是平衡创意自由与强大的安全标准,实施C2PA出处和内部搜索机制等措施,以防止滥用。
GPT-4O中的新图像生成功能正在推广到Plus,Pro,Team和Chatgpt的免费用户。企业和EDU用户很快也可以使用。开发人员可以期待未来几周的API访问。用户可以通过描述聊天中的需求来创建图像,并指定宽高比或颜色之类的详细信息。
由于其图像的详细性质,他们可能需要一分钟才能渲染。