谷歌有 推出 一种名为 Whisk 的新型人工智能图像生成工具,它允许用户从现有图像创建视觉输出。通过 Google Labs 的更新宣布,Whisk 采用 Gemini 语言模型进行图像理解和 Imagen 3 图像生成器。目前,它仅在美国销售
谷歌推出 Whisk:用于创意图像生成的人工智能工具
Whisk 的工作原理是捕获所提供图像的“本质”,而不是直接复制它。用户输入图像以及预定义的样式(包括贴纸、珐琅别针和毛绒玩具),以获得创造性地改变的输出。该工具侧重于头脑风暴和快速可视化,而不是最终的制作内容。简单的界面有助于用户产生初步概念。
高级编辑器模式可通过“从头开始”选项访问,为用户提供指定主题、场景和风格类别详细信息的选项。用户还可以添加文本进行细化。然而,正如测试期间所观察到的,一些输出与用户的期望并不完全一致。谷歌警告说,Whisk 会改变输出图像的属性,例如身高、体重和发型,与原始输入不同。
在底层,Whisk 的功能建立在 Gemini 模型生成有关上传图像的详细说明的能力之上。然后 Imagen 3 生成器利用这些字幕来创建新的视觉效果。这一过程凸显了 Whisk 促进创意自由的目标,使用户能够跨不同视觉格式重新混合元素。
在 Whisk 推出的同时,Google 还推出了 Veo 2,这是其视频生成模型的新版本。此最新更新展示了改进的视频生成功能,通过对现实世界物理和人体运动的深入理解来生成高质量的内容。在测试中,Veo 2 显示“幻觉”频率降低,“幻觉”通常涉及生成内容中的错误或意外细节。
用户可以在视频提示中请求特定的拍摄风格或属性,从而增强生成的输出的细节水平,包括请求 4K 分辨率视频。 Veo 2 制作的视频体现了目前可达到的高质量电影效果,有效满足了各种用户需求。
Imagen 3 型号也进行了升级,能够生成更明亮、构图更佳的各种风格的图像。这种改进的模型更准确地遵循用户提示并生成复杂的纹理。通过针对竞争图像生成模型的用户测试,Imagen 3 取得了最先进的结果。
作为 Google 负责任的 AI 开发承诺的一部分,Whisk 和最新模型的输出都包含不可见的 SynthID 水印,有助于防止错误信息。这种对安全的关注伴随着谨慎的推出过程。用户可以通过Google实验室访问这些新功能,在那里他们可以注册更新和功能增强。
图片来源: 谷歌