Google Whisk 可让您将任何图像变成毛绒玩具或贴纸

谷歌有推出一种名为 Whisk 的新型人工智能图像生成工具，它允许用户从现有图像创建视觉输出。通过 Google Labs 的更新宣布，Whisk 采用 Gemini 语言模型进行图像理解和 Imagen 3 图像生成器。目前，它仅在美国销售

谷歌推出 Whisk：用于创意图像生成的人工智能工具

Whisk 的工作原理是捕获所提供图像的“本质”，而不是直接复制它。用户输入图像以及预定义的样式（包括贴纸、珐琅别针和毛绒玩具），以获得创造性地改变的输出。该工具侧重于头脑风暴和快速可视化，而不是最终的制作内容。简单的界面有助于用户产生初步概念。

高级编辑器模式可通过“从头开始”选项访问，为用户提供指定主题、场景和风格类别详细信息的选项。用户还可以添加文本进行细化。然而，正如测试期间所观察到的，一些输出与用户的期望并不完全一致。谷歌警告说，Whisk 会改变输出图像的属性，例如身高、体重和发型，与原始输入不同。

在底层，Whisk 的功能建立在 Gemini 模型生成有关上传图像的详细说明的能力之上。然后 Imagen 3 生成器利用这些字幕来创建新的视觉效果。这一过程凸显了 Whisk 促进创意自由的目标，使用户能够跨不同视觉格式重新混合元素。

在 Whisk 推出的同时，Google 还推出了 Veo 2，这是其视频生成模型的新版本。此最新更新展示了改进的视频生成功能，通过对现实世界物理和人体运动的深入理解来生成高质量的内容。在测试中，Veo 2 显示“幻觉”频率降低，“幻觉”通常涉及生成内容中的错误或意外细节。

用户可以在视频提示中请求特定的拍摄风格或属性，从而增强生成的输出的细节水平，包括请求 4K 分辨率视频。 Veo 2 制作的视频体现了目前可达到的高质量电影效果，有效满足了各种用户需求。

Imagen 3 型号也进行了升级，能够生成更明亮、构图更佳的各种风格的图像。这种改进的模型更准确地遵循用户提示并生成复杂的纹理。通过针对竞争图像生成模型的用户测试，Imagen 3 取得了最先进的结果。

作为 Google 负责任的 AI 开发承诺的一部分，Whisk 和最新模型的输出都包含不可见的 SynthID 水印，有助于防止错误信息。这种对安全的关注伴随着谨慎的推出过程。用户可以通过Google实验室访问这些新功能，在那里他们可以注册更新和功能增强。

图片来源：谷歌

Tags: 人工智能精选