Stability AI 最新推出的稳定扩散 3 Medium 最近首次亮相,在 SD3 社区中引起了兴奋和争议。
作为一种文本到图像的模型,Stable Diffusion 3 Medium 旨在将文本提示转换为视觉上引人注目的图像,但人们对它的反响褒贬不一,尤其是在人物描绘方面。
尽管 Stability AI 将其描述为“迄今为止最复杂的图像生成模型”, 博客文章,我们看到的结果是……让我们不要粉饰它: 噩梦燃料!
稳定扩散 3 介质的谱系
Stable Diffusion 3 Medium 的根源可以追溯到 Stability AI 开发的 AI 图像合成模型。此迭代建立在其前辈奠定的基础之上,融合了技术和训练方法方面的进步。该模型的名称“Medium”表明了它在更广泛的 Stable Diffusion 3 系列中的地位,表明 计算效率和生成能力之间的平衡。
稳定扩散 3 介质 采用复杂的神经网络架构 将文本提示解释并转化为视觉表示。该模型的训练数据包括大量图像及其相应的文本描述,在塑造其生成连贯且上下文相关的图像的能力方面起着关键作用。
SD3 在哪里失败?
Stable Diffusion 3 Medium 在各个领域都表现出色。它对涉及空间关系、构图元素和多种风格的复杂提示的把握和响应能力值得称赞。该模型在生成细节复杂、色彩鲜艳的图像方面的能力也显而易见。
然而但它偶尔会因为无法准确描绘人体结构(尤其是手和脸)而受到批评,正如 角质金属以及社交媒体上许多其他人的帖子。这些缺陷引发了人们对该模型的训练数据以及其开发过程中采用的过滤机制的潜在影响的质疑。
用于训练 Stable Diffusion 3 Medium 的训练数据涵盖了广泛的视觉内容,其中包括:
- 照片
- 艺术品
- 插图
然而,该模型的开发人员已经实施了过滤过程,以 从此数据集中排除露骨或敏感的材料。虽然这些过滤器旨在确保模型的负责任的使用,但它们无意中导致了 删除描绘特定姿势或解剖细节的图像,导致模型难以准确渲染人体形象。
让我们测试一下 Stable Diffusion 3 Medium
您可以使用提供可访问交互界面的在线平台轻松地对模型进行测试。
你知道互联网,它包含了如此多的人和如此多的想法。 按照 2024 年的标准准备的图像生成模型能有多糟糕?
我们尝试了 Hugging Face 上的 SD3 免费在线演示 来得到我们的答案。
以下是我们的提示和结果:
除了缺少一只眼睛外,这只狗的身体结构似乎没有问题,但这名女子的手和腿看起来真的像是遭遇了可怕的事故……
看来数学不仅让这个小男孩感到困惑,还让他的手指变得很长,并将他的一只手融化在桌子上!
你知道吗,如果你有三只手臂和 12 根手指(也许更多,因为我们看不到第三只手臂的手),你可以同时进行两次静脉注射治疗?至少这一次,除了生病以外,狗没有其他问题……
没关系,似乎甚至没有 ComfyUI 稳定扩散 3 可以保存它……
如何在线试用 SD3
虽然稳定扩散 3 培养基遭到了不少批评,但根据我们的经验,这些批评并不算太过分。如果您想亲自尝试 SD3,请按照以下步骤操作:
- 转到演示: 访问 Hugging Face Spaces 上的稳定扩散 3 中等演示
- 输入您的提示: 在提供的文本框中输入所需图像的描述。
- 产生: 单击“生成”按钮并等待模型创建您的图像。
- 审查并完善: 检查生成的图像。如果它不是您预期的,请调整提示并重试。
虽然 Stable Diffusion 3 Medium 遭到了不少批评,但承认其作为一项宝贵资产的潜力至关重要。该模型理解复杂提示和生成不同风格、视觉上有吸引力的图像的能力仍然值得关注。随着技术的成熟和进一步发展,它将为我们不断扩展的创意表达方式做出重大贡献。
不过,目前我们建议使用 Midjourney,特别是在引入 中途旅程模型个性化。
特色图片来源: 稳定性人工智能