我的同事 布尼亚明·福尔坎·德米尔卡亚 收到一封来自 Stability AI 的电子邮件,介绍了 Stable Diffusion 3.5 Medium,这是一个免费用于商业和非商业用途的开放模型。该模型拥有 25 亿个参数,旨在在消费类硬件上高效运行,为高级 AI 图像生成提供更广泛的访问权限。让我们探讨一下这个新型号提供的功能及其与各种 GPU 的兼容性。
专为消费类硬件而设计
Stable Diffusion 3.5 培养基在创建时考虑到了可访问性。与许多需要专门且昂贵的硬件的高级模型不同,该模型可以在大多数消费级 GPU 上运行,而不会造成任何重大的性能影响。根据 Stability AI 的电子邮件,“该模型仅需要 9.9 GB 的 VRAM(不包括文本编码器)即可发挥其全部性能”,使其成为业余爱好者、创作者和缺乏预算的小型初创公司最容易获得的选择之一。高端 GPU。
Stability AI分享的硬件兼容性图表清楚地说明了这一点。例如,像 NVIDIA RTX 3080 及更高版本这样的 GPU 可以运行 Stable Diffusion 3.5 Medium,而不会影响性能。即使是更实惠的 GPU,例如 NVIDIA RTX 4060 或 RTX 3060,也可以管理此模型,尽管需要进行量化或顺序卸载等某些优化。
硬件兼容性
该图表按 VRAM 容量对几种 GPU 进行分类,并提供对支持哪些型号的深入了解。以下是详细的细分:
- 8GB 显存(NVIDIA GeForce RTX 4060):像 Stable Diffusion 3.5 Medium 这样的模型可能会在性能上有所妥协,在图表中用橙色符号表示。需要进行量化等优化才能有效管理有限的 VRAM。
- 10GB 显存(NVIDIA GeForce RTX 3080):完全兼容,无需权衡,如绿色勾号所示。这意味着模型运行平稳,利用可用的 VRAM 有效地生成高质量图像。
- 12-16GB VRAM(NVIDIA GeForce RTX 4070、4060 Ti、4080 等):具有更多 VRAM 的 GPU(例如 NVIDIA RTX 4070 和 AMD Radeon RX 7700 XT)在运行 Stable Diffusion 3.5 Medium 和类似型号时没有任何问题。这些 GPU 功能强大,无需任何修改即可“开箱即用”运行模型。
- 20GB+ 显存(AMD Radeon RX 7900 XT、NVIDIA GeForce RTX 3090):更大的模型,包括 FLUX.1 和 Playground v2.5,可以在这些更高容量的 GPU 上高效运行。此类别通常针对寻求更多模型使用多功能性的高级用户或专业人士。
- 32GB 或更大 (NVIDIA H100):这些高端 GPU 可以轻松运行任何开放图像基础模型,甚至使最大的模型也能不受限制地运行。

先进的多分辨率功能
Stability AI 将 Stable Diffusion 3.5 Medium 描述为“在其尺寸范围内提供同类最佳的图像生成”。该型号先进的多分辨率功能使其在其他中型型号中脱颖而出。对于创作者来说,这意味着更清晰的图像和高水平的细节,而无需强大的工作站。
即时依从性和美观质量图表将 Stable Diffusion 3.5 Medium 与其他几种型号进行了比较,提供了更多视角。值得注意的是,Elo 的即时依从性和美观质量得分表明,Stable Diffusion 3.5 Medium 的性能与大多数类似尺寸的型号相当或更好。
性能对比
该图表使用 Elo 评分系统,通过及时遵守和审美质量来评估多个开放模型。可以得出以下见解:
- 稳定扩散3.5大号(8.1B):稳定扩散 3.5 Large 在快速遵守方面排名靠前,这意味着模型精确地遵循用户输入。这对于在根据提示生成图像时追求高精度的用户至关重要。
- 通量.1 [dev] (12B):具有最高美学质量评级的模型。其优异的分数反映了其生成具有视觉吸引力且与用户提示非常一致的图像的能力。然而,它比 Stable Diffusion 3.5 Medium 等中型模型需要更多的硬件资源。
- 稳定扩散3.5中(2.5B):作为一种高效模型,在即时依从性和图像质量之间实现了强有力的平衡,它提供了出色的输出,而无需大型模型的繁重资源需求。这使其成为硬件有限但希望获得高级图像生成功能的用户的理想选择。
- Playground v2.5 (3.5B) 和 AuraFlow v0.2 (6.8B):这些模型虽然提供了不错的性能,但在平衡的即时依从性和质量方面达不到 Stable Diffusion 3.5 Medium。如果精度和美观质量是首要考虑因素,那么它们就不太适合。

Stable Diffusion 3.5 Medium 拥有 25 亿个参数,在 AI 模型领域占据着独特的地位。高性能、较低的硬件要求和多分辨率功能的结合使其成为广大用户的引人注目的选择。 Stability AI 旨在降低基于人工智能的创造力的准入门槛,针对从初创公司到成熟的创作者等可能没有部署大型资源密集型模型的基础设施的所有人。
该公司的直接声明称,“无论是初创公司还是创造者,对这项技术的访问不应受到硬件限制的限制。”这反映了 Stability AI 强调通过解决传统上访问性有限的硬件挑战来实现人工智能工具的民主化。
这对创作者和初创公司意味着什么
Stability AI 关注的关键点之一是确保其工具可供尽可能广泛的受众使用。对消费级硬件的重视反映了一种利用更广泛用户群的战略。通过使 Stable Diffusion 3.5 Medium 能够在经济实惠的 GPU 上运行,他们正在解决市场上的一个重大缺口——弥合高级用户和发烧友用户之间的鸿沟。
查看硬件兼容性图表可以看出我们有意关注流行的消费类显卡。 NVIDIA RTX 3060 是创作者中相当常见的 GPU,虽然需要一些权衡,但还是兼容的。这种多功能性为以前由于硬件限制而无法访问人工智能工具的用户打开了大门。
该模型的推出意义重大。对于小型创作者和初创公司来说,无需高昂的前期硬件成本即可运行强大的图像生成模型,从而创造了公平的竞争环境。受到资源有限的竞争对手现在有了进入人工智能辅助创意工作的可行切入点。
与图表中其他型号的比较突显了此版本如何带来显着价值。与 AuraFlow 或 PixArt-Σ 等模型不同,这些模型要么需要大量硬件,要么无法提供图像质量,Stable Diffusion 3.5 Medium 的目标是在性能和可访问性之间取得平衡。
图像质量、及时遵守和实际使用
Stable Diffusion 3.5 Medium 的性能还扩展到图像生成的定性方面。在实际场景中,及时遵守和美观质量之间的良好平衡至关重要,特别是对于需要根据特定详细输入创建艺术品或生成内容的用户而言。
Stability AI 分享的 Elo 分数图显示,中等模型可以与较大的模型很好地竞争,同时需要更少的资源。例如,它在快速附着力和美观质量方面几乎与 SD 3.5 Large Turbo (8.1B) 相匹配,但可以部署在功能较弱的 GPU 上。
如何尝试稳定扩散 3.5 介质
对于有兴趣测试该模型的用户,Stability AI 提供了一条简单的途径。权重可在以下网站下载 抱脸,推理代码可以在 GitHub。这种直接访问确保开发人员和创建者可以轻松开始使用 Stable Diffusion 3.5 Medium,将其集成到现有工作流程中或从头开始构建新项目。
除了核心模型之外,Stability AI 的博客上还提供了完整的详细信息,提供了对底层技术的见解以及如何充分利用其功能的进一步指导。
特色图片来源: 凯雷姆·葛兰/表意文字