AI稳定扩散35利用新模型和扩展功能重新定义自身的稳定性

币界网报道：
稳定性人工智能（Stability AI）可能正在开始自己的救赎之路。在SD3 Medium令人失望之后，他们又回来了，推出了两款新机型：稳定扩散3.5大和稳定扩散3.5涡轮。

稳定性在一份声明中表示：“6月，我们发布了Stable Diffusion 3 Medium，这是Stable Diffusion 3系列的第一个公开版本。这个版本没有完全符合我们的标准或我们社区的期望。”

官方博客文章中表示：“在听取了宝贵的社区反馈后，我们没有快速解决问题，而是花时间进一步开发了一个版本，以推进我们改造视觉媒体的使命。”

在急于撰写这条突发新闻之前，我们生成了一些图片进行尝试——结果非常非常好。尤其是对于基础模型。

SD 3.5系列旨在在消费级系统上运行，甚至在某些标准下是低端系统，使高级图像生成比以往任何时候都更容易实现。是的，他们已经听到了对前一个版本的抱怨，所以这个版本有望变得更好——以至于他们的特色形象是一个躺在草地上的女人。

此版本的另一个重要方面是新的许可模式。稳定扩散3.5采用更宽松的许可证，允许商业和非商业使用。小企业和收入低于100万美元的人可以免费使用和构建这些模型。收入较高的公司必须联系Stability协商费用。相比之下，黑森林实验室提供其低端Flux Schnell是免费的，其中型Flux Dev是免费且非商业用途的，其SOTA型号Flux Pro是闭源模型（作为参考，Flux通常被认为是目前最好的开源图像生成器，至少在当前的后SDXL时代是这样）。

Stability AI发布了三个版本的Stable Diffusion 3.5，所有版本都满足了不同的需求：
– 稳定扩散3.5大：这是最大的一个，有80亿个参数，旨在提供一流的图像质量和严格的即时遵守。它专为专业用途而设计，特别是在100万像素的分辨率下，但可以处理各种风格和视觉格式。
– 稳定扩散3.5大涡轮：对于那些想用一点质量换取速度的人来说，这款精简版的Large型号是你的首选。它只需四个步骤即可生成高质量的图像，这与普通的SD3.5不同，后者需要大约30个步骤才能生成高质量图像。这相当于Flux Schell。
– 稳定扩散3.5介质：该模型即将推出，具有25亿个参数，并针对消费硬件进行了优化。对于那些需要在0.25至200万像素的分辨率下获得稳定性能，同时又不牺牲易定制性的用户来说，这是一个中间地带。

这些模型更加灵活，允许用户根据特定的创意需求对其进行微调。如果你担心你的消费级GPU能否处理这个问题，Stability AI会支持你。我们自己的测试显示，在具有6GB VRAM的RTX 2060上，Large Turbo可以在大约40秒内吐出图像。非量化的全脂版本在相同的低端硬件上需要3分钟以上的时间，但这就是质量的代价。

为了改善用户体验，Stability重新构想了SD 3.5的行为方式。Stability说：“在开发模型时，我们优先考虑可定制性，以提供灵活的基础。为了实现这一点，我们将查询密钥规范化集成到转换器块中，稳定了模型训练过程，简化了进一步的微调和开发。”。

换句话说，你可以比以前更容易地调整和改进这些模型，无论你是想要创建自定义样式的艺术家还是想要构建AI驱动应用程序的开发人员。稳定甚至共享了LoRA培训指南，帮助事情更快地开始。LoRA（低阶自适应）是一种微调模型以专注于特定概念的技术，无论是风格还是主题，而无需重新训练整个大型基础模型。

稳定扩散3.5在快速粘附方面的表现与Flux.1 Dev相当，但在美学质量方面仍然没有。在图像生成器领域，Large模型现在可以与更大的模型相媲美，并且在遵循用户输入方面处于领先地位。在图像质量方面，Stability的基准测试显示，Flux.1 Dev稍显领先，但SD 3.5 Large的效率更高，资源消耗更少。Stable Diffusion 3.5能够处理多种风格，范围比Flux更广泛。

需要注意的是，SD3.5 Large可以制作某些类型的内容，包括裸体，但并不太困难。该模型没有被故意限制，为用户提供了充分的创作自由（尽管可能需要微调和一些特定的提示才能达到最佳效果）。

稳定性人工智能正在从过去的错误中学习，并朝着一个所有人都能更容易地使用先进人工智能工具的未来迈进。10月29日，我们将获得Stable Diffusion 3.5 Medium，不久之后，Stability承诺发布SD 3.5的Control Nets。ControlNets将带来针对专业用例量身定制的高级控制功能，它们很可能将SD3.5的功能提升到一个新的水平。