币界网报道:
稳定性人工智能(Stability AI)可能正在开始自己的救赎之路。在SD3 Medium令人失望之后,他们又回来了,推出了两款新机型:稳定扩散3.5大和稳定扩散3.5涡轮。
稳定性在一份声明中表示:“6月,我们发布了Stable Diffusion 3 Medium,这是Stable Diffusion 3系列的第一个公开版本。这个版本没有完全符合我们的标准或我们社区的期望。”
官方博客文章中表示:“在听取了宝贵的社区反馈后,我们没有快速解决问题,而是花时间进一步开发了一个版本,以推进我们改造视觉媒体的使命。”
在急于撰写这条突发新闻之前,我们生成了一些图片进行尝试——结果非常非常好。尤其是对于基础模型。
SD 3.5系列旨在在消费级系统上运行,甚至在某些标准下是低端系统,使高级图像生成比以往任何时候都更容易实现。是的,他们已经听到了对前一个版本的抱怨,所以这个版本有望变得更好——以至于他们的特色形象是一个躺在草地上的女人。
此版本的另一个重要方面是新的许可模式。稳定扩散3.5采用更宽松的许可证,允许商业和非商业使用。小企业和收入低于100万美元的人可以免费使用和构建这些模型。收入较高的公司必须联系Stability协商费用。相比之下,黑森林实验室提供其低端Flux Schnell是免费的,其中型Flux Dev是免费且非商业用途的,其SOTA型号Flux Pro是闭源模型(作为参考,Flux通常被认为是目前最好的开源图像生成器,至少在当前的后SDXL时代是这样)。
Stability AI发布了三个版本的Stable Diffusion 3.5,所有版本都满足了不同的需求:
– 稳定扩散3.5大:这是最大的一个,有80亿个参数,旨在提供一流的图像质量和严格的即时遵守。它专为专业用途而设计,特别是在100万像素的分辨率下,但可以处理各种风格和视觉格式。
– 稳定扩散3.5大涡轮:对于那些想用一点质量换取速度的人来说,这款精简版的Large型号是你的首选。它只需四个步骤即可生成高质量的图像,这与普通的SD3.5不同,后者需要大约30个步骤才能生成高质量图像。这相当于Flux Schell。
– 稳定扩散3.5介质:该模型即将推出,具有25亿个参数,并针对消费硬件进行了优化。对于那些需要在0.25至200万像素的分辨率下获得稳定性能,同时又不牺牲易定制性的用户来说,这是一个中间地带。
这些模型更加灵活,允许用户根据特定的创意需求对其进行微调。如果你担心你的消费级GPU能否处理这个问题,Stability AI会支持你。我们自己的测试显示,在具有6GB VRAM的RTX 2060上,Large Turbo可以在大约40秒内吐出图像。非量化的全脂版本在相同的低端硬件上需要3分钟以上的时间,但这就是质量的代价。
为了改善用户体验,Stability重新构想了SD 3.5的行为方式。Stability说:“在开发模型时,我们优先考虑可定制性,以提供灵活的基础。为了实现这一点,我们将查询密钥规范化集成到转换器块中,稳定了模型训练过程,简化了进一步的微调和开发。”。
换句话说,你可以比以前更容易地调整和改进这些模型,无论你是想要创建自定义样式的艺术家还是想要构建AI驱动应用程序的开发人员。稳定甚至共享了LoRA培训指南,帮助事情更快地开始。LoRA(低阶自适应)是一种微调模型以专注于特定概念的技术,无论是风格还是主题,而无需重新训练整个大型基础模型。
稳定扩散3.5在快速粘附方面的表现与Flux.1 Dev相当,但在美学质量方面仍然没有。在图像生成器领域,Large模型现在可以与更大的模型相媲美,并且在遵循用户输入方面处于领先地位。在图像质量方面,Stability的基准测试显示,Flux.1 Dev稍显领先,但SD 3.5 Large的效率更高,资源消耗更少。Stable Diffusion 3.5能够处理多种风格,范围比Flux更广泛。
需要注意的是,SD3.5 Large可以制作某些类型的内容,包括裸体,但并不太困难。该模型没有被故意限制,为用户提供了充分的创作自由(尽管可能需要微调和一些特定的提示才能达到最佳效果)。
稳定性人工智能正在从过去的错误中学习,并朝着一个所有人都能更容易地使用先进人工智能工具的未来迈进。10月29日,我们将获得Stable Diffusion 3.5 Medium,不久之后,Stability承诺发布SD 3.5的Control Nets。ControlNets将带来针对专业用例量身定制的高级控制功能,它们很可能将SD3.5的功能提升到一个新的水平。