与Midjourney开战！Stable Diffusion XL 0.9重磅发布，35亿+66亿双模型，AI图像生成飞跃式进步

【新智元导读】尽管此前CEO曾陷入种种争议，但依然不影响Stability AI登上年代杂志。近日，该公司又发布了Stable Diffusion 的XL 0.9版别，35亿+66亿双模型，搭载最大OpenCLIP，让AI生图质量又有了新的腾跃。

Stable Diffusion又双叒升级了！

最近，Stability AI发布了最新版的Stable Diffusion XL 0.9（SDXL 0.9）。

比起之前的模型，这波更新在图画和构图细节上，都有了质的腾跃。

与Midjourney开战！Stable Diffusion XL 0.9重磅发布，35亿+66亿双模型，AI图像生成飞跃式进步

尤其是在参数上，这次的SDXL0.9具有35亿参数基础模型和66亿参数模型的集成管线。比较之下，Beta测试版仅用了单个31亿参数的模型。

为了生成更传神的图画，以及更大的深度和更高的分辨率（1024×1024），SDXL 0.9运用了两个CLIP模型，包含迄今为止最大的OpenCLIP模型（OpenCLIP ViT-G/14）。

不仅如此，SDXL 0.9在消费级显卡上就能运转。只需要Win10/11或Linux操作系统、16GB内存，以及具有8GB以上显存的英伟达RTX 20系显卡即可。

SDXL 0.9和SDXL Beta的差异终究有多大？

我们看图说话。

实测效果

下面就来看看新版的SDXL 0.9，在图片细节上有什么不一样吧~

Prompt：外星人在拉斯维加斯散步

SDXL Beta版

SDXL 0.9

Prompt：优胜美地国家公园的一只狼

Negative prompt：3d渲染，润滑，塑料，含糊，颗粒感，低分辨率，动漫，过度饱满

SDXL Beta版

SDXL 0.9

Prompt：手举咖啡

Negative prompt：3d渲染，润滑，塑料，含糊，颗粒状，低分辨率，动漫

SDXL Beta版

SDXL 0.9

官方表明，SDXL系列还会提供一系列超越根本文本prompt的功能。

包含图画对图画的prompt（输入一个图画以获得该图画的改变）、内画（重建图画的缺失部分）和外画（构建一个现有图画的无缝扩展）。

SDXL 0.9在两个CLIP模型上运转，包含迄今为止练习的最大的OpenCLIP模型之一（OpenCLIP ViT-G/14），这增强了0.9的处理才能和发明具有更大深度和1024×1024更高分辨率的传神图画的才能。

SDXL团队不久将发布一个研究博客，更详细地介绍这个模型的标准和测试。

荣登Time最具影响力公司

就在最近，Stability AI被年代杂志选为100家最有影响力的公司之一。

关于Stability AI，年代杂志是这样介绍的——

如果你能用文字描述，Stability AI能够将其转化为图片。

Stable Diffusion是该公司帮助练习的免费开源文本到图画生成器，在8月份推出后，它改变了世界关于AI潜力的了解。

然而，Stability AI很快陷入了种种争议，包含如何练习这些工具，以及从互联网上获取数据的版权诉讼之中。

尽管如此，该公司表明，在推出Stable Diffusion 2.0的一个月内，App Store TOP 10应用中的4个，背面都是这个模型。

而公司CEO Emad Mostaque也被报道常常夸张公司的表现，此前他曾声称：Stability AI「真正的开源」为「突破」铺平了路途。

SDXL Beta

实际上，SDXL的Beta版别也没发布多久，可见作图这一块的版别迭代真的是日新月异。

当时，StabilityAI就表明，Stable Diffusion XL并不是终究发布版的姓名，而且也并非是v3，因为SD-XL的架构和SD-v2系列的模型架构非常类似。

下面几张SD-XL官方发布的例图，能够看出图画的质量已经非常能打了。

SD-XL比较之前版别的改善如下：

运用较短的描述性prompt即可生成高质量图画
能够生成更贴合prompt的图画
图画中的人体结构更合理
与 v2.1和 v1.5版别(程度较轻)比较，SD-XL生成的图片更契合大众审美
负面提示词（negative prompt）是可选项
生成的肖像图更传神
图画中的文本更明晰

明晰可读的文字

在v1系列和v2.1版别的Stable Diffusion模型中，并不具有在图片中生成可读文本的才能。

尽管SD-XL生成的文本信息并不总是准确，但的确得到了巨大的提高。

一个年轻的女性举着一个牌子，上面写着「Stable Diffusion」，头发高亮，坐在餐厅外面，棕色的眼睛，穿着裙子，侧灯

更好的人体结构

Stable Diffusion在生成人体解剖结构方面一向存在许多问题，多几条腿、少个胳膊实在是太常见不过的问题。

比方说SD-v1.5生成瑜伽的图画，常常会出现扭曲的人体。

而SD-XL尽管生成的图画并不完美，不过在人体姿势方面已经有了明显的进步。

更有美感（more aesthetic）

比方相同以屋子为主题，SD-XL能够生成更对称、视觉效果更好的相片。

SD-XL在肖像相片上也有明显改善。

一个女人的相片

参考资料：

stability.ai/blog/sdxl-0…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

与Midjourney开战！Stable Diffusion XL 0.9重磅发布，35亿+66亿双模型，AI图像生成飞跃式进步

【新智元导读】尽管此前CEO曾陷入种种争议，但依然不影响Stability AI登上年代杂志。近日，该公司又发布了Stable Diffusion 的XL 0.9版别，35亿+66亿双模型，搭载最大OpenCLIP，让AI生图质量又有了新的腾跃。

近期文章

近期评论