新智元报道

编辑：LRS

【新智元导读】 开源、免费的Stable Diffusion就能到达Midjourney水平！

自从Midjourney发布v5之后，在生成图画的人物实在程度、手指细节等方面都有了明显改善，而且在prompt了解的精确性、审美多样性和语言了解方面也都取得了进步。

比较之下，Stable Diffusion虽然免费、开源，但每次都要写一大长串的prompt，想生成高质量的图画全赖多次抽卡。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

最近Stability AI的官宣，正在研发的Stable Diffusion XL开端面向大众测试，现在能够在Clipdrop渠道免费试用。

试用链接：clipdrop.co/stable-diff…

Stability AI的创始人兼首席执行官Emad Mostaque表明，现在该模型仍然处于练习阶段，等参数安稳后将会开源；SD-XL在「握手」等图画细节方面会体现更好，简直完全可控。

Stable Diffusion XL也并不是终究发布版的名字，而且也并非是v3，由于SD-XL的架构和SD-v2系列的模型架构十分类似。

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

精约的家庭健身房，橡胶地板，壁挂式电视，举重凳，药球，哑铃，瑜伽垫，高科技设备，高细节，组织和效率

下面几张SD-XL官方发布的例图，能够看出图画的质量现已十分能打了。

不过有时候less并不代表more，有网友以为SD-XL为了摆脱「糟糕的品味」，设定了太多的规则，定制化空间越来越小，不契合大多数人的喜好。现在v1.5的Stable Diffusion仍然是社区内最盛行的基座模型。

网友表明期望新版SD能够和SD 2.1版别的嵌入、hypernetworkds和Lora模型坚持兼容，再从零开端重训的话就太难受了。

也有网友以为，SD-XL的体现和civit网站上网友共享的模型差不多，新模型的作用也并不是特别惊艳，也就是平均水平。

SD-XL：开源版Midjourney

关于Stable Diffusion XL模型的具体信息，官方并没有透露太多，现在只知道是一个与v2模型架构类似、但规划和参数量更大的模型。

SD-v2.1包括9亿参数，SD-XL大约有23亿参数，Emad表明正式版可能会额定发布一个更小的蒸馏版别。

SD-XL比较之前版别的改善如下：

运用较短的描述性prompt即可生成高质量图画
能够生成更贴合prompt的图画
图画中的人体结构更合理
与 v2.1和 v1.5版别(程度较轻)比较，SD-XL生成的图片更契合大众审美
负面提示词（negative prompt）是可选项
生成的肖像图更传神
图画中的文本更清晰

需求留意的是，SD-XL可能与之前版别的插件不兼容。

清晰可读的文字

在v1系列和v2.1版别的Stable Diffusion模型中，并不具有在图片中生成可读文本的才能。

虽然SD-XL生成的文本信息并不总是精确，但确实得到了巨大的提升。

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女性坐在餐馆里拿着写着「Menu」的菜单

Photo of a man holding a sign that says “Stable Diffusion”

一个男人举着写着「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light一个年青的女性举着一个牌子，上面写着「Stable Diffusion」，头发高亮，坐在餐厅外面，棕色的眼睛，穿戴裙子，侧灯

更好的人体结构

Stable Diffusion在生成人体解剖结构方面一向存在许多问题，多几条腿、少个臂膀实在是太常见不过的问题，通常需求运用inpaint功能进一步对图画细节进行修正；或者是运用ControlNet的Open Pose功能从参考图画中复制人体的姿态。

比方说SD-v1.5生成瑜伽的图画，经常会出现歪曲的人体。

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting一个女性的相片在瑜伽服装，三角形的姿势，海滩在晚上，边际照明

SD-XL虽然生成的图画并不完美，不过在人体姿态方面现已有了明显的进步。

更有美感（more aesthetic）

比方相同以屋子为主题，SD-XL能够生成更对称、视觉作用更好的相片。

SD-XL在肖像相片上也有明显改善。

photo shot of a woman一个女性的相片

更贴合prompt的图画

SD-XL能够更好地了解输入的prompt，并生成更精确的图画。

比方以duotone（双色）为例，SD-v1.5只会生成黑白图画，而SD-XL则能够生成具有多种色彩的双色彩图画。

与 v1模型比较，了解提示符的才能有所提高。

duotone portrait of a woman

一个女性的双色彩肖像

由于SD-XL同属v2系列模型，所以文本模型尺寸更大，能够比v1模型更好地了解提示词。

比方下面的比方中，v1.5模型始终无法了解图画中的两个主题（机器人和人类），但SD-XL模型能够生成正常的图画（虽然机器人仍是不够big）。

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background一个年青人，头发染得很亮，棕色眼睛，穿戴白衬衫和蓝色牛仔裤，站在海滩上，背景是一座火山

艺术风格

在艺术风格上，SD-XL并没有明显改善，和之前的版别各有千秋。

比方两个模型以不同的角度生成了Edward Hopper风格的图画。

New York city by Edward Hopper

Edward Hopper制作的纽约

Leonid Afmov 的风格中，SD-v1.5更精确，SD-XL缺少了不同色彩的笔刷（unmistakable colorful board brushstrokes）。

New York city by Leonid Afremov

Leonid Afemov制作的纽约

William-Adolphe Bouguereau风格中，V1.5和SDXL都能够生成一些类似的内容，其间SD-XL更挨近Bouguereau创造的经典学院派绘画，而且面部细节更多。

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau制作的美女肖像

风格改变问题

在添加一些无关紧要的关键字后，模型的风格可能会突然改变。

比方先生成一张相片风格的图画。

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年青人，头发染得很亮，棕色眼睛，穿戴白衬衫和蓝色牛仔裤，站在海滩上，背景是一座火山

再添加一条黄色的围巾后，图画风格就变成了卡通风格。

a young man, highlights in hair, brown eyes,wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年青人，头发染得很亮，棕色的眼睛，围着黄色的围巾，穿戴白衬衫和蓝色牛仔裤，站在一个火山为背景的海滩上

问题的毛病可能源于预览问题，在正式发布后该问题不知能否得到解决。

参考资料：clipdrop.co/stable-diff…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

SD-XL：开源版Midjourney

近期文章

近期评论