新智元报道
编辑:LRS
【新智元导读】 开源、免费的Stable Diffusion就能到达Midjourney水平!
自从Midjourney发布v5之后,在生成图画的人物实在程度、手指细节等方面都有了明显改善,而且在prompt了解的精确性、审美多样性和语言了解方面也都取得了进步。
比较之下,Stable Diffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图画全赖多次抽卡。

最近Stability AI的官宣,正在研发的Stable Diffusion XL开端面向大众测试,现在能够在Clipdrop渠道免费试用。

试用链接:clipdrop.co/stable-diff…
Stability AI的创始人兼首席执行官Emad Mostaque表明,现在该模型仍然处于练习阶段,等参数安稳后将会开源;SD-XL在「握手」等图画细节方面会体现更好,简直完全可控。

Stable Diffusion XL也并不是终究发布版的名字,而且也并非是v3,由于SD-XL的架构和SD-v2系列的模型架构十分类似。

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.
精约的家庭健身房,橡胶地板,壁挂式电视,举重凳,药球,哑铃,瑜伽垫,高科技设备,高细节,组织和效率
下面几张SD-XL官方发布的例图,能够看出图画的质量现已十分能打了。




不过有时候less并不代表more,有网友以为SD-XL为了摆脱「糟糕的品味」,设定了太多的规则,定制化空间越来越小,不契合大多数人的喜好。现在v1.5的Stable Diffusion仍然是社区内最盛行的基座模型。

网友表明期望新版SD能够和SD 2.1版别的嵌入、hypernetworkds和Lora模型坚持兼容,再从零开端重训的话就太难受了。

也有网友以为,SD-XL的体现和civit网站上网友共享的模型差不多,新模型的作用也并不是特别惊艳,也就是平均水平。

SD-XL:开源版Midjourney
关于Stable Diffusion XL模型的具体信息,官方并没有透露太多,现在只知道是一个与v2模型架构类似、但规划和参数量更大的模型。
SD-v2.1包括9亿参数,SD-XL大约有23亿参数,Emad表明正式版可能会额定发布一个更小的蒸馏版别。
SD-XL比较之前版别的改善如下:
-
运用较短的描述性prompt即可生成高质量图画
-
能够生成更贴合prompt的图画
-
图画中的人体结构更合理
-
与 v2.1和 v1.5版别(程度较轻)比较,SD-XL生成的图片更契合大众审美
-
负面提示词(negative prompt)是可选项
-
生成的肖像图更传神
-
图画中的文本更清晰
需求留意的是,SD-XL可能与之前版别的插件不兼容。
清晰可读的文字
在v1系列和v2.1版别的Stable Diffusion模型中,并不具有在图片中生成可读文本的才能。
虽然SD-XL生成的文本信息并不总是精确,但确实得到了巨大的提升。

Photo of a woman sitting in a restaurant holding a menu that says “Menu”
一个女性坐在餐馆里拿着写着「Menu」的菜单

Photo of a man holding a sign that says “Stable Diffusion”
一个男人举着写着「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light一个年青的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿戴裙子,侧灯
更好的人体结构
Stable Diffusion在生成人体解剖结构方面一向存在许多问题,多几条腿、少个臂膀实在是太常见不过的问题,通常需求运用inpaint功能进一步对图画细节进行修正;或者是运用ControlNet的Open Pose功能从参考图画中复制人体的姿态。
比方说SD-v1.5生成瑜伽的图画,经常会出现歪曲的人体。

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting一个女性的相片在瑜伽服装,三角形的姿势,海滩在晚上,边际照明
SD-XL虽然生成的图画并不完美,不过在人体姿态方面现已有了明显的进步。

更有美感(more aesthetic)
比方相同以屋子为主题,SD-XL能够生成更对称、视觉作用更好的相片。

SD-XL在肖像相片上也有明显改善。

photo shot of a woman一个女性的相片
更贴合prompt的图画
SD-XL能够更好地了解输入的prompt,并生成更精确的图画。
比方以duotone(双色)为例,SD-v1.5只会生成黑白图画,而SD-XL则能够生成具有多种色彩的双色彩图画。
与 v1模型比较,了解提示符的才能有所提高。

duotone portrait of a woman
一个女性的双色彩肖像
由于SD-XL同属v2系列模型,所以文本模型尺寸更大,能够比v1模型更好地了解提示词。

比方下面的比方中,v1.5模型始终无法了解图画中的两个主题(机器人和人类),但SD-XL模型能够生成正常的图画(虽然机器人仍是不够big)。

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background一个年青人,头发染得很亮,棕色眼睛,穿戴白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山
艺术风格
在艺术风格上,SD-XL并没有明显改善,和之前的版别各有千秋。
比方两个模型以不同的角度生成了Edward Hopper风格的图画。

New York city by Edward Hopper
Edward Hopper制作的纽约
Leonid Afmov 的风格中,SD-v1.5更精确,SD-XL缺少了不同色彩的笔刷(unmistakable colorful board brushstrokes)。

New York city by Leonid Afremov
Leonid Afemov制作的纽约
William-Adolphe Bouguereau风格中,V1.5和SDXL都能够生成一些类似的内容,其间SD-XL更挨近Bouguereau创造的经典学院派绘画,而且面部细节更多。

Portrait of beautiful woman by William-Adolphe Bouguereau
William-Adolphe Bouguereau制作的美女肖像
风格改变问题
在添加一些无关紧要的关键字后,模型的风格可能会突然改变。
比方先生成一张相片风格的图画。

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一个年青人,头发染得很亮,棕色眼睛,穿戴白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山
再添加一条黄色的围巾后,图画风格就变成了卡通风格。

a young man, highlights in hair, brown eyes,wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background
一个年青人,头发染得很亮,棕色的眼睛,围着黄色的围巾,穿戴白衬衫和蓝色牛仔裤,站在一个火山为背景的海滩上
问题的毛病可能源于预览问题,在正式发布后该问题不知能否得到解决。
参考资料:clipdrop.co/stable-diff…