新智元报道

编辑:LRS

【新智元导读】 开源、免费的Stable Diffusion就能到达Midjourney水平!

自从Midjourney发布v5之后,在生成图画的人物实在程度、手指细节等方面都有了明显改善,而且在prompt了解的精确性、审美多样性和语言了解方面也都取得了进步。

比较之下,Stable Diffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图画全赖多次抽卡。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

最近Stability AI的官宣,正在研发的Stable Diffusion XL开端面向大众测试,现在能够在Clipdrop渠道免费试用。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

试用链接:clipdrop.co/stable-diff…

Stability AI的创始人兼首席执行官Emad Mostaque表明,现在该模型仍然处于练习阶段,等参数安稳后将会开源;SD-XL在「握手」等图画细节方面会体现更好,简直完全可控。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Stable Diffusion XL也并不是终究发布版的名字,而且也并非是v3,由于SD-XL的架构和SD-v2系列的模型架构十分类似。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

精约的家庭健身房,橡胶地板,壁挂式电视,举重凳,药球,哑铃,瑜伽垫,高科技设备,高细节,组织和效率

下面几张SD-XL官方发布的例图,能够看出图画的质量现已十分能打了。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

不过有时候less并不代表more,有网友以为SD-XL为了摆脱「糟糕的品味」,设定了太多的规则,定制化空间越来越小,不契合大多数人的喜好。现在v1.5的Stable Diffusion仍然是社区内最盛行的基座模型。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

网友表明期望新版SD能够和SD 2.1版别的嵌入、hypernetworkds和Lora模型坚持兼容,再从零开端重训的话就太难受了。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

也有网友以为,SD-XL的体现和civit网站上网友共享的模型差不多,新模型的作用也并不是特别惊艳,也就是平均水平。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL:开源版Midjourney

关于Stable Diffusion XL模型的具体信息,官方并没有透露太多,现在只知道是一个与v2模型架构类似、但规划和参数量更大的模型。

SD-v2.1包括9亿参数,SD-XL大约有23亿参数,Emad表明正式版可能会额定发布一个更小的蒸馏版别。

SD-XL比较之前版别的改善如下:

  • 运用较短的描述性prompt即可生成高质量图画

  • 能够生成更贴合prompt的图画

  • 图画中的人体结构更合理

  • 与 v2.1和 v1.5版别(程度较轻)比较,SD-XL生成的图片更契合大众审美

  • 负面提示词(negative prompt)是可选项

  • 生成的肖像图更传神

  • 图画中的文本更清晰

需求留意的是,SD-XL可能与之前版别的插件不兼容。

清晰可读的文字

在v1系列和v2.1版别的Stable Diffusion模型中,并不具有在图片中生成可读文本的才能。

虽然SD-XL生成的文本信息并不总是精确,但确实得到了巨大的提升。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女性坐在餐馆里拿着写着「Menu」的菜单

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a man holding a sign that says “Stable Diffusion”

一个男人举着写着「Stable Diffusion」的牌子

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light一个年青的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿戴裙子,侧灯

更好的人体结构

Stable Diffusion在生成人体解剖结构方面一向存在许多问题,多几条腿、少个臂膀实在是太常见不过的问题,通常需求运用inpaint功能进一步对图画细节进行修正;或者是运用ControlNet的Open Pose功能从参考图画中复制人体的姿态。

比方说SD-v1.5生成瑜伽的图画,经常会出现歪曲的人体。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting一个女性的相片在瑜伽服装,三角形的姿势,海滩在晚上,边际照明

SD-XL虽然生成的图画并不完美,不过在人体姿态方面现已有了明显的进步。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

更有美感(more aesthetic)

比方相同以屋子为主题,SD-XL能够生成更对称、视觉作用更好的相片。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL在肖像相片上也有明显改善。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

photo shot of a woman一个女性的相片

更贴合prompt的图画

SD-XL能够更好地了解输入的prompt,并生成更精确的图画。

比方以duotone(双色)为例,SD-v1.5只会生成黑白图画,而SD-XL则能够生成具有多种色彩的双色彩图画。

与 v1模型比较,了解提示符的才能有所提高。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

duotone portrait of a woman

一个女性的双色彩肖像

由于SD-XL同属v2系列模型,所以文本模型尺寸更大,能够比v1模型更好地了解提示词。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

比方下面的比方中,v1.5模型始终无法了解图画中的两个主题(机器人和人类),但SD-XL模型能够生成正常的图画(虽然机器人仍是不够big)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background一个年青人,头发染得很亮,棕色眼睛,穿戴白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

艺术风格

在艺术风格上,SD-XL并没有明显改善,和之前的版别各有千秋。

比方两个模型以不同的角度生成了Edward Hopper风格的图画。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

New York city by Edward Hopper

Edward Hopper制作的纽约

Leonid Afmov 的风格中,SD-v1.5更精确,SD-XL缺少了不同色彩的笔刷(unmistakable colorful board brushstrokes)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

New York city by Leonid Afremov

Leonid Afemov制作的纽约

William-Adolphe Bouguereau风格中,V1.5和SDXL都能够生成一些类似的内容,其间SD-XL更挨近Bouguereau创造的经典学院派绘画,而且面部细节更多。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau制作的美女肖像

风格改变问题

在添加一些无关紧要的关键字后,模型的风格可能会突然改变。

比方先生成一张相片风格的图画。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年青人,头发染得很亮,棕色眼睛,穿戴白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

再添加一条黄色的围巾后,图画风格就变成了卡通风格。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes,wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年青人,头发染得很亮,棕色的眼睛,围着黄色的围巾,穿戴白衬衫和蓝色牛仔裤,站在一个火山为背景的海滩上

问题的毛病可能源于预览问题,在正式发布后该问题不知能否得到解决。

参考资料:clipdrop.co/stable-diff…

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。