如何用 Midjourney 弥补 DALL-E 的不足

纵观各个 AI 绘图东西，DALL-E 无疑是最共同的一个。和 ChatGPT 相同，DALL-E 具有超卓的语义了解能力，用户能够根据提示词非常精确地控制画面的内容，但它生成的图片却缺少一些艺术感。Midjourney 则相反，它像一个了解力比较弱，但艺术表达力比较强的艺术家。它生成的图画质感和艺术作用都很棒。

那么，有没有可能，让 Midjourney 能够利用 DALL-E 超卓的语义了解能力或构图能力呢？或者说，用 Midjouney 提高 DALL-E 的画质。本文将会用实践案例进行探讨。

单独用DALL-E

咱们都知道，DALL-E 在生成真人相片方面作用很差。不仅皮肤缺少质感，甚至还会出现眼睛残损的现象。比方下面这副相片：

Prompt: Photo of a young woman in her early 20s, with short, vibrant purple hair, is skateboarding in a bustling cityscape at sunset. She wears a graphic t-shirt, ripped jeans, and bright red sneakers. The motion of her skateboarding is captured in a dynamic pose as she skillfully navigates a skate park with graffiti art in the background. The setting sun casts long shadows, adding drama to the scene.

提示词：相片中，一名 20 岁出面的年青女子藏着一头紫色的生机短发，在夕阳西下的繁华都市中玩滑板。她身穿图画 T 恤、破洞牛仔裤和鲜红色运动鞋。当她熟练地络绎于背景为涂鸦艺术的滑板公园时，她滑板的动作被动态地捕捉下来。夕阳投下长长的暗影，为场景增添了戏剧性。

DALL-E 非常忠实地出现了提示词所描绘的画面。但仔细看来，人物的皮肤仍是有些塑料感。仔细看眼睛，仍是有些残损的。

单独用Midjourney

那么这张图用 Midjourney 画出来作用会怎样呢？

首要，Midjourney 的提示词并不像 DALL-E 3 相同，能够像写 ChatGPT 提示词相同，用自然语言来写。那些无关画面内容的介词，冠词等只是噪音，最好不要放在里面。

例如上面的提示词，在 Midjourney 里面能够这样写：

Medium: Photo. Subject: Young woman in her early 20s with short, vibrant purple hair, skateboarding in a bustling cityscape at sunset, wearing a graphic t-shirt, ripped jeans, bright red sneakers. Dynamic pose as she navigates a skate park with graffiti art. Emotion: Energetic. Lighting: Sunset casting long shadows. Scene: Skate park in a cityscape, graffiti art in background. Style: Realistic, dynamic motion capture –ar 1:1

前言：相片。主题： 20 岁出面的年青女子，一头生机四射的紫色短发，身穿图画 T 恤、破洞牛仔裤和鲜红色运动鞋，在夕阳西下的繁华都市中玩滑板。她在涂鸦艺术的滑板公园中络绎，姿态动感十足。情绪：充满生机。光线：夕阳投下长长的暗影。场景：城市景象中的滑板公园，涂鸦艺术城市景象中的滑板公园，背景为涂鸦艺术。风格：逼真、动态的动作捕捉 –ar 1:1

因为画面中要阐述的内容比较多，用这种结构化的写法，我以为会让 Midjourney 更容易了解一些。为了更方便地在 ChatGPT 中生成 Midjourney 的提示词，我创建了一个 GPTs，名字叫 SuperDalle。它能够生成 4 张图画和 Midjourney 提示词，具体介绍能够看这篇文章：这个 GPTs 让 DALL-E 绘图无所不能！

下图就是用 SuperDalle 生成的图片和 Midjourney 提示词。

我觉得第一张图片比较契合提示词的描绘。那么 Midjourney 怎样表现出这个画面呢？把第一张图对应的 Midjourney 提示词输入，得出下面四张图片：

人物的皮肤质感，相片全体的光感都不错。但跟提示词描绘的一点也不符。图中的女孩，根本就没有玩滑板的姿态。这个跟宽高比没有关系。我把宽高比设为 9:16 是这个作用：

DALL-E结合Midjourney

这时候，DALL-E 就派上用场了。我把 DALL-E 生成的图片作为参阅图，并赋予权重 2，然后提交给 Midjourney。完整的提示词和生成的图片如下：

Medium: Photo. Subject: Young woman in her early 20s with short, vibrant purple hair, skateboarding in a bustling cityscape at sunset, wearing a graphic t-shirt, ripped jeans, bright red sneakers. Dynamic pose as she navigates a skate park with graffiti art. Emotion: Energetic. Lighting: Sunset casting long shadows. Scene: Skate park in a cityscape, graffiti art in background. Style: Realistic, dynamic motion capture –ar 1:1 –s 1000 –v 5.2 –iw 2