本文由 简悦 SimpRead 转码, 原文地址 www.jiqizhixin.com

集成 ChatGPT 后,DALL ・ E 3 对上下文的了解上了一个大台阶。

总算,OpenAI 的文生图 AI 东西 DALL-E 系列迎来了最新版别 DALL ・ E 3,而上个版别 DALL ・ E 2 仍是在上一年 4 月推出的。

OpenAI 表明,「DALL ・ E 3 比以往体系更能了解细微差别和细节,让用户更加轻松地将自己的想法转化为十分精确的图画。」

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

是不是真如 OpenAI 所说的那样呢?眼见为实,咱们来看以下 DALL ・ E 3 与 DALL ・ E 2 的生成作用比较,同样的 prompt「一幅描绘篮球运动员扣篮的油画,并伴以爆炸的星云」,左图 DALL ・ E 2 在细节、清晰度、明亮度等方面明显逊于右图 DALL ・ E 3。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

除了迸裂的生图作用之外,此次 DALL ・ E 3 的最大特点是与 ChatGPT 的集成,它原生构建在 ChatGPT 之上,用 ChatGPT 来创立、拓展和优化 prompt。这样一来,用户无需在 prompt 上花费太多时间。

具体来讲,通过运用 ChatGPT,用户不用绞尽脑汁地想出具体的 prompt 来引导 DALL ・ E 3 了。当输入一个想法时,ChatGPT 会自动为 DALL ・ E 3 生成量身定制的、具体的 prompt。一起用户也能够运用自己的 prompt。

至于集成 ChatGPT 后的作用怎么样?OpenAI CEO 山姆・奥特曼兴奋地展示了 DALL ・ E 3 的连续性生成成果,简直称得上完好的「故事片」。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

超级向日葵刺猬长什么姿态

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心
这只刺猬叫「Larry」以及它的更多同类。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

Larry 的家长这样。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

Larry 很善良。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

Larry 最终安定入睡了。

ChatGPT 集成并不是 DALL ・ E 3 唯一的新特点,它还能生成更高质量的图画,更精确地反映提示内容。DALL ・ E 将文本 prompt 转换成图画。即使是 DALL ・ E 2 ,也会常常疏忽特定的措辞导致犯错。但 OpenAI 的研讨人员说,最新版别能更好地了解上下文,而且处理较长的 prompt 作用会更好。此外,它还能更好地处理向来困扰图画生成模型的内容,如文本和人手。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

prompt:这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在大风大浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小世界。地平线上镌刻着一行夺目的大字 「Find the universe within you」。

能够看到在上图将 prompt 中的每一个细节都表现出来了。半透明的质感、画面底部的波涛汹涌、阳光与厚厚的云层、心脏中的世界现象,以及难倒很多图画生成模型的文字展示,DALL ・ E 3 都顺利地完结了这些任务。

那么,DALL ・ E 3 能不能成为 Midjourney 「杀手」呢?推特用户 @MattGarciaEth 已经将二者生成的图片进行了很多比较。大家觉得哪个更好呢?

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心
prompt 为「一个鳄梨坐在医治师的椅子上,说『我只是觉得内心很空虚』,中间有一个坑大小的洞。医治师、一个勺子、潦草地写笔记。」

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

prompt 为「这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在大风大浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小世界。地平线上镌刻着一行夺目的大字 『Find the universe within you』」

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

prompt 为「一位亚裔中年妇女的黑发上散落着银丝,显得四分五裂,错综复杂地镶嵌在一片碎瓷片中。瓷器上闪烁着飞溅的颜料图画,光泽和哑光的蓝色、绿色、橙色和赤色和谐地交错在一起,在动与静的超现实并置中捕捉着她的舞姿。她的肤色与瓷器一样呈淡色,为她的造型增添了一种奥秘的气质。」(推特 @nickfloats,上图为 DALL ・ E 3 的生成成果, 下图为 Midjourney 的生成成果)

现在,DALL ・ E 3 处于研讨预览版别。OpenAI 计划将 DALL ・ E 3 的发布时间错开, 将于 10 月份首先向 ChatGPT Plus 和 ChatGPT Enterprise 用户发布,随后在秋季向研讨实验室及其 API 服务发布。不过,该公司没有泄漏何时或者是否计划发布免费的公开版别。

DALL ・ E 系列研讨

咱们简单为大家整理介绍下 OpenAI 文本生成图画的 DALL ・ E 系列研讨,也方便读者们了 DALL ・ E 系列背面的技能。

2021 年 1 月 6 日,OpenAI 博客发布了两个衔接文本与图画的神经网络:DALL ・ E 和 CLIP。DALL ・ E 能够根据文本直接生成图画,CLIP 则能够完结图画与文本类别的匹配。这两项研讨的发布,引起了社区极大的重视。

据博客介绍,DALL ・ E 能够将以自然语言形式表达的很多概念转换为恰当的图画,能够说是 GPT-3 的 120 亿参数版别,可根据文本描绘生成图画。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

DALL ・ E 示例。给出一句话「牛油果形状的椅子」,就能够取得绿莹莹、形态各异的牛油果椅子图画。

2 个月后,DALL ・ E 的论文和代码公开。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

  • 项目地址:github.com/openai/DALL…

  • 论文地址:arxiv.org/abs/2102.12…

2022 年 4 月 7 日左右,DALL ・ E 迎来了升级版别 ——DALL ・ E 2。与 DALL ・ E 相比,DALL ・ E 2 在生成用户描绘的图画时具有更高的分辨率和更低的延迟。而且,新版别还增添了一些新的功能,比如对原始图画进行编辑。

OpenAI 还公布了 DALL ・ E 2 的研讨论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。

OpenAI DALLE 3 来了,集成 ChatGPT,生图效果太炸了 | 机器之心

论文地址:cdn.openai.com/papers/dall…

遗憾的是。OpenAI 可能不会像之前一样,公布 DALL ・ E 3 背面的技能细节。

注重安全与版权问题

OpenAI 称其在 DALL ・ E 3 上投入了很多工作,包括制定强有力的安全措施,以避免创立「有害」的图画。OpenAI 表明其与外部「红队」成员(一个成心试图破坏体系以测验体系安全性的团队)协作,并依赖输入分类器(一种教语言模型疏忽某些单词以避免显式或暴力 prompt 的办法)。DALL ・ E 3 也无法生成公众人物的图画。

OpenAI 研讨员 Sandhini Agarwal 表明她对 DALL ・ E 3 的安全措施「高度有决心」,并表明该模型在不断改进。OpenAI 还在一封电子邮件中表明:DALL ・ E 3 回绝生成在世艺术家风格的图画,这一点与 DALL ・ E 2 不同。

艺术家们曾起诉 DALL ・ E 的竞争对手 Stability AI 和 Midjourney,以及艺术网站 DeviantArt,指控它们运用他们拥有版权的著作来练习文本到图画的模型。或许是为了避免诉讼,OpenAI 将答应艺术家将其艺术著作从未来版别的文本到图画 AI 模型中删除,不用于练习。创作者能够提交一张他们拥有版权的图片,并在网站上填写表格要求将其移除。

这样,未来版别的 DALL ・ E 就能够屏蔽与艺术家的图画和风格类似的成果。

参阅链接:

openai.com/dall-e-3

www.theverge.com/2023/9/20/2…

techcrunch.com/2023/09/20/…