本文首发于微信大众号 CVHub,不得以任何办法转载到其它渠道,仅供学习沟通,违者必究!

Title: GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

Author: Alex Nichol et al. (OpenAI)

Paper: arxiv.org/pdf/2112.10…

Github: github.com/openai/glid…

摘要

分散模型最近被证明能够生成高质量的组成图画,尤其是当与引导技术结合运用以牺牲多样性来换取保真度时。 本文探索了文本条件图画组成问题的分散模型,并比较了两种不同的辅导战略:CLIP 辅导无分类器辅导。作者发现后者在真实感和字幕相似性方面更受人类评价者的喜爱,而且一般会发生传神的样本。来自运用无分类器辅导的 35 亿参数文本条件分散模型的样本比 DALL-E 的样本更受人类评价者的喜爱,即便后者运用昂贵的 CLIP 从头排序也是如此。 此外,该模型能够进行微调以履行图画修正,从而完成强壮的文本驱动图画修改。

作者在一个经过过滤的数据集上练习了一个较小的模型,并在Github上发布了代码和权重,有爱好的同学能够赶紧去尝尝鲜。

引言

超越DALLE!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型

插图、绘画和照片等图画一般能够很容易地用文字描述,但或许需要专门的技术和很多的劳动来创立。因而,一种能够从自然语言生成传神图画的工具能够使人类以前所未有的轻松办法创立丰厚多样的视觉内容。运用自然语言修改图画的才能进一步答应迭代细化和细粒度操控,这两者关于实际国际的运用程序都是至关重要的。

最近的文本条件图画模型能够从自在办法的文本提示中组成图画,而且能够以语义上合理的办法组合不相关的对象。但是,他们还不能生成真实感图画来捕获相应文本提示的一切方面。

另一方面,无条件图画模型能够组成传神的图画,有时具有满足的保真度,以至于人类无法将它们与真实图画区别开来。 在这一系列研究中,分散模型已成为一个有出路的生成模型家族,在许多图画生成中完成了最先进的样本质量和基准。

为了在类条件设置中完成照片级真实感,Dhariwal 和 Nichol 运用分类器引导增强了分散模型,这是一种答应分散模型以分类器标签为条件的技术。分类器首要在噪声图画上进行练习,在分散采样过程中,来自分类器的梯度用于将样本引导至标签。 Ho & Salimans 等人则经过运用无分类器辅导在没有独自练习的分类器的情况下取得了类似的成果,无分类器辅导是一种在有标签和无标签的分散模型的猜测之间进行插值的辅导办法。

受引导分散模型生成传神样本的才能和文本到图画模型处理自在办法提示的才能的启发,本文作者将引导分散运用于文本条件图画组成问题。首要,练习了一个 35 亿参数分散模型,该模型运用文本编码器以自然语言描述为条件。接下来,比较了两种将分散模型引导至文本提示的技术:CLIP 引导和无分类器引导。 运用人工和自动评价,作者发现无分类器辅导可发生更高质量的图画

尽管本文模型能够零样本渲染各种文本提示,但它或许难以为杂乱的提示生成传神的图画。因而,除了零样本生成之外,作者还为此模型提供了修改功能,这答应人类迭代地改进模型样本,直到它们匹配更杂乱的提示。具体来说,你能够微调该模型以履行图画修正,发现它能够运用自然语言提示对现有图画进行传神的修改。模型发生的修改与周围环境的风格和照明相匹配,包括令人信服的暗影和反射。这些模型的未来运用或许会协助人类以前所未有的速度和轻松创立引人注目的自定义图画。

超越DALLE!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型

能够观察到,该生成模型能够明显减少发生令人信服的虚伪信息或 Deepfakes 所需的工作量。为了在协助未来研究的一起防备这些用例,作者发布了一个较小的分散模型和一个在过滤数据集上练习的噪声 CLIP 模型。 该系统称为 GLIDE,它代表 Guided Language to Image Diffusion for Generation and Editing。

办法

本文作者以 64 64 分辨率练习了一个 35 亿参数文本条件分散模型,以及另一个 15 亿参数文本条件上采样分散模型以将分辨率提高到 256 256。关于 CLIP 辅导,额定还练习了一个 64 64 ViT-L CLIP 噪声模型。

超越DALLE!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型

文本条件分散模型

本文办法是根据 ADM 模型架构,在此根底上增加了文本条件信息。即关于每个噪声图画 xtx_{t} 和相应的文本说明 cc,该模型会猜测条件概率 p(xt−1∣xt,c)p(x_{t−1}|x_{t}, c)。为了以文本为条件,该模型首要将其编码为 KK 个符号序列,并将这些符号输入到 Transformer 模型中。该转换器的输出有两种运用办法:首要,运用终究符号嵌入替代 ADM 模型中的类嵌入;其次,将最终一层符号嵌入(一系列 K 个特征向量)分别投影到整个 ADM 模型中每个留意力层的维度,然后连接到每一层的留意力上下文。

本文采用与 DALL-E 相同的数据集上练习模型。一起运用与 < Diffusion models beat gans on image synthesis > 所运用的的 ImageNet 64 64 模型相同的模型架构,但将模型宽度缩放到 512 个通道,从而为模型的视觉部分发生大约 23 亿个参数。关于文本编码 Transformer,作者运用 24 个宽度为 2048 的残差块,发生大约 12 亿个参数。

此外,作者还额定练习了一个 15 亿参数的上采样分散模型,以从 64 64 分辨率变为 256 256 分辨率。该模型以与根本模型相同的办法以文本为条件,但运用宽度为 1024 而不是 2048 的较小文本编码器。否则,该架构与上面提到的的 ImageNet 上采样器相匹配,只是这儿将根本的通道数增加到 384。

本模型在批量大小为 2048 时练习根本模型进行 2.5M 迭代。在批量大小为 512 时练习上采样模型进行 1.6M 迭代。终究发现这些模型以 16 位精度和传统损失缩放安稳练习,整体的练习计算量大致与 DALL-E 适当。

无分类器辅导的微调

在初始练习运行后,作者微调了其根底模型以支撑无条件图画生成。这个练习过程与预练习彻底相同,除了 20% 的文本符号序列被替换为空序列。这样,模型保留了生成文本条件输出的才能,但也能够无条件地生成图画。

图画绘画

大多数运用分散模型进行修正的从前工作都没有针对此使命清晰练习分散模型。特别地,分散模型修正能够像往常相同经过从分散模型中采样来履行,但是在每个采样过程之后用来自 q(xt∣x0)q(x_{t}|x_{0}) 的样本替换图画的已知区域。这样做的缺陷是模型在采样过程中无法看到整个上下文(只要噪声版别),在作者的前期实验中偶尔会导致不希望呈现的边际伪影。

为了取得更好的成果,作者清晰地微调他们的模型以履行修正。在微调过程中,练习样例的随机区域被擦除,其余部分作为附加条件信息与掩码通道一起馈入模型。经过修改模型架构以具有四个额定的输入通道:第二组 RGB 通道和一个 mask 通道。 在微调之前,作者将这些新通道的相应输入权重初始化为零。关于上采样模型,其总是提供完好的低分辨率图画,但只提供高分辨率图画的未遮挡区域。

带噪 CLIP 模型

为了更好地匹配前面提到的分类器引导技术,作者运用图画编码器 f(xt,t)f(x_{t}, t) 练习噪声 CLIP 模型,该图画编码器接收噪声图画 xtx{t},而且以与原始 CLIP 模型相同的目标进行练习。终究以 64 64 分辨率练习这些模型,运用与根本模型相同的噪声采样表。

成果

先看下其它模型的体现:

超越DALLE!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型

再来看先本文办法的体现:

超越DALLE!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型

以上成果是来自 MS-COCO 提示上的随机图画样本。关于 DALL-E,是在 0.85 temperature 下生成样本,并运用 CLIP 从头排序从 256 个样本中选择最佳样本。而关于 GLIDE,则运用标准为 2.0 的 CLIP 辅导和标准为 3.0 的无分类器辅导。留意,这儿并没有为 GLIDE 履行任何 CLIP 从头排序或挑选。

当然,GLIDE 也有它本身的一些局限性,例如下面这个示例:

超越DALLE!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型

能够看出,尽管该模型一般能够以杂乱的办法组合不同的概念,但它有时无法捕获描述非常不寻常的对象或场景的某些提示。在上图中,作者提供了这些失利案例的一些示例。作者强调,若未经优化的模型需要 15 秒才能在单个 A100 GPU 上对一张图画进行采样。这比相关 GAN 办法的采样要慢得多,后者在单个前向传递中生成图画,因而更适合用于实时运用程序。当然,这其实也是现阶段绝大多数分散模型的通病,采样太耗时了。

写在最终

假如您也对人工智能和计算机视觉全栈领域感爱好,强烈推荐您关注有料、风趣、有爱的大众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业老练解决方案!欢迎添加小编微信号:cv_huber,一起探讨更多风趣的话题!