继续创造,加快生长!这是我参加「日新计划 10 月更文应战」的第28天,点击检查活动详情

依据深度学习的机器学习办法现已在语音、文本、图画等单一模态范畴获得了巨大的成功,而同时涉及到多种输入模态的多模态机器学习研讨有巨大的运用前景和广泛的研讨价值,成为了近年来的研讨热点。

而最近,研讨人员好像对在这些传统上独立的范畴中结合语义信息和视觉信息感兴趣,文本生成图画范畴应运而生。

一、相关概念介绍

1.1、多模态机器学习

模态是指某件事情发生或经历的办法。每一种信息的来源或许方式,都能够称为一种模态。人类对国际的体会是多模态的例如触觉,听觉,视觉,嗅觉;而人类获取信息的前言,有语音、视频、文字等;

为了让人工智能在了解咱们周围的国际方面获得进展,它需要能够一同解释这种多模态信号。多模态机器学习旨在树立能够处理和相关来自多种模态的信息的模型。

这是一个日益重要和具有特殊潜力的充满活力的多学科范畴。

依据近年来图画处理和言语了解方面的技能突破,交融图画和文本处理的多模态使命获得了广泛的重视并获得了相当大的成功,例如依据视觉的指代表达了解和短语定位、图画和视频字幕生成视觉问答(VQA)依据文本的图画生成(文本生成图画)依据言语的视觉推理等。

1.2、文本生成图画

假如咱们的核算机视觉系统要真正了解视觉国际,它们不仅有必要能够辨认图画,并且有必要能够生成图画

文本生成图像工作简述--概念介绍和技术梳理
文本到图画的 AI 模型仅依据简略的文字输入就能够生成图画。用户能够输入他们喜欢的任何文字提示——比方,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会发生相应的图画。

这些模型发生的图画在国际上和任何人的想象中都从未存在过。它们是新颖的创造,其独创性和复杂性令人叹为观止。

文本生成图画(text-to-image)即依据给定文本生成契合描绘的实在图画,其是多模态机器学习的使命之一,具有巨大的运用潜力,如视觉推理图画编辑视频游戏动画制造核算机辅佐设计。除了教授深化的视觉了解,生成传神图画的办法也能够是实践有用的。在短期内,主动图画生成能够协助艺术家或平面设计师的作业。有一天,咱们可能会用生成定制图画和视频的算法来替代图画和视频搜索引擎,以呼应每个用户的个人喜爱。

1.3、零样本学习

依据深度学习的模型近年来在图画辨认和目标检测等许多问题上现已达到或超过了人类水平。可是,这些模型依赖于监督学习,其性能在很大程度上取决于带标注的练习数据。此外,模型局限于辨认练习时见过的类别。

零样本学习 Zero-Shot Learning便是用来处理这一问题的,其致力于让核算机模仿人类的推理办法,来辨认从未见过的新事物。在传统的图画辨认算法中,要想让核算机认出斑马,往往需要给核算机投喂满意量的斑马图画才有做到。并且,练习出来的分类器,往往无法辨认它没有见过的其他类别的图画。 可是人类却能够依据斑马的先验知识,在没见过斑马的情况下辨认出斑马,零样本学习便是期望能够仿照人类的推理进程,使得核算机具有辨认新事物的才干。

文本生成图画模型的预期最佳作用也是零样本学习的文本生成图画,即具有迁移性,在没有供给新事物数据的情况下,只凭特征描绘就能生成出新事物。

二、技能整理

2.1、生成对抗网络:GAN

文本生成图像工作简述--概念介绍和技术梳理

文本编码器 + 生成器 + 辨别器的结构。文本编码器由RNN或许Bi-LSTM组成,生成器能够做成堆叠结构或许单阶段生成结构,首要用于在满意文本信息语义的基础上生成图画,辨别器用于辨别生成器生成的图画是否为真和是否契合文本语义。整个练习进程都是两者不断地进行彼此博弈和优化。生成器不断得生成图画的散布不断接近实在图画散布,来达到诈骗判别器的目的,提高判别器的判别才干。判别器对实在图画和生成图画进行判别,来提高生成器的生成才干。

文本生成图像工作简述--概念介绍和技术梳理

Reed等人是第一个扩展条件GAN以完结文本到图画组成的人。由于GANs在图画组成方面的进步,该使命在选用堆叠架构、循环一致性、注意力机制、对运用条件仿射改换方面获得了重大进展。如:

  1. 堆叠结构:StackGAN、StackGAN++、HDGAN;
  2. 循环一致性:PPGN、CycleGAN、MirrorGAN;
  3. 注意力机制:AttnGAN、SEGAN、ControlGAN、RiFeGAN;
  4. 条件仿射改换:DFGAN、SSGAN、RATGAN;

感兴趣能够深化检查专栏:文本生成图画专栏

2.2、分散模型 :Diffusion Model

文本生成图像工作简述--概念介绍和技术梳理
不同于 VQ-VAE,VQ-GAN,分散模型是当今文本生成图画范畴的中心办法,当时最闻名也最受欢迎的文本生成图画模型 Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2 等等,均依据分散模型。
文本生成图像工作简述--概念介绍和技术梳理
分散模型中,首要有两个进程组成,前向分散进程,反向去噪进程,前向分散进程首要是将一张图片变成随机噪音,而逆向去噪进程则是将一张随机噪音的图片还原为一张完好的图片,原理:由浅入深了解分散模型(Diffusion Model)
文本生成图像工作简述--概念介绍和技术梳理

分散进程从右向左(X0=>XtX_0 =>X_t)对图片逐步加噪,X0X_0表示从实在数据集中采样得到的一张图片,当t满意大时,XtX_t变为高斯散布。其本质便是在原始图画上添加噪音,经过 T 步迭代,最终将原始图片的散布变成标准高斯散布 ,而重要的事,每一步噪音都是已知的,即q(Xt∣Xt−1)q(X_t | X_t-1)是已知的(由于知道图画t-1,知道噪声数据),依据马尔科夫进程的性质,能够递归得到q(Xt∣X0)q(X_t |X_0),得到XtX_t

逆分散进程从左向右(Xt=>X0X_t =>X_0)对图片逐步降噪,假如咱们能够在给定XtX_t条件下知道Xt−1X_{t-1},咱们就能够逐步从XtX_t推出X0X_0,即就能够从噪声推导出一张图画。要达到这种,咱们要知道q(Xt∣Xt−1)q(X_t | X_t-1),即如何从恣意一张噪声图片中经过一次次的采样得到一张图片而达到图片生成的目的。明显咱们很难知道q(Xt∣Xt−1)q(X_t | X_t-1),所以咱们运用p(Xt∣Xt−1)p(X_t | X_t-1)来近似q(Xt∣Xt−1)q(X_t | X_t-1)p(Xt∣Xt−1)p(X_t | X_t-1)便是咱们要练习的网络。咱们能够运用q(Xt∣Xt−1)q(X_t | X_t-1)来辅导p(Xt∣Xt−1)p(X_t | X_t-1)的练习,在完结练习之后,练习好的模型就能够经过不断的「减去」模型猜测的噪音,完结逆分散步骤,逐步的生成一张完好的图片。

直观上了解,分散模型其实是经过一个神经网络 ,来猜测每一步分散模型中所添加的噪音。

分散模型在完结文本生成图画使命中,首要有以下战略:

  1. Semantic Diffusion Guidance(以文本描绘作为语义引导)经过运用引导函数来注入语义输入(此时文本能够看成一种分类器或许判别器),以辅导无条件分散模型的采样进程,这使得分散模型中的生成更加可控,并为言语和图画引导供给了统一的公式。在逆向进程的每一步,用一个文本条件对生成的进程进行引导,依据文本和图画之间的交叉熵损失核算梯度,用梯度引导下一步的生成采样
    文本生成图像工作简述--概念介绍和技术梳理
  2. Classifier-Free Diffusion Guidence:前文额定引入一个网络来辅导,推理的时分比较复杂,且将引导条件作为模型的输入作用其实一般。Classifier-Free Diffusion Guidence中心思路是一起练习有条件和无条件分散模型,并发现将两者进行组合,能够得到样本质量和多样性之间的权衡。这个办法一个很大的长处是,不需要从头练习分散模型,只需要在前馈时加入引导既能完结相应的生成作用。运用有:GLIDE、DALLE 2、Imagen等

2.3、依据Transformer的自回归办法

Transformer模型运用其强壮的注意力机制已成为序列相关建模的典范,受GPT模型在自然言语建模中的成功启示,图画GPT(iGPT)经过将展平图画序列视为离散符号,选用Transformer进行自回归图画生成。生成图画的合理性表明,Transformer模型能够模仿像素和高档特点(纹路、语义和份额)之间的空间联络。Transformer全体首要分为Encoder和Decoder两大部分,运用多头自注意力机制进行编码和解码。但其练习成本高,推理时刻较长,且强壮而有趣的模型一向未开源。

Transformer在完结文本生成图画上,大概有以下战略:

  1. Transformer和VQ-VAE(矢量量化变分主动编码器)进行结合,首要将文本部分转换成token,运用的是现已比较老练的SentencePiece模型;然后将图画部分经过一个离散化的AE(Auto-Encoder)转换为token,将文本token和图画token拼接到一同,之后输入到GPT模型中学习生成图画。练习后,在处理文本图画生成类使命时,模型会经过核算一个Caption Score对生成图画进行排序,然后挑选与文本最为匹配的图画作为成果:如CogView
    文本生成图像工作简述--概念介绍和技术梳理
  2. Transformer和CLIP结合。首要对于一幅没有文本标签的图画,运用 CLIP 的图画编码器在言语-视觉(language-vision)联合嵌入空间中提取图画的 embedding。接着,将图画转换为 VQGAN 码本空间(codebook space)中的一系列离散符号(token)。也便是将图画以与自然言语相同的办法进行表示,方便后续运用 Transformer 进行处理。其间,充当 image tokenizer 人物的 VQGAN 模型,能够运用手里的无符号图画数据集进行练习。最终,再训练一个自回归 Transformer,用它来将图画符号从 Transformer 的言语-视觉统一表示中映射出对应图画。经过这样的练习后,面临一串文本描绘,Transformer 就能够依据从 CLIP 的文本编码器中提取的文本嵌入(text embedding)生成对应的图画符号(image tokens)了。如:CLIP-GEN、DALLE、DALLE 2
    文本生成图像工作简述--概念介绍和技术梳理

2.4、依据比照的图片-文本的跨模态预练习模型:CLIP

CLIP(Contrastive Language-Image Pre-Training,简称 CLIP) 模型严格来说是一种辅佐模型,是 OpenAI 在 2021 年头发布的用于匹配图画和文本的预练习神经网络模型,CLIP 最初是一个单独的辅佐模型,用于对 DALLE 的成果进行排序。 比照模型能够给来自同一对的图画和文本发生高相似度得分,而对不匹配的文本和图画发生低分。 ![在这里刺进图片描绘](img-blog.csdnimg.cn/ccb30b7bd6a… =x240) 该模型由两个编码器组成:一个用于文本,另一个用于图画图画编码器:用于将图画映射到特征空间; 文本编码器:用于将文本映射到相同的特征空间。

原理其实很简略:为了对image和text树立联络,首要分别对image和text进行特征提取image特征提取的backbone能够是resnet系列模型也能够是VIT系列模型,text特征提取目前一般选用bert模型,特征提取之后,由于做了normalize,直接相乘来核算余弦距离,同一pair对的成果趋近于1,不同pair对的成果趋近于0,由于就能够选用比照损失loss(info-nce-loss),熟悉这个loss的同学应该都清楚,这种核算loss办法作用与batch size有很大联络,一般需要比较大的batch size才干有作用。 CLIP能够了解成一种多模态pretrain 办法,为文本和图画在特征域进行对齐。

文本生成图像工作简述--概念介绍和技术梳理

但CLIP采取了4亿的图画文本对的数据集,但这4亿的图画文本对并未对外开源,且CLIP是经过巨大的数据集来尽可能的覆盖下游使命,而它在未见过的数据上表现非常不理想,其不非常侧重算法上的立异,而是采集了很多的数据以及运用了很多的练习资源(592 个 V100 + 18天 和 256 个 V100 + 12天)。

CLIP首要作为辅佐模型在文本生成图画中运用,比方GAN+CLIP(如FuseDream)、Diffusion Model +CLIP (如GLIDE、DALLE )、Transformer+CLIP(如CLIP-GEN、DALLE 2)

参阅

  1. What are Diffusion Models?:lilianweng.github.io/posts/2021-…
  2. 分散模型(Diffusion Model)——由浅入深的了解
  3. 依据分散模型的文本引导图画生成算法:zhuanlan.zhihu.com/p/505257039
  4. 分散模型与其在文本生成图画范畴的运用:zhuanlan.zhihu.com/p/546311167
  5. 连接文本和图画的第一步:CLIP:zhuanlan.zhihu.com/p/427740816