持续创造，加快生长！这是我参加「日新计划 10 月更文挑战」的第4天，点击检查活动概况

RAT-GAN提出了一种用于生成对立网络的递归仿射改换 (RAT)，将一切交融块与递归神经网络衔接起来，以模仿它们的长时间依靠联系，跟DF-GAN很相似。文章发表于2022年4月。

论文地址：arxiv.org/pdf/2204.10…

代码地址：github.com/senmaoy/Rec…

本博客是精读这篇论文的陈述，包括一些个人了解、知识拓展和总结。

一、原文摘要

文本到图画组成旨在生成基于文本描绘的天然图画。这项任务的首要困难在于将文本信息有效地交融到图画组成过程中。现有的办法一般经过多个独立的交融块（例如，条件批量归一化和实例归一化）自适应地将适宜的文本信息交融到组成过程中。但是，孤立的交融块不仅相互抵触，并且增加了练习的难度。为了解决这些问题，我们提出了一种用于生成性对立网络的递归仿射改换（RAT），它将一切交融块与一个递归神经网络衔接起来，以模仿它们的长时间依靠性。此外，为了进步文本和组成图画之间的语义共同性，我们在鉴别器中参加了空间留意模型。由于知道匹配的图画区域，文本描绘监督生成器组成更多相关的图画内容。在CUB、Oxford-102和COCO数据集上进行的大量试验表明，与最先进的模型相比，该模型具有优越性。

二、为什么提出RAT-GAN

GANs一般经过多个独立的交融块（如条件批量归一化（CBN）和实例归一化（CIN））自适应地将适宜的文本信息交融到组成过程中，DFGAN、DT-GAN、SSGAN都运用CIN和CBN将文本信息交融到组成图画中，但有一个严峻的缺陷，即它们被阻隔在不同的层中，忽略了在不同层中交融的文本信息的大局分配。孤立的交融块很难优化，因为它们彼此不相互作用。

因而，作者提出了一种**递归仿射改换（RAT）**来共同地操控一切交融块。RAT运用相同形状的规范上下文向量表达不同层的输出，以实现对不同层的共同操控。然后运用递归神经网络（RNN）衔接上下文向量，以检测长时间相关性，经过RNN，交融块不仅在相邻块之间保持共同，并且降低了练习难度。

三、RAT-GAN

3.1、全体结构

Text to image论文精读RAT-GAN：文本到图像合成中的递归仿射变换 Recurrent Affine Transformation for T2I

全体结构图如上图所示，与DF-GAN较为相似，同样随机噪声经过MLP重塑成指定尺度的特征向量，然后运用5个RAT Blocks，经过一系列仿射改换的操作，终究生成特征图。 鉴别器与DF-GAN稍有不同，经过下采样后，将图画与文本特征expand然后做空间留意力后生成一个大局特征（与AttnGAN的办法相似），然后判别生成的图画是否为真。

3.2 、RAT仿射块（Recurrent Affine Transformation）

3.2.1、RAT仿射块的结构

单个RAT仿射块的结构如下：

RAT仿射块主体与DF-GAN和SSAGAN中的差不多，也是两个MLP，一个带有缩放参数，对图画特征向量c进行通道缩放操作，另一个带有平移参数，对图画特征向量c进行通道平移操作：

Affine(c∣ht)=i⋅c+i,=MLP⁡1(ht),=MLP⁡2(ht)\text { Affine }\left(c \mid h_{t}\right)=\gamma_{i} \cdot c+\beta_{i}, \gamma=\operatorname{MLP}_{1}\left(h_{t}\right), \quad \beta=\operatorname{MLP}_{2}\left(h_{t}\right)

3.2.2、LSTM循环操控器的引进

最首要的是其引进了循环操控器机制（Recurrent Controller），其运用LSTM衔接上下文向量，以检测长时间相关性，在相邻RAT块之间保持共同。 LSTM的初始状况是由噪声向量计算出的： $h0=MLP⁡3(z),c0=MLP⁡4(z)h_{0}=\operatorname{MLP}_{3}(z), \quad c_{0}=\operatorname{MLP}_{4}(z)$ ,更新的规则如下： $(itftotut)=(tanh⁡)(T(sht−1))\left(\begin{array}{l} \mathbf{i}_{t} \\ \mathbf{f}_{t} \\ \mathbf{o}_{t} \\ u_{t} \end{array}\right)=\left(\begin{array}{c} \sigma \\ \sigma \\ \sigma \\ \tanh \end{array}\right)\left(T\left(\begin{array}{c} s \\ h_{t-1} \end{array}\right)\right)$ $ct=ft⊙ct−1+it⊙utht=ot⊙tanh⁡(ct)t,t=MLP⁡1t(ht),MLP⁡2t(ht)\begin{aligned} \mathbf{c}_{t} &=\mathbf{f}_{t} \odot \mathbf{c}_{t-1}+\mathbf{i}_{t} \odot u_{t} \\ h_{t} &=\mathbf{o}_{t} \odot \tanh \left(\mathbf{c}_{t}\right) \\ \gamma_{t}, \beta_{t} &=\operatorname{MLP}_{1}^{\mathrm{t}}\left(h_{t}\right), \operatorname{MLP}_{2}^{\mathrm{t}}\left(h_{t}\right) \end{aligned}$

其间， $i_t$ 、 $f_t$ 、 $o_t$ 分别代表输入门、遗忘门和输出门，以上规则用的原理首要仍是LSTM，第一步是遗忘门，就是决议细胞状况需要丢掉哪些信息，这部分操作是经过一个sigmoid单元来处理的，下一步是输入门决议给细胞状况增加哪些新的信息，最后是输出门，将输入经过一个igmoid层得到判别条件，然后将细胞状况经过tanh层得到一个-1~1之间值的向量，该向量与输出门得到的判别条件相乘就得到了终究该RNN单元的输出。看不懂能够学习一下LSTM再来进行了解（下附LSTM的结构图）。

3.2.3、RAT仿射块的立异点

RAT仿射块不再将仿射改换作为孤立的模块。相比之下，其运用RNN来建模交融块之间的长时间依靠联系，这不仅迫使交融块彼此共同，并且还降低了跳跃衔接练习的难度。

3.3、具有空间留意的匹配感知鉴别器

为了进步组成图画和文本描绘之间的语义共同性，作者在鉴别器中参加了空间留意力机制，如下图所示：

3.3.1 空间留意力

结合图画特征映射P和语句向量S中的信息，空间留意力生成一个留意力映射，该留意映射按捺无关区域的语句向量，公式如下： $xw,h=MLP⁡(Pw,h,s),w,h=11+e−xw,h∑w=1,h=1W,H11+e−xw,h,Sw,h=sw,h,\begin{aligned} x_{w, h} &=\operatorname{MLP}\left(P_{w, h}, s\right), \\ \alpha_{w, h} &=\frac{\frac{1}{1+e^{-x_{w}, h}}}{\sum_{w=1, h=1}^{W, H} \frac{1}{1+e^{-x} w, h}}, \\ S_{w, h} &=s \times \alpha_{w, h}, \end{aligned}$ 其间，从上往下看， $P_{w,h}$ 能够了解成在坐标（w，h）的图画特征，s是语句向量，将其共同输入到一个多层感知器MLP中，然后将计算出的 $x_{w,h}$ 经过计算权重转换成留意概率 $_{w,h}$ 最后将与语句向量再相乘，得到语句特征匹配图画特征的的权重 $S_{w,h}$ 。

3.3.2、软阈值函数

能够看到3.3.1的公式的计算方式，在计算时运用了软阈值函数办法： $p(xk)=11+e−xk∑j=1K11+e−xjp\left(x_{k}\right)=\frac{\frac{1}{1+e^{-x_{k}}}}{\sum_{j=1}^{K} \frac{1}{1+e^{-x_{j}}}}$

作者并没有选用盛行的softmax函数，因为它使最大概率最大化，并按捺其他概率挨近0。极小的概率阻碍了梯度的反向传达，从而加剧了GAN练习的不稳定性。

软阈值函数能够防止留意概率挨近零，并进步反向传达的功率。空间留意模型将更多的文本特征分配给相关的图画区域，这有助于鉴别器确认文本-图画对是否匹配。在对立性练习中，更强的鉴别器迫使生成器组成更多相关的图画内容。

3.4、丢失函数

鉴别器的练习目标将组成图画和不匹配图画作为负样本，在实文本对和匹配文本对上运用 hinge loss的MA-GP作为丢失函数: $LadvD=Ex∼pdata[max⁡(0,1−D(x,s))]+12Ex∼pG[max⁡(0,1+D(x,s))]+12Ex∼pdata[max⁡(0,1+D(x,s))]\begin{aligned} \mathcal{L}_{\text {adv }}^{D}=& \mathbb{E}_{x \sim p_{\text {data }}}[\max (0,1-D(x, s))] \\ &+\frac{1}{2} \mathbb{E}_{x \sim p_{G}}[\max (0,1+D(\hat{x}, s))] \\ &+\frac{1}{2} \mathbb{E}_{x \sim p_{\text {data }}}[\max (0,1+D(x, \hat{s}))] \end{aligned}$ 其间，s是给定的文本描绘， $s$ 是不匹配的文本描绘，生成器的丢失函数为： $LadvG=Ex∼pG[min⁡(D(x,s))]\mathcal{L}_{\mathrm{adv}}^{G}=\mathbb{E}_{x \sim p_{G}}[\min (D(x, s))]$

四、试验

4.1、数据集

CUB、Oxford-102、MS-COCO

4.2、练习细节

文本编码器在练习时参数固定，优化器选用Adam，生成器学习率为0.0001，鉴别器学习率为0.0004。

在CUB和Oxford上，batchsize=24，epoch=600，单个RTX3090ti练习3天。

在COCO上，batchsize=48，epoch=300，运用两个RTX3090ti练习了两周。

4.3、试验结果

4.3.1、试验效果

在同一文本下生成的不同图画：

留意力图的可视化：

4.3.2、定量分析

4.3.3、融化试验

五、总结

RAT-GAN的立异点如下：

提出了一种递归仿射改换，将一切交融块衔接起来，以便在组成过程中大局分配文本信息。
在鉴别器中参加空间留意，将留意力集中在相关的图画区域，因而生成的图画与文本描绘更相关

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Text to image论文精读RAT-GAN：文本到图像合成中的递归仿射变换 Recurrent Affine Transformation for T2I