写作动机

这个作业开篇能够看到是在Diffusion-LM的基础上打开叙述的。

Recent advances in generative modeling introduce diffusion models, which achieve great success in generating continuous signals, including images, video, and audio. Diffusion models also garner growing interest for conditional sequence learning in the research community because of their promising characteristics, such as diversity and controllability, demonstrated in these domains. However, the discrete nature of sequence data, constituted by a number of tokens in order, makes it non-trivial to apply diffusion models for conditional sequence learning. Typical diffusion models noise data with Gaussian permutation kernels and learn to recover original data from their corrupted versions, which is not directly compatible with discrete tokens. To remedy this, DiffusionLM attempted to embed discrete tokens into continuous space and employ diffusion models to the embedding space. Although this kind of approach unlocks the possibility of applying diffusion models to discrete data, it still falls short of competitive performance for various conditional sequence generation tasks.

由于分散模型作为新的生成模型在接连域数据上已经取得了比较好的作用,优于其出色的成圣多样性和可控性,因而研究人员可考虑用分散模型去做序列的条件生成。传统分散模型运用的是高斯核对噪声数据进行建模,然后在去噪进程中逐渐将其去除,取得重建输入。可是由于序列数据的离散性,离散数据是不兼容高斯核的,因而想要运用分散模型还存在必定的难度。在Diffusion-LM中作者测验将离散数据进行嵌入,运用嵌入空间上的embedding向量进行文本分散。尽管这种方法成功将分散模型应用到序列文本上,可是关于条件生成,该模型并无竞争力。

因而在这个作业者,作者猜想将离散token进行embedding并不能完全消除文本离散性

为此作者进行深入探讨之后有了以下三个发现:

  1. 存在离散圈套(pitfall of discreteness):小规模噪声会阻碍条件序列的学习。
  2. 可扩展性:为了习惯嵌入空间的标准,有必要运用习惯性噪声。
  3. 条件学习:推理进程中适当扩大噪声,能够校准分散模型考虑更多源条件信息。

模型改善

从作者提出的这三点咱们就能够知道作者为此提出的模型改善:

Motivated by these findings, we propose DINOISER to improve diffusion models by manipulating noises for conditional sequence learning. We propose a novel way of counter-discreteness training to eliminate the chances of training on small noise scales to avoid their negative influences, for which we introduce the noise scale clipping strategy to adaptively manipulate the noise scales. For inference, we manipulate the model to be exposed to larger noise scales to encourage trained diffusion models to leverage source conditions.

DINOISER主要做的便是:改善条件序列分散模型的噪声

  1. 经过运用counter-discreteness来消除在小噪声标准上练习的机会,以此消除小规模噪声的影响。
  2. 引进噪声裁剪策略自习惯地操控噪声标准。
  3. 在推理进程中运用更大的噪声鼓励模型利用源条件信息。

背景信息

条件生成模型

这儿的条件生成我更常称之为可控文本生成,便是给定一个操控条件去影响言语模型的生成进程。

文本序列: y=[y1,y2,…,yn]∈{0,1}n∣V∣y = left[y_1, y_2, ldots, y_nright] in{0,1}^{n times|mathcal{V}|}

操控条件:x=[x1,x2,…,xm]boldsymbol{x}=left[x_1, x_2, ldots, x_mright]

关于自回归言语模型的生成进程是:p(y∣x)=∏i=1np(yi∣y<i,x)p(boldsymbol{y} mid boldsymbol{x})=prod_{i=1}^n pleft(y_i mid boldsymbol{y}_{<i}, boldsymbol{x}right)

关于基础的非自回归是:p(y∣x)=∏i=1np(yi∣x)p(y mid x)=prod_{i=1}^n pleft(y_i mid xright)

分散模型

写过很多了,回去翻曾经的文章吧。

离散圈套 Pitfall of Discreteness: Noise Scale Matters

作者在这儿是对比了Diffusion-lm和CMLM来得出他的结论的。

Diffusion-lm之前也详细说过了,这儿浅浅说一下CMLM:

CMLM的全称是条件掩码言语模型 (conditional masked language model)。CMLM的模型猜测的是一系列掩码词 YmaskY^{text {mask }} 在给定输入 XX 和部分已生成且未被掩码的中心输出 YobsY^{o b s} 的概率散布,即 P(Ymask∣X,Yobs)Pleft(Y^{m a s k} mid X, Y^{o b s}right) 。在这个条件概率下,序列 YmaskY^{m a s k} 里一切的独立变量都互相对输入和未掩码词条件独立。而且由于每一轮迭代不改变输出 Y=Ymask+YobsY=Y^{m a s k}+Y^{o b s}长度,模型也隐式地条件于生成序列的长度 N=∣Ymask∣+∣Yobs∣N=left|Y^{text {mask }}right|+left|Y^{o b s}right|

更多能够看:zhuanlan.zhihu.com/p/446916340

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用

Diffusion-lm功能欠佳

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用

Diffusion-lm不仅需要更长的练习进程,而且作用也很拉胯。由此得出结论根据普通分散的序列分散模型的功能和练习效率都不怎么样。

分散丢失在小噪声标准下很小

看横轴sigma比较小(<0.4)的时分,纵轴MSE几乎为0,也便是说噪声标准比较小的时分分散丢失也十分小。也便是说,这个状况下核算MSE的两个向量差别很小,也便是康复损坏的嵌入向量很小。

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用

作者推测是由于嵌入向量并没有完全映射到离散空间,因而做了一下可视化,果不其然,当=0.3sigma = 0.3的时分咱们能够看到有三个离散的点。施加噪声很小的话是没办法对其进行比较大的破坏,因而经过分散损坏的向量仍然处于原始的向量的周围,因而嵌入向量散布的离散程度越高,这一进程的分散丢失就越小。

跟着嵌入空间维度增大,分散进程消除离散性变得更困难

∣V∣|V|表明词汇量巨细,DD表明嵌入维度。

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用

现看维度相同的时分,词汇表的巨细影响并没有很大。

可是看词汇表巨细相同的时分,跟着维度的增加,咱们需要把sigma设置的很大才能保证分散破坏的收效。因而作者揣度跟着嵌入空间的增大,会导致更严峻的离散性。也便是维数灾祸。

条件学习:较大的噪声标准能够在推理进程中考虑更多的源条件信息来校准分散模型

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用

前边已经知道了噪声标准过小的许多缺点,而且噪声标准过小,让模型很简单康复被破坏的文本,可能会造成模型幻觉。因而作者进行定量分析,发现跟着噪声标准越大,模型能够更精确地猜测出源条件信息。

综上,提出解决方案

  1. 不要在小标准噪声上进行练习
  2. 需要根据嵌入空间的维度确定噪声调度。
  3. 运用较大的噪声以更好地利用源条件信息。

DINOISER

主要思路便是练习进程中消除小规模噪声练习的影响避免离散性圈套,在采样进程中提出一种有用的采样器将大标准噪声输入到模型中,扩大源条件对模型猜测的影响。

噪声裁剪

约束最小的噪声标准

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用
,只有满意
不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用
才能够被采样。这一进程是跟着模型的学习自习惯决定的。

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用

CEDI

根据前文的假定,咱们假定当大噪声标准指示时,模型更多地依赖于源条件。所以作者就测验经过向模型提供大噪声标准的指标来使模型更加忠实于源条件。

不是DINOSAUR是DINOISER:经过噪声表影响条件序列分散模型作用