在前面的几个章节中,咱们介绍了几种根据不同半监督假定的模型优化计划,包含Mean Teacher等共同性正则束缚,FGM等对立练习,min Entropy等最小熵准则,以及Mixup等增强计划。虽然起点不同但上述优化计划都从不同的方向服务于半监督的3个假定,让咱们重新回忆下(哈哈自己抄袭自己):

  • moothness滑润度假定:近朱者赤近墨者黑,两个样本在高密度空间特征附近,则label应该共同。优化计划如Mixup,共同性正则和对立学习
  • Cluster聚类假定:高维特征空间中,同一个簇的样本应该有相同的label,这个强假定其实是Smoothness的特例
  • Low-density Separation低密度分离假定:分类鸿沟应该处于样本空间的低密度区。这个假定更多是以上假定的必要条件,假如决策鸿沟处于高密度区,则无法确保簇的完好和边际滑润。优化计划入MinEntropy

MixMatch则是集各家所长,把上述计划中的SOTA都交融在一同完成了1+1+1>3的作用,首要包含共同性正则,最小熵,Mixup正则这三个计划。想要回忆下原始这三种计划的完成能够看这儿

  • 小样本利器1.半监督共同性正则
  • 小样本利器3.半监督最小熵正则
  • 小样本利器4.正则化+数据增强Mixup

本章介绍几种半监督交融计划,包含MixMatch,和其他变种MixText,UDA,FixMatch

MixMatch

  • Paper: MixMatch: A Holistic Approach to Semi-Supervised Learning
  • Github: github.com/YU1ut/MixMa…
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch

针对无标示样本,MixMatch交融了最小熵准则和共同性正则, 前者最小化模型猜测在无标示样本上的熵值,使得分类鸿沟远离样本高密度区,后者束缚模型对细小的扰动给出共同的猜测,束缚分类鸿沟滑润。完成如下

  1. Data Augmentation: 对batch中每个无标示样本做K轮增强ub,k=Augment(ub)\hat{u_{b,k}}=Augment(u_b),每轮增强得到一个模型猜测Pmodel(y∣ub,k;)P_{model}(y|u_{b,k};\theta)。针对图片作者运用了随机翻转和裁剪作为增强计划。
  2. Label Guessing: Ensemble以上k轮猜测得到无标示样本的预估标签
qb‾=1k∑k=1KPmodel(y∣ub,k;)\overline{q_b}=\frac{1}{k}\sum_{k=1}^{K}P_{model}(y|\hat{u_{b,k}}; \theta)
  1. Sharpening:感觉Sharpen是调配Ensemble运用的,考虑K轮交融可能会得到相信度较低的标签,作者运用Temperature来下降以上交融标签的熵值,促使模型给出高相信的猜测
Sharpen(qi‾,T)=qi‾1T/∑j=1Lqj‾1TSharpen(\overline{q_{i}}, T) = \overline{q_{i}}^{\frac{1}{T}}/\sum_{j=1}^L\overline{q_{j}}^{\frac{1}{T}}

针对有标示样本,作者在原始Mixup的基础上加入对以上无标示样本的运用。

  1. 拼接:把增强后的标示样本X\hat{X}和K轮增强后的无标示样本U\hat{U}进行拼接得到W=Shuffle(Concat(X,U))W=Shuffle(Concat(\hat{X},\hat{U}))
  2. Mixup:两两样本对交融特征和标签得到新样本X‘,U‘X^`,U^`,这儿在原始mixup的基础上额定束缚mixup权重>0.5, 感觉这个束缚首要针对引入的无标示样本,确保有标示样本的交融以原始标签为主,防止引入太多的噪声

小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
终究的丢失函数由标示样本的交叉熵和无标示样本在猜测标签上的L2正则项加权得到

小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
Mixmath因为运用了多种计划交融因子引入了不少超参数,包含交融轮数K,温度参数T,Mixup交融参数\alpha, 以及正则权重u\lambda_u。不过作者指出,多数超惨不需要根据使命进行调优,能够直接固定,作者给的参数取值,T=0.5,K=2。=0.75,u=100\alpha=0.75,\lambda_u=100是引荐的测验取值,其中正则权重作者做了线性warmup。

经过融化试验,作者证明了LabelGuessing,Sharpening,Mixup在当时的计划中缺一不可,且进一步运用Mean Teacher没有作用进步。

小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
作用上比照单一的半监督计划,Mixmatch的作用进步非常显著
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch

MixText

  • Paper: MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification
  • Github:github.com/SALT-NLP/Mi…
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch

MixText是MixMatch在NLP领域的测验,关注点在更适合NLP领域的Mixup运用方法,这儿只关注和MixMatch的异同,未提到的部分基本上和MixMatch是一样的

  1. TMix:Mixup交融层 这一点咱们在Mixup章节中讨论过,mixup终究应该对哪一层躲藏层进行交融,能获得更好的作用。这儿作者运用了和Manifold Mixup相同的计划,也便是每个Step都随机挑选一层进行交融,只不过对挑选那几层进行了调优(炼丹ing。。。), 在AG News数据集上挑选更高层的作用更好,不过感觉这个参数应该是task specific的
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
  1. 最小熵正则 MixText进一步加入了最小熵准则,在无标示数据上,经过penalize大于\gamma的熵值(作者运用L2来核算),来进一步进步模型猜测的相信度

小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch

  1. 无标示丢失函数 MixMatch运用RMSE丢失函数,来束缚无标示数据的猜测和Guess Label共同,而MixText运用KL-Divergance, 也便是和标示样本相同都是最小化交叉熵

UDA

  • Paper:Unsupervised Data Augmentation for Consistency Training
  • official Github: github.com/google-rese…
  • pytorch version: github.com/SanghunYun/…
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch

同样是MixMatch在NLP领域的测验,不过UDA关注点在Data Augmentation的难易程度对半监督作用的影响,中心观念是难度高,多样性好,质量好的噪声注入,能够进步半监督的作用。以下只总结和MixMatch的异同点

  1. Data Augmentation MixMatch只针对CV使命,运用了随机水平翻转和裁剪进行增强。UDA在图片使命上运用了复杂度和多样性更高的RandAugment,在N个图片可用的改换中每次随机采样K个来对样本进行改换。原始的RandAugment是搜索得到最优的改换pipeline,这儿作者把搜索改成了随机挑选,能够进一步增强的多样性。 针对文本使命,UDA运用了Back-translation和根据TF-IDF的词替换作为增强计划。前者经过调整temperature能够生成多样性更好的增强样本,后者在分类问题中对中心关键词有更好的保护作用,生成的增强样本有效性更高。这也是UDA提出的一个中心观念便是数据增强其实是有效性和多样性之间的Trade-off

  2. Pseudo Label 针对无标示样本,MixMatch是对K次弱增强样本的猜测结果进行交融得到更精确的标签。UDA只对一次强增强的样本进行猜测得到伪标签。

  3. Confidence-Based Maskin & Domain-relevance Data Filtering UDA对无标示样本的共同性正则loss进行了束缚,包含两个方面

  • 相信度束缚:在练习过程中,只对样本猜测概率最大值>threshold的样本核算,假如样本猜测相信度太低则不进行束缚。这儿的束缚其实和MixMatch的多次猜测Ensemble+Sharpen比较类似,都是进步样本的相信度,不过完成更简洁。
  • 样本挑选:作者用原始模型在有标示上练习,在未标示样本上猜测,过滤模型猜测相信度太低的样本 中心是为了从很多的无标示样本中挑选和标示样本领域类似的样本,防止共同性正则部分引入太多的样本噪声。作用上UDA比MixMatch有进一步的进步,详细放在下面的FixMatch一同比较。

FixMatch

  • Paper:FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
  • official Github: github.com/google-rese…
  • pytorch version: github.com/kekmodel/Fi…
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
和MixMatch出自部分同一作者之手,交融了UDA的强增强和MixMatch的弱增强来优化共同性正则,作用也比MixMatch有进一步进步,公然大神都是自己卷自己~
  1. Pseudo Label

在生成无标示样本的伪标签时,FixMatch运用了UDA的一次猜测,和MixMatch的弱增强Flip&Shift来生成伪标签,同时使用UDA的相信度掩码,猜测相信度低的样本不参与loss核算。

  1. 共同性正则

共同性正则是FixMatch最大的亮点,它运用以上弱增强得到的伪标签,用强增强的样本去拟合,得到共同性正则部分的丢失函数。优点是弱增强的标签精确度更高,而强增强为共同性正则供给更好的多样性,和更大的样本扰动覆盖区域,运用不同的增强计划进步了共同性正则的作用

小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch

作用上FixMatch相比UDA,MixMatch和ReMixMatch均有进一步的进步

小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch