持续创作,加速成长!这是我参加「日新计划 10 月更文挑战」的第28天,点击检查活动概况
导读
今天给大家介绍半监督学习中的3个最根底的概念:共同性正则化,熵最小化和伪标签,并介绍了两个经典的半监督学习办法。
半监督学习 (SSL) 是一种非常风趣的办法,用来处理机器学习中短少标签数据的问题。SSL运用未符号的数据和符号的数据集来学习使命。SSL的方针是得到比单独运用符号数据练习的监督学习模型更好的结果。这是关于半监督学习的系列文章的第2部分,具体介绍了一些基本的SSL技能。
共同性正则化,熵最小化,伪标签
SSL的盛行办法是在练习期间往典型的监督学习中增加一个新的损失项。一般运用三个概念来完成半监督学习,即共同性正则化、熵最小化和伪标签。在进一步评论之前,让咱们先了解这些概念。
共同性正则化强制数据点的实践扰动不该明显改动猜测器的输出。简略地说,模型应该为输入及其实践扰动变量给出共同的输出。咱们人类对于小的搅扰是适当鲁棒的。例如,给图画增加小的噪声(例如改动一些像素值)对咱们来说是发觉不到的。机器学习模型也应该对这种扰动具有鲁棒性。这一般经过最小化对原始输入的猜测与对该输入的扰动版本的猜测之间的差异来完成。
模型对输入x及其扰动x^的共同性度量
d(.,.) 能够是均方差错或KL散度或任何其他距离度量。
共同性正则化是运用未符号数据找到数据集所在的滑润流形的一种办法。这种办法的例子包括模型、Temporal Ensembling,Mean Teacher,Virtual Adversarial Training等。
熵最小化鼓舞对未符号数据进行更有决心的猜测,即猜测应该具有低熵,而与ground truth无关(由于ground truth对于未符号数据是不知道的)。让咱们从数学上了解下这个。
熵的计算
这儿,K是类别的数量, 是模型对x猜测是否属于类别k的置信度。
此外,输入示例中一切类的置信度之和应该为1。这意味着,当某个类的猜测值挨近1,而其他一切类的猜测值挨近0时,熵将最小化。因此,这个方针鼓舞模型给出高可信度的猜测。
抱负情况下,熵的最小化将阻止决策鸿沟经过邻近的数据点,否则它将被迫发生一个低可信的猜测。请参阅下图以更好地了解此概念。
由不同的半监督学习办法生成的决策鸿沟
伪标签是完成半监督学习最简略的办法。一个模型一开始在有符号的数据集上进行练习,然后用来对没有符号的数据进行猜测。它从未符号的数据会集挑选那些具有高置信度(高于预界说的阈值)的样本,并将其猜测视为伪标签。然后将这个伪标签数据集增加到符号数据集,然后在扩展的符号数据集上再次练习模型。这些步骤能够执行多次。这和自练习很相关。
在实际中视觉和言语上扰动的例子
视觉:
翻转,旋转,裁剪,镜像等是图画常用的扰动。
言语
反向翻译是言语中最常见的扰动办法。在这儿,输入被翻译成不同的言语,然后再翻译成相同的言语。这样就获得了具有相同语义属性的新输入。
NLP中的反向翻译
半监督学习办法
model:
这儿的方针是共同性正则化。
模型鼓舞模型对两个相同的输入(即同一个输入的两个扰动变量)输出之间的共同性。
模型有几个缺点,首要,练习计算量大,由于每个epoch中单个输入需要送到网络中两次。第二,练习方针zi是有噪声的。
Temporal Ensembling:
这个办法的方针也是共同性正则化,可是完成办法有点不一样。
众所周知,与单一模型相比,模型集成一般能提供更好的猜测。经过在练习期间运用单个模型在不同练习时期的输出来形成集成猜测,这一思维得到了扩展。
简略来说,不是比较模型的相同输入的两个扰动的猜测(如模型),模型的猜测与之前的epoch中模型对该输入的猜测的加权均匀进行比较。
这种办法克服了模型的两个缺点。它在每个epoch中,单个输入只进入一次,并且练习方针zi 的噪声更小,由于会进行滑动均匀。
这种办法的缺点是需要存储数据会集一切的zi 。
英文原文:medium.com/analytics-v…