咱们来自字节跳动飞书商业运用研发部(Lark Business Applications),现在咱们在北京、深圳、上海、武汉、杭州、成都、广州、三亚都设立了办公区域。咱们重视的产品领域首要在企业经验管理软件上,包含飞书 OKR、飞书绩效、飞书招聘、飞书人事等 HCM 领域体系,也包含飞书批阅、OA、法务、财务、采购、差旅与报销等体系。欢迎各位参加咱们。

本文作者:飞书商业运用研发部 阳云

欢迎大家重视飞书技能,每周定期更新飞书技能团队技能干货内容,想看什么内容,欢迎大家谈论区留言~

背景

模型练习的一大难点是数据标示,一般是靠标示大规模数据来进步模型作用,但相应的会耗费大量人力和时刻本钱,因而一些减缩标示数据规模但不减模型作用的方法应运而生,经过自动学习挑选练习样本就是其中比较热门的方法。

自动学习(Active Learning)经过规划合理的样本挑选战略,不断从未标示的数据中挑选出优质数据参加标示后放入练习集。简略来说,自动学习的思维是经过模型自己挑选对模型奉献最大的样本作为练习语料,以到达有效地下降标示本钱的一起敏捷进步模型的辨认能力。

样本挑选的原则是优先挑选对模型“信息量大”的样本,在通常情况下,信息量大被诠释为不确定性较高和多样性高。

根据不确定性:从模型猜测结果来看,挑选模型猜测不准的,即当前模型较难解决的部分样本。

根据多样性:从样本间相似性来看,从未标示样本中挑选与已标示样本差异大的,覆盖问题信息比较多的样本。

战略介绍

如果挑选样本,有很多战略,这儿首要介绍现在几种干流的战略。

下面都是根据序列标示模型介绍,样本的每个文字都会猜测输出多个标签,每个标签有一个概率值(可以理解成猜测为该标签的置信度)

1 NLC-每字最高分的均匀值

根据置信度-均匀分(NLC)

公式:

y*表明字符串x的最大概率的标签

战略:取每个字猜测最高分的均匀值作为筛选分

好坏势:该方法是基础战略,简略有用,但作用不是很好

2 去掉高分后均匀值

根据置信度-均匀分(去掉高分)

战略:考虑到一般大部分字的猜测分数很高,只有要点单个字分数较低,按榜首种战略均匀后简单导致全体分数较高,看不出单个字差的问题,因而舍弃高分字后再按榜首种战略筛选

好坏势:作用并没有显着改进

3 MNLP-最高分取log后的均匀值

根据置信度-均匀分(MNLP)

Maximum Normalized Log-Probability (MNLP)

公式:

战略:比较榜首种战略,对猜测分取了log,改变不大

好坏势:作用并没有显着改进

4 每字信息熵的均匀值

根据置信度-均匀分(entropy)

ŷ是x所有可能的标签

战略:每个字按上面公式核算信息熵,一个样本再取每个字信息熵的均匀值作为筛选分

好坏势:利用到的信息更多,核算更全面,但作用还是没有显着改进

5 LTP-每字最高分中的最低分

根据置信度-最低分(LTP)

Lowest Token Probability(LTP)

2020年最新选取战略 arxiv.org/pdf/2001.02…

公式:

y*表明字符串x的最大概率的标签

战略:假定语句中每个字都该有极高的猜测分,置信度取决于语句猜测分最低的字,取最大概率序列中概率最小值

好坏势:比均匀分区分度更高,实践作用好不少

6 LTP + 未登陆实体概率

根据置信度+多样性:LTP+unknown entity

公式:

LTP是指前面的战略5,e1 和 e2 是权重,试验中分别取 0.95、0.05 ,P(x)=未出现实体数/N (未出现实体数上限值取N,N在试验中取值10)

战略:考虑到NER实践运用中多数猜测过错是练习语料中未出现实体,因而这儿将置信度和多样性结合用

好坏势:考虑了更多特征,作用更好,但不行显着,劣势是战略愈加复杂

7 其他战略

其他战略比较最优战略没有进步,这儿就没有做更深化的试验:由LTP衍生来的取最小的两个(三个)概率值均匀,LTP+根据分词的词相似性,最大概率值,第二小的概率值

试验

经过试验评价上述战略的好坏

试验准备

用线下数据做模拟试验,将已标示的数据划分为labeled set和unlabeled set

对比从unlabeled set随机选取数据去打标和active learning选取数据去打标的作用,起始 labeled set占总样本的 5%,unlabeled set 占总样本的95%

  • 随机选取:从unlabeled set随机选取数据,labeled set逐步增加到5%,10%,15%,20%,30%,……100%
  • active learning:用 labeled set练习模型,最初labeled set选用跟随机选取的5%共同的数据,练习出的模型经过active learning战略从unlabeled set选取5%数据参加labeled set,得到10%的练习数据,从头练习,再从unlabeled set选取数据参加labeled set,重复该过程到labeled set为100%数据
  • 试验模型:根据3层bert的ner模型
  • 测试目标:F1
  • 数据:揭露数据集msra (train数据49000+dev数据1658,测试数据4631)

试验数据

rate count 随机 战略1 战略2 战略3 战略4 战略5 战略6
5% 2500 70.14%
10% 5000 76.68% 84.88% 82.00% 84.92% 84.59% 86.65% 86.73%
15% 7500 79.79% 88.08% 87.12% 87.84% 87.81% 88.60% 89.02%
20% 10000 83.79% 88.93% 88.36% 89.50% 89.72% 89.90% 89.89%
25% 12500 85.26% 90.08% 89.73% 89.71% 89.90% 90.08% 90.36%
30% 15000 86.78% 90.51% 90.48% 89.96% 90.20% 90.77% 90.45%
40% 20000 88.23% 90.87% 90.57% 90.52% 90.57% 90.70% 90.16%
50% 25000 88.55% 90.64% 90.04% 90.56% 90.74% 90.55% 90.21%
60% 30000 88.89% 90.68% 90.30% 90.65% 90.59% 90.56% 90.46%
70% 35000 88.39% 90.21% 90.21% 90.24% 90.21% 90.41% 90.24%
80% 40000 89.12% 89.66% 90.11% 89.58% 89.97% 90.11% 89.62%
90% 45000 89.08% 89.63% 90.15% 89.69% 89.99% 90.34% 89.66%
100% 49000 89.33%

试验分析

  • 到30%数据时,战略5、6到达目标顶峰
  • 全体来看,战略5和6是榜首队伍,战略6比较5稍好,说明根据未登录词的多样性对进步作用是有效的
  • 战略5,作用比前四种语句均匀分显着好不少,原因是均匀分掩盖语句部分问题,大部分语句仅仅单个部分存在信息增益
  • 战略1和3、4是第二队伍,作用不同极小,原因是这三种战略全体都是取均匀分,不同仅在于每个字的得分核算公式不一样
  • 战略2比较战略1,除掉高分,并没有带来收益,反而作用差点,原因是高分也是有不同的,除掉高分等于少了一项判断语句有效性的因子
  • 战略顶峰目标比全量数据目标还高,原因首要是受练习步数影响,这儿为了加速评测速度统一用了1万步,实践3万步更适宜,数据多了,就会受步数少练习不充分的影响,30%时数据较少,受步数影响较小,而战略用了最优质数据,因而反而比全量数据时目标还高

试验结论

选用战略6,作用最佳,但比较战略5进步不显着,考虑到实践运用复杂度,一般挑选用战略5即可,战略5、6都能做到只用30%数据到达全量数据作用

试验总结

  • 选用适宜的自动学习能大幅下降标示本钱的一起敏捷进步模型作用(上面试验只用了30%数据)
  • 自动学习效率进步程度取决于挑选的战略,因而需求结合具体的模型挑选适宜的战略,现在序列标示比较合适战略5/6,但不代表其他类型的模型也是这样
  • 根据现在最优战略结合多样性可探究更优战略,但需权衡复杂性和进步起伏,最好的不一定是最有用的,需结合自己运用场景考虑

参阅

  • 【领域陈述】自动学习年度进展|VALSE2018 zhuanlan.zhihu.com/p/38029108?…
  • DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION arxiv.org/pdf/1707.05…
  • 根据深度自动学习的命名实体辨认www.leiphone.com/news/201805…
  • 自动学习方法在内容安全事务的实践与考虑 www.atatech.org/articles/16…
  • LTP: A New Active Learning Strategy for Bert-CRF Based Named Entity Recognition arxiv.org/pdf/2001.02…

参加咱们

扫码发现职位 & 投递简历:

image.png

官网投递:job.toutiao.com/s/FyL7DRg