Does it Really Generalize Well on Unseen Data? Systematic Evaluation of Relational Triple Extraction Methods

三星研讨院 | ACL 2022 | 原文链接

它真的能很好地归纳看不见的数据吗?相关三重提取办法的体系点评

BackGround

关于曩昔的三元组抽取的模型中，大多针关于NYTWebNLG两个数据集进行练习并验证，可是经过研讨发现，关于在练习中从未遇见过的三元组中，不能有用的推行不行见的三元组，作者经过重新排列数据、挑选练习实习、增加练习试题来着重看不见的数据，并由此提出一种简略有用的技能进行处理泛化的问题。

在这篇文章中，三元组的类型被分为了3个类型：

彻底可见（在各自数据会集与三元组彻底堆叠）

不彻底可见（部分堆叠）

不行见（全新）

曩昔模型的泛化功能评估

[实体联系抽取｜顶会论文]Does it Really Generalize Well on Unseen Data_ 它真的能很好地归纳看不见的数据吗_相关三重提取办法的体系点评

如上图，数据会集的部分可见和不行见的三元组的份额非常小，以至于多样性不行，由此导致泛化功能评估不行靠。提出三种策略增加部分可见和不行见的三元组份额。

重新排列

反复挑选一个三元组，并将包括该三元组的每个实例分发到测验集，使他们在数据会集不行见，为了得到冗余最小化，挑选一个出现次数较少的三元组。

堆叠挑选

从测验会集删去包括该三元组的实力，从测验会集随机挑选k%的唯一三元组，从练习会集删去一切包括所选三元组的实力，构建一个堆叠挑选数据。

扩充数据集

构架了一个增强测验调集，运用mask语言模型，用可代替的词语替换每个三元组中界说的实体。

增强办法：实体噪声

运用彻底随机的噪声词替换给定输入句中的实体。首要对每个实体w采样一个随机噪声词w’，对w’的token进行采样，引进+-1扰动，避免模型记住令牌的数量，

与曩昔的办法不同，实体噪声运用彻底随机的噪声词替换实体，这个特性答应模型运用不行知的信息，因此模型能够经过上下文信息，而不是实体自身来学习从句子中提取三元组。

试验

上表表明了RTE办法再重组数据集和原始数据集上缺乏泛化才能，实体噪声提高了对不行见三元组的富贵才能，关于部分可见的三元组，没有危害泛化才能。

总结

在这篇文章中，揭露了当前主流模型的关于未曾练习过的数据集的泛化才能不强，作者运用实体噪声办法，强化了模型关于未见数据的泛化才能，一起也保持了关于练习中出现过的三元组识别的泛化才能。所以，关于今后得模型练习能够多多考虑关于泛化才能的提高，或许运用作者供给的数据集进行练习，然后功能再对其他的模型在这个数据集上进行比较，对其他的模型形成降维打击。

[实体关系抽取｜顶会论文]Does it Really Generalize Well on Unseen Data_ 它真的能很好地概括看不见的数据吗_关联三重提取方法的系统评价

Does it Really Generalize Well on Unseen Data? Systematic Evaluation of Relational Triple Extraction Methods

BackGround

曩昔模型的泛化功能评估

重新排列

堆叠挑选

扩充数据集

增强办法：实体噪声

试验

总结

作者信息

推广

[实体关系抽取｜顶会论文]Does it Really Generalize Well on Unseen Data_ 它真的能很好地概括看不见的数据吗_关联三重提取方法的系统评价

Does it Really Generalize Well on Unseen Data? Systematic Evaluation of Relational Triple Extraction Methods

BackGround

曩昔模型的泛化功能评估

重新排列

堆叠挑选

扩充数据集

增强办法：实体噪声

试验

总结

相关文章

微电网的优化(多目标优化)

一起来玩一玩AI编程助手-Cody，可能是程序员的第一个AI编程助手

机器学习(三)：理解逻辑回归及二分类、多分类代码实践

使用Yolov5实现智能垃圾分类系统

作者信息

推广