自然语言推理数据集“人工痕迹”严重，模型性能被高估

zhKF_jqr_AI 2018-03-14 4587

电子说

1.3w人已加入

描述

编者按：自然语言推理所用的数据集再近年得到了研究和发展，但是在本文中，来自华盛顿大学、卡内基梅隆大学和纽约大学等机构的研究人员发现，这些数据集中不可避免出现了明显的“人工痕迹”，使得模型的表现被高估了，评估自然语言推理模型的问题仍然存在。以下是论智的编译。

自然语言推理是NLP领域被广泛研究的领域之一，有了这一技术，许多复杂的语义任务如问题回答和文本总结都能得到解决。而用于自然语言推理的大规模数据集是通过向众包工作者提供一个句子（前提）p，然后让他们创作出三个新的与之相关的句子（假设）h创造出来的。自然语言推理的目的就是判断是否能根据p的语义推断出h。我们证明，利用这种方法，使得数据中的很大一部分只需查看新生成的句子，无需看“前提”，就能了解到数据的标签。具体来说，一个简单的文本分类模型在SNLI数据集上对句子分类的正确率达到了67%，在MultiNLI上的正确率为53%。分析表明，特定的语言现象，比如否定和模糊与某些推理类别非常相关。所以这一研究表示，目前的自然语言推理模型的成功被高估了，这一问题仍然难以解决。

2015年，Bowman等人通过众包标记的方法创造了大规模推断数据集SNLI；2018年，Williams等人又推出了MultiNLI数据集。在这一过程中，研究人员从一些语料中抽取某个前提句子p，让众包标注者基于p创作三个新句子，创作的句子与p有三种关系标准：

包含（Entailment）：h与p非常相关；

中立（Neutral）：h与p可能相关；

矛盾（Contradiction）：h与p绝对不相关。

下面是SNLI数据集中具体的例子：

自然语言