标注多跳问答(Multi-hop QA)数据集费时费力!本文首次研究了无监督的多跳问答的可能性,提出了MQG-QA,一种无监督的框架,从同构和异构数据源中自动生成多跳问答对。使用生成的数据预先训练QA系统将大大减少对人工标注训练数据的需求。
多跳问答(QA)训练数据的获取是非常耗时费力的。为了解决这个问题,我们探索了无监督的多跳QA问答对生成的问题,可以在没有标注的QA对场景下使用,非常的适合真实场景。
我们模型首先通过首先从每个数据源中选择或生成相关信息,然后将多个信息整合起来,形成一个多跳问题。我们发现,用我们模型产生的训练数据训练出来的模型,性能和完全监督模型之间的F1差距较小。这个现象是非常激动人心的,表明我们可以通过无监督预的构造数据来大大减少对人工标注的训练的需求。
下图是该方法的简易用法演示:
原文标题:【NAACL2021】初探无监督的多跳问答对
文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
责任编辑:haq
全部0条评论
快来发表一下你的评论吧 !