近年来,图像文本建模研究已经成为自然语言处理领域一个重要的硏究方向。图像常被用于增强句子的语义理解与表示。然而也有硏究人员对图像信息用于句子语义理解的必要性提岀质疑,原因是文本本身就能够提供强有力的先验知识,帮助模型取得非常好的效果;甚至在不使用图像的条件下就能得出正确的答案。因此硏究图像文本建模需要首先回答一个问题:图像是否有助于句子语义的理解与表示?为此,本文选择一个典型的不包含图像的自然语言语义理解任务:自然语言推理,并将图像信息引人到该任务中用于验证图像信息的有效性。由于自然语言推理任务是一个单一的自然语言任务,在数据标注过程中没有考虑图像信息,因此选择该任务能够更客观地分析岀图像信息对句子语义理解与表示的影响。具体而言,本文提出一种通用的即插即用框架( general plug andplay framework)用于图像信息的整合。基于该框架,本文选择目前最先进的五个自然语言推理模型,对比分析这些模型在使用图像信息前后的表现,以及使用不同图像处理模型与不同图像设置时的表现。最后,本文在一个大规模公开数据集上进行了大量实验,实验结果证实图像作为额外知识,确实有助于句子语义的理解与表示。此外,还证实了不同的图像处理模型和使用方法对整个模型的表现也会造成不同的影响。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !