介绍一种通用匹配对齐框架MAF

深度学习自然语言处理 2022-09-06 861

描述

命名实体识别是NLP领域中的一项基础任务，在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用，一直是热点研究方向之一。多模态命名实体识别在传统的命名实体识别基础上额外引入了图像，可以为文本补充语义信息来进行消岐，近些年来受到人们广泛的关注。

尽管当前的多模态命名实体识别方法取得了成功，但仍然存在着两个问题：(1)当前大部分方法基于注意力机制来进行文本和图像间的交互，但由于不同模态的表示来自于不同的编码器，想要捕捉文本中token和图像中区域之间的关系是困难的。如下图所示，句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9等)有着较高的相似度，但由于文本和图像的表示并不一致，在通过点积等形式计算相似度时，‘Rob’可能会和其它区域有着较高的相似度得分。因此，表示的不一致会导致模态之间难以建立起较好的关系。

编码器

(2)当前的方法认为文本与其随附的图像是匹配的，并且可以帮助识别文本中的命名实体。然而，并不是所有的文本和图像都是匹配的，模型考虑这种不匹配的图像将会做出错误的预测。如下图所示，图片中没有任何与命名实体“Siri”相关的信息，如果模型考虑这张不匹配的图像，便会受图中“人物”的影响将“Siri”预测为PER(人)。而在只有文本的情况下，预训练模型(BERT等)通过预训练任务中学到的知识可以将“Siri”的类型预测为MISC(杂项)。

为了解决上述存在的问题，本文提出了MAF，一种通用匹配对齐框架(General Matching and Alignment Framework)，将文本和图像的表示进行对齐并通过图文匹配的概率过滤图像信息。由于该框架中的模块是插件式的，其可以很容易地被拓展到其它多模态任务上。

本文研究成果已被WSDM2022接收，

编码器