实体关系联合抽取取得SOTA的三种方法

深度学习自然语言处理 2021-02-10 14720

描述

2020实体关系联合抽取一片红海，各种SOTA方法你方唱罢我方登场，在一些数据集上也是不断刷出新高度，为信息抽取领域带来了新思路，推动了信息抽取领域的发展。本文梳理了实体关系联合抽取取得SOTA的三种方法，以做总结。

自然语言

先总体对三种方法做个比较：*表示Exact Matching

自然语言

以下将对上面提到的三篇文章依次进行详细解读。

CasRel

论文：A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

地址：https://arxiv.org/abs/1909.03227

arxiv访问不方便的同学后台回复『0016』直接获取

2019年的时候看到苏剑林在paperweekly上的一篇文章，阐述了其在参加百度SPO竞赛中所使用的方法，这篇论文可以认为是之前所提方法的延伸。

论文提出级联二分标记框架CasRel方法（a novel cascade binary tagging framework），与以往把关系看着离散标签不同，这里把关系看着是一个函数fr(sub)->obj，头实体sub是自变量，尾实体obj是因变量，先抽取出头实体，然后结合各关系类型，进一步抽取出对应的尾实体。该方法可以解决实体关系中的EPO/SEO实体重叠问题。结合模型框架图更好理解：

自然语言

CasRel模型可以分两部分理解：

编码部分：采用Bert进行编码，输入subword embedding + position embedding

Cascade解码（级联解码）：先对subject实体进行抽取（subject tagger），然后对每一种关系，进一步去抽取该关系下subject所对应的object实体（relation-specific object tagger）。

subject实体抽取：直接在Bert编码后进行span解码，得到实体的start和end位置，如图示，对每个token位置做二分类，判断是否为start位，或者是否为end位。注意：在解码的时候，start和end配对可以采用就近原则得到实体

自然语言

特定关系下的object实体抽取：结合上图示，obj实体解码类似于sub的解码，需要注意两点：一是对每种关系都要做obj解码，二是obj的解码中引入了上一步中所得到的sub实体的信息Vsub，Vsub是对sub实体中各token向量求平均。当start_o和end_o经过二分判断都为0时，表示该关系下没有对应的obj实体，也即该sub为头实体时不存在这个关系的三元组。

自然语言

优化目标及模型损失函数：目标是最大化三元组抽取概率，sub和obj的抽取都是采用span方式，可采用二分交叉熵计算loss。优化目标公式如下：

自然语言

实验结果

在NYT和WebNLG两个数据集上达到了SOTA，如下图所示，即使不使用Bert进行编码（使用LSTM）效果依然是十分显著的。实验同时对比了句子中不同三元组数目下的结果，以及Normal、EPO和SEO三种情况下的结果，实验显示CasRel方法在多三元组、EPO和SEO情况下效果提升更明显。

自然语言

总结：

级联两个任务，两个任务独立解码，共享编码，这种模型架构也可以算到多任务学习的范畴，模型先抽取出sub实体，再在各个relation下去抽sub实体对应的obj实体，把relation看成函数，模型整体架构很清晰，特别是在relation纬度上做堆叠，打开了关系抽取的新思路。

TPLinker

论文：TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

地址：https://arxiv.org/abs/2010.13415

arxiv访问不方便的同学后台回复『0017』直接获取

这篇文章提出TPLinker方法（Token Pair Linking）能够end2end对实体及实体关系三元组进行联合抽取，可解决实体关系抽取中的SEO、EPO、实体嵌套等问题。其设计了一种很巧妙的数据标注方式，被称为Handshaking tagging scheme，这种标注统一了实体及实体关系的信息，同时避免了以往其他方法中普遍存在的标签曝光偏差问题（exposure bias）（训练阶段标签使用ground true，推断阶段标签使用predict tag）。

Handshaking tagging scheme:个人感觉文中所给图示（下图）其实不太好理解，从具体例子出发会更方便理解的。

自然语言

为长度为n的句子，构造nxn的矩阵M，行、列分别对应着句子中的token，针对句子中的实体及实体关系设计三种标注方式：

entity head to entity tail (EH-to-ET):对每个实体，将它的头token(行)对应的尾token(列)位置标记为1，反应在M的上三角上，如所给例子实体：New York City ==> M(New, City) = 1, De Blasio ==> M(De, Blasio) =1，上图中紫色背景。

subject head to object head (SH-to-OH): 对每个关系下的实体对，将首实体(sub)的头token(行)对应到尾实体(obj)的头token(列)，如所给例子关系mayor实体对：(New York City, De Blasio) ==> M(New, De)，上图中红色背景。

subject tail to object tail (ST-to-OT): 对每个关系下的实体对，将首实体(sub)的尾token(行)对应到尾实体(obj)的尾token(列)，如所给例子关系mayor实体对：(New York City, De Blasio) ==> M(City, Blasio)，上图中蓝色背景。

注意：EH-to-ET只会存在M的上三角，而SH-to-OH和ST-to-OT是上下三角都会存在的，为了节省存储资源，同时减少目标tag的稀疏性（还是很稀疏），将M的下三角映射到上三角上，值设置为2。（考虑上三角映射的位置上会不会不为0呢，是会存在这种可能的，但现实中概率很低，如triple (ABC, R, CDE)和(CDE, R, BC)）

上面将三元组中的实体信息映射到矩阵上三角，然后将其展平为标记序列，可以得到序列的长度为n*(n+1)/2。如果有N中关系，则经过Handshaking tagging后，得到2N+1个标记序列。

解码方式：

先不用去看下面所给的解码图示，考虑上面讲到的Handshaking tagging作为模型的预测目标，实际上是2N+1个n*n的矩阵，矩阵的元素为句子各token对的关系，其值为0、1、2。其中一个矩阵标记了实体EH-to-ET，N个矩阵标记了SH-to-OH，N个矩阵标记了ST-to-OT。文章给出了一个解码的算法流程，不再贴出，简述过程如下：

自然语言

解码EH-to-ET可以得到句子中所有的实体，用实体头token idx作为key，实体作为value，存入字典D中

对每种关系r，解码ST-to-OT得到token对存入集合E中，解码SH-to-OH得到token对并在D中关联其token idx的实体value

对上一步中得到的SH-to-OH token对的所有实体value对，在集合E中依次查询是否其尾token对在E中，进而可以得到三元组信息。