关于边界检测增强的中文命名实体识别

深度学习自然语言处理 2021-09-22 3749

描述

引言

命名实体识别（Named Entity Recognition，NER）是自然语言处理领域的一个基础任务，是信息抽取等许多任务的子任务，旨在识别非结构化文本中属于预先定义的类别的命名实体，例如人名、组织、地点等。命名实体识别通常被视为一个序列标注任务。

在 ACL-IJCNLP 2021 收录的论文中，共有30余篇论文与命名实体识别相关，其中4篇论文关注中文命名实体识别。本次推送将分享 ACL-IJCNLP 2021 中与中文命名实体识别相关的3篇论文。

文章概览

增强实体边界检测以提升中文命名实体识别

Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition

论文地址：https://aclanthology.org/2021.acl-short.4/

这篇文章研究了中文命名实体识别中的边界检测增强方法，探索从两个方面来增强实体边界信息：一是增加一个图注意力网络层来捕捉句子中词之间的依赖关系；二是将实体首尾词汇的预测看作是两个独立的二分类问题，作为辅助任务加入训练。实验证明，文章所提出的边界增强模型对于实体边界和实体类型的识别有提升，并且在书面与非书面文本上都有效果，在OntoNotes4、OntoNotes5等数据集上达到了SOTA效果。

带有语音线索的大规模中文多模态NER数据集

A Large-Scale Chinese Multimodal NER Dataset with Speech Clues

论文地址：https://aclanthology.org/2021.acl-long.218/

这篇文章对于融合文本和语音多模态的中文命名实体识别进行了探索。文章首先构建了一个大规模的中文多模态嵌套命名实体识别数据集CNERTA，并提出了一个多模态多任务的模型，通过引入一个speech-to-text对齐的辅助任务来利用语音模态中蕴含的停顿信息进而有助于分词。实验显示论文提出的模型在CNERTA上达到了SOTA效果。

提高模型泛化能力：中文命名实体识别案例研究

Improving Model Generalization： A Chinese Named Entity Recognition Case Study

论文地址：https://aclanthology.org/2021.acl-short.125/

这篇论文主要研究了数据集中的数据偏差对于模型泛化能力的影响。文章通过分析五个基准中文NER数据集，确定了两种可能影响模型泛化能力的数据偏差，并提出一种实体重新平衡法来改进训练集，从而提升模型泛化能力。

论文细节

论文动机

命名实体识别需要对实体在句子中的边界和实体类别进行识别。与英文相比，中文没有显性的词边界、实体边界以及时态信息，因此中文命名实体识别更具挑战性。目前中文命名实体识别的SOTA性能与英文差了将近10%的F1值。

这篇文章试图从增强实体边界的识别的角度来更好地进行中文命名实体识别。考虑到Star-Transformer独特的星形拓扑结构能够减少冗余连接，同时保留近似模拟长程依赖关系的能力，因此使用Star-Transformer来构建一个轻量级的命名实体识别基线系统。

在这个基线系统的基础上，文章从两个角度来增强实体的边界信息：一是添加了一个图注意力网络层来捕捉句子、短语、实体内部的依赖，从而隐式地区分边界；二是将实体首尾的预测作为辅助任务，从而显式地区分边界。

方法

这篇文章提出的模型将命名实体识别视作一个序列标注任务，模型整体架构如下图所示，包括Token embedding layer，Encoder和Decoder三个部分。模型Decoder为条件随机场。

1. Token embedding layer

模型以中文词汇作为token单位。考虑到缺少明确的词边界信息，为了防止分词错误的传播，将词的表示与字符表示相结合。从预训练词向量中获得词汇和汉字的向量，然后将汉字向量的序列通过一个双向GRU层，获取双向GRU的输出作为汉字的表示。

最终token的表示由词向量、字向量经过双向GRU的输出以及词性标注拼接而成。

2. Encoder

模型的Encoder主要由三个部分构成：作为基线的Star-Transformer、图注意力网络和基于两个GRU的实体首尾表示层。

Star-Transformer

文章认为对于命名实体识别任务而言，实体是稀疏的，因此没必要总是关注所有token之间的关系。经典的Transformer的token之间实际上是全连接的，Star-Transformer通过引入一个中继节点，减少潜在的冗余连接，同时保留了近似模拟长程依赖关系的能力。

Star-Transformer的拓扑结构由一个中继节点和多个卫星节点构成，第i个卫星节点的状态表示句子中第i个token，中继节点充当一个虚拟枢纽从所有的卫星节点收集信息并分发信息。对于NER这种序列标注任务，取卫星节点的状态作为Star-Transformer的序列输出。初始化时，每个卫星节点的状态都由对应token的表示初始化，中继节点被初始化为所有token的均值。各节点更新过程如下式所示。

在更新的过程中，每个卫星节点状态的更新只与其有共边的节点的上轮状态以及该位置对应token的表示有关。中继节点的更新则取决于这一轮更新后的所有卫星节点状态，以及上一轮自身的状态。

文章在卫星节点的更新过程中还加入了一个Highway Network，通过门控机制来缓解潜在的梯度问题，从而减轻star-transformer的深度和复杂性。

此处相当于一个门，对于卫星节点的上轮状态一部分进行仿射变换，剩余部分直接通过，再与star-transformer的多头注意力结果相加，作为卫星节点的最终更新结果。

图注意力网络

文章用于增强实体边界的第一个做法是使用图注意力网络来建模词之间的依赖关系，从而将句子、短语的结构信息纳入到表示中，也有助于捕捉实体内部词语之间的依赖关系，从而隐式地增强实体的边界信息。图注意力网络利用注意力计算，来为与某个节点有关联的所有节点分配不同的重要性。具体的多头图注意力网络计算过程如下式。

基于GRU的实体首尾表示层

文章用于增强实体边界的第二个做法是将实体边界的检测看作两个二分类任务，亦即词汇是否为实体之首、是否为实体之尾。使用两个独立的GRU层进行这两个辅助的二分类任务的预测，从而清晰、显式地直接提供实体的边界信息。

模型的Encoder输出如下式。

而损失函数便是多任务的损失之和，包括实体标签序列分类预测的交叉熵损失和两个实体首尾分类预测的交叉熵损失。

实验

实验语料库包括三个常见的中文NER数据集：OntoNotes4、OntoNotes5和Weibo。对于两个增强边界信息的方法进行了消融实验，并将实体识别的错误分成了类型错误、未识别错误和边界错误这三类。

对于配合了Highway Network的Star-Transformer，它在较小的社交媒体Weibo数据集上较为有效，优于前面所有现有模型。

考虑到OntoNotes的结构特性，它的实体都具有相似的组成，利用图注意力网络来建模实体内部的依赖将OntoNotes的Precision分别提高了3.93%和1.62%。而引入实体首尾预测的二分类辅助任务显著减少了OntoNotes上的边界错误数量。同时考虑两个增强方法的模型在OntoNotes的各种评价指标上基本都达到了最好的效果，也进一步减少了边界错误的数量。因此，所提出的边界增强模型对于实体边界和实体类型的识别都有所提升。

对于Weibo的标准Named Entity数据集，也有与OnteNotes相似的表现。说明这个边界增强模型对于书面与非书面文本都有效果。

论文动机

大多数关于命名实体识别的研究只依靠文本来推断标签，当文本噪声多或是较短时，仅凭文本信息不足以准确定位和分类命名实体，因此可以考虑引入其他模态作为文本模态的补充。而目前已有的多模态命名实体识别多是在融合文本模态与视觉模态，且研究大多局限于英语。目前的中文命名实体识别研究都完全忽略了有价值的多模态信息。

文章认为语音模态在中文命名实体识别中能够起到独特作用，特别是能提供精确的分词信息。因为语音模态所包含的线索有相邻词汇之间的停顿，从而可以帮助模型确定词边界。例如在“南京市长江大桥”这个句子中，传统中文NER模型可能打出地点“南京市”和地点“长江大桥”的标签，也可能打出地点“南京”和人名“江大桥”的标签；

而这两种标签所对应的句子发音与停顿实际上是大有不同的，如果有对应的语音信息的辅助，模型便能够更好地确定分词信息，继而更好地确定实体边界。文章试图在训练过程中将文本和对应的语音进行对齐，找到每个汉字在语音中的位置，从而利用语音中的停顿等信息来辅助词边界的确定。

方法

中文多模态NER数据集构建

由于以往没有融合语音信息的NER研究，也没有中文多模态NER研究，文章首先构建了一个大规模的中文语音多模态NER数据集CNERTA。CNERTA包含文本及其命名实体标注，以及文本对应的语音。CNERTA中标注了人名、地点和组织这三类命名实体，也对所有嵌套实体进行了标注。

基线系统

文章选取了三类基线系统：

基于字符的模型：BiLSTM-CRF、BERT-CRF、MacBERT-CRF

词汇增强模型：Lattice-LSTM、ZEN

多模态模型：Cross-Modal Attention Module （CMA）、Multimodal Interaction Module （MMI）

多模态多任务NER模型M3T

在语音嵌入方面，首先将语音信号进行特定的处理，包括预加重、分帧加窗、短时傅立叶变换STFT等，并计算filter banks等特征。然后经过两个在时间和频率上的卷积对语音特征进行下采样，并通过一个Transformer的Encoder来建模依赖，最后得到语音的特征序列。

M3T使用了一个CMA模块（Cross-Modal Attention Module）来融合文本与语音的信息。将文本特征序列作为query，语音特征序列作为key和value计算多头注意力，从而得到经过语音特征增强的新的文本表示。具体计算如下式。

其中LN为层归一化，FFN为全连接的前馈神经网络，由两个带有ReLU激活的线性变换组成。CMA的输出即可送入条件随机场进行解码推断NER标签。

CMA虽然能够融合文本和语音模态，但并没有对文本和语音进行对齐。因此论文还引入了一个CTC（Connectionist Temporal Classification）层作为辅助任务，来帮助进行文本和语音的对齐，找到每个汉字在语音中的位置。

在CTC层中，每一帧的语音先被映射到字典+空格的空间上，然后经过一个logit函数得到一个（|V|+1）*t维的矩阵G，其中|V|是字典规模，t为语音帧数，并将对应文本中没有出现过的字进行mask。

CTC的解码过程取每帧上概率最大的字作为该帧上预测的输出，可能是汉字、标点也可能是空格。然后CTC将没有被空格隔开的相同的字合并，最后将空格移除得到预测的汉字序列，最终实现从语音到文本的对齐，进而纳入语音中的停顿等信息。

这个masked G可以计算出CTC loss。整个模型使用的混合损失便由条件随机场损失和CTC损失组成，如下式，其中为超参数。

实验

引入语音模态可以显著提高基于字符的模型的性能，即使是使用简单的CMA也能在所有Flat NER和嵌套NER中带来超过1.6%的F1提升，而使用M3T则能够带来超过3%的提升；

引入语音模态也可以提高词汇增强模型的性能，例如对于ZEN。使用CMA能够在Flat NER和嵌套NER中带来1.38%和1.73%的F1提升，而M3T模型能让它们的性能提升2.93%和3.19%。虽然提升没有基于字符的模型那么显著，但仍证明了语音模态可以提供一些大规模词典中未包含的信息；

论文所提出的M3T模型能够在CNERTA数据集中实现SOTA效果，论文推测这些改进来源于CTC捕捉到的语音模态与文本模态之间的单调对齐关系，有了对齐信息，模型就可以利用语音中包含的显性词边界信息。

文章也进一步分析了命名实体识别的错误来源，将错误分为类型错误和边界错误，类型错误指边界正确但预测类型错误，其余情况都被归为边界错误。

可见通过论文的M3T模型来融合语音模态可以有效地减少边界错误的数量。

论文动机

通过分析五个常用的中文NER数据集，文章提出在中文NER数据集中广泛存在着两类数据偏差问题：

中文NER验证集/测试集中50-70%的实体都在训练集中出现过，因而验证集/测试集实际上难以评估模型的真实泛化能力。论文定义了一个称为实体覆盖率的度量来量化验证集/测试集中可见实体的程度，

其中是一个获取实体列表的函数。五个中文NER数据集中实体覆盖率情况如表所示，可见实体占了很大的比例。

大多数NER数据集都由少数fat-head实体主导，即出现频率异常高的实体。例如在Cluener的组织类别中，曼联出现了59次，而法兰克福只出现了1次。这样可能鼓励模型单纯记住这些出现频率高的实体，而不是在训练过程中利用上下文学习该实体类别的模式。

论文提到这是因为在给定相同实体和不同上下文的情况下，模型收敛最简单的方式是记住实体，而非从不同的上下文中提取模式。论文使用实体出现频率的峰度度量数据集的fat-head程度，如下表所示。数据集中绝大部分类别的峰度超过3，部分类别峰度极高乃至超过1000。总体来说，频率最高的前1%的实体贡献了21%的出现次数。fat-head实体的现象在中文NER数据集中很严重。

方法

文章首先通过从验证集和测试集中排除所有可见实体来改进验证集与测试集。然后提出了一种实体重新平衡方法，使同一类别内的实体均匀分布，从而避免该类别的实体模式被fat-head实体主导。

论文提出实体重新平衡法主要是出于认为多数情况下同一类别内的不同实体在语义上可互换，使得实体均匀分布后将鼓励模型利用上下文信息，因为不再有来自分布不均匀的简单规律可利用。

在实体重新平衡法中，首先对需要平衡的类别构建一个实体counter，然后将其转化为一个balanced counter，使得出现次数最多和最少的实体次数之间最大差值仅为1。随机替换fat-head实体，将该类别的原始实体分布转化为balanced counter中的均匀分布。具体步骤见下方伪代码。

实验

实验使用的统一模型架构为BERT+CRF。实验结果见下表，其中Baseline列使用原始训练数据，Proposed列使用实体重新平衡后的训练数据，它们都在排除所有可见实体的验证集和测试集上进行调参与测试。

在五个数据集的大部分类别中，文章提出的实体平衡算法都能够提高模型识别不可见实体的能力。但也有例外，例如Cluener中的address，论文给出的解释是address类别可能包含特定的地缘政治实体，它们在语义上不可互换，因此算法会失效；在Resume数据集上效果也不佳，论文给出的解释是简历的结构串联性不强，可利用的上下文知识很少。

因此，论文也总结了提出的实体平衡算法有效的条件：首先，同一类别的实体需要在语义上可以互换；其次，实体应当依赖上下文信息。

来自：复旦DISC

作者：石霭青

编辑：jq

打开APP阅读更多精彩内容