Few-shot NER的三阶段

深度学习自然语言处理 2022-08-24 1545

描述

—

方法介绍

Few-shot NER的三阶段：Train、Adapt、Recognize，即在source域训练，在target域的support上微调，在target域的query上测试。

Target

如上图，左边（1-3）表示的是原型的loss1（训练目标为各个原型分散分布），右边（4-7）表示的是span的representation获取，中间（8）是一个多层FFN（为了使得原型表示和span表示最终映射到同一个向量空间），中间（9-10）则是计算原型和span在同一个空间的loss2（为了使得实体span更靠近原型表示）

—

和过往工作相比

1、使得Adapt阶段不只是通过对support集中的实体词表示平均得到实体原型表示，而是能够进行finetune（文中提到Ma et al. (2022) claim that the finetuning method is far more effective in using the limited information in support sets.）

2、过往的原型网络的训练方法使得最终的原型表示较接近，本文通过构造loss1（上一段提到的）使得原型表示分散开

—

实验结果

这里仅挑选附录部分的FEW-NERD实验结果

Target

从实验结果来看，在INTRA上效果较好，在INTER上不如ESD。其中INTRA是指source和target之间的实体的粗粒度类型无交集，INTER则在粗粒度上有交集（细粒度上无交集）。（另外，2022年还有一篇SOTA文章Decomposed metalearning for few-shot named entity recognition，这里没有进行对比）

—

消融实验

1、使用token-level

2、缺少loss1（把原型打散的loss，方法介绍中有说）

3、使用cosine similarity而不是Euclidean distance来衡量span-prototype相似度

Target

审核编辑：彭静

打开APP阅读更多精彩内容