×

基于字语言模型的中文命名实体识别系统

消耗积分:0 | 格式:pdf | 大小:1.47 MB | 2021-04-08

分享资料个

  命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类。由于用于监督学习的训练数据通常由人工标主,耗时耗力,因此很难得到大规模的标注数据。为解决中文命名实体识别仼务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问題,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能。同时,为解决命名实体识别中的未登录词问题,文中提出了基于宇语言模型的中文NER系统。把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示。文中在6个中文NER数据集上进行了实验。实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F值提升了4.95%。对实验结果进行进一步分析发现,新系统在OOⅤ实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !