针对数据稀疏问题,采用适应度函数较灵活的遗传算法做语义的自动标注;以《同义词词林》的层次式结构为依据,提出了利用语义层次的提升来改善适应度函数中参数的估计质量;定义了语义层次的两个基本概念;阐述了语义提升的原理,并采用选择受限策略来解决因语义提升而引起的模型辨别力下降问题;实现了用于语义标注的遗传算法。实验表明该算法在语义标注中能适应不同训练数据量,具有一定的可行性。
关 键 词 语义标注; 遗传算法; 层次结构; 隐马尔可夫模型
语义标注是自然语言深层处理的关键技术之一,对信息抽取、机器翻译、语言理解等都有重要意义,在文本数据集成方面已有应用[1-2],同时也是从深层上理解自然语言的一个必要的前期工作。一般情况下语义标签数目众多,训练数据相对更为稀疏,用HMM[3]做语义标注面临参数估计不准的难题。遗传算法是一种求取最优值的有效方法,在词性标注中已得到应用[4],但在语义标注中却面临数据稀疏问题,难以直接应用。本文依托《同义词词
林》,提出了通过提升语义层次来缓解参数估计失真问题,使遗传算法能根据训练数据量的大小而灵活地采用适应度函数。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !