×

基于中文关键短语的自动提取方法综述

消耗积分:0 | 格式:pdf | 大小:5.63 MB | 2021-05-11

分享资料个

  Segphrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是 Seg Phrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,对 Segphrase算法进行了改进。在短语产生阶段,通过利用词串间的互信息特征保留部分低频但关键的短语;在短语质量评估阶段,通过赋予不同特征不同的权重来对短语进行综合评估,选择更符合实际应用语境的短语。最后,为了验证提取的关键短语的质量,将提取的关键短语应用于文档主题分析。通过实验证明,改进的 Segphrase算法比原方法具有更高的召回率和准确率,该方法提取的关键短语的主题分析比基于关键词的主题分析更能够清晰准确地表达文档主题信息。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !