针对微博关键词抽取准确率不高的问题,提出一种基于标签优先的抽取排序方法。该方法利用微博本身具有的社交特征——标签,从微博内容集中抽取关键词。该方法首先根据微博自身建立初始词与微博之间的加权图,再将基于标签的随机游走方法应用于图中,随机游走反复跳跃到标签词节点上,经过一系列迭代得出每个词的平稳概率,并通过概率决定词的最终排序。该抽取方法根据真实的新浪微博内容进行测验,结果显示,与通过词与词的加权图来抽取关键词相比,基于标签的微博关键词抽取方法准确率提高了50%,在实际应用中能够有效提高关键词抽取的正确率。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !