×

基于改进互信息和邻接熵的微博新词发现方法

消耗积分:3 | 格式:rar | 大小:0.71 MB | 2017-12-11

分享资料个

  针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(BE)的微博新词发现算法-MBN-Gram。首先,利用Ⅳ元递增算法(N-Gram)提取新词的候选项,对提取出来的候选新词使用频率和停用字等规则进行过滤;接着再利用改进MI和BE对候选项进行扩展及再过滤;最后,结合相应词典进行筛选,从而得到新词。通过理论及实验分析,MBN-Gram算法在准确率、召回率及F值上均有一定提高。实验结果表明,MBN-Gram算法是有效可行的。

基于改进互信息和邻接熵的微博新词发现方法

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !