×

基于KNN的话题跟踪研究_李树平

消耗积分:1 | 格式:pdf | 大小:514KB | 2017-03-08

#Freedom

分享资料个

基于KNN的话题跟踪研究_李树平
1 引言 在话题检测与跟踪研究中,话题跟踪是它的一个子任务,被 定义为在给定同一个话题的几篇新闻报道的前提下检测出该 话题的后继新闻报道。从定义可以看出,话题跟踪研究在本质上 等价于一种受监督的分类研究, 它的关键技术就是文本分类算 法,难点在于话题/报道表示模型。文本分类算法一般包括 KNN 算法,Rocchio 算法,支持向量机(SVM),简单贝叶斯算法和决策树 算法,其中最常用的是 KNN 算法。它也是目前分类效果最好且 应用最广泛的文本分类算法。 2 基于 KNN 的话题跟踪系统 基于 KNN 的话题跟踪系统由话题/报道表示模型,KNN 文 本分类方法和话题检测与跟踪评测方法三个模块组成。 2.1 基于向量空间模型的话题/报道表示模型 话题/报道表示模型一般采用文本表示方法实现,向量空间 模型由 Salton 教授于 1968 年提出的,是最简便而又高效的文本 表示方法之一,在海量文本信息处理方面具有非常强的优势。因 此,本文采用向量空间模型实现话题/报道表示模型。在向量空 间模型实现话题/报道表示模型时,存在高维特征空间问题,这个 问题可以通过特征选择算法解决。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !