×

一种改进的基于粗糙集理论的特征选取方法_王作飞

消耗积分:1 | 格式:pdf | 大小:388KB | 2017-03-09

#Freedom

分享资料个

一种改进的基于粗糙集理论的特征选取方法_王作飞
文本分类是文本挖掘的重要组成部分。通过该技术可以自 动地为文档集合中的每篇文档确定类别, 并对它们进行有效组 织和分类,以便检索和分析,从而能够使用户方便、快捷地浏览 文档,具有很高的实际应用价值。文本分类一般分为训练和分类 阶段,在分类阶段,文本集经过文本预处理后得到特征集。但是 特征集仍然是个高维的特征空间, 对于所有的分类算法来说维 数都太大。因此,选择一个合适的特征方法,以降低特征空间的 维数,提高分类的效率和精度,往往成为文本分类的首选任务和 关键。 目前,常用的特征选择算法一般是先构建一个评估函数,对 特征集中的每个特征独立地进行评估每个特征获得一个评估 值,然后根据评估值对特征进行排序,最后选取最佳的特征作为 类别中心特征向量。而选取多少个最佳特征主要针对某一个具 体的问题通过实验来决定。现在这样的评估函数有:文档频数, 信息增益,期望交叉熵,互信息,CHI 统计法等。 作为一种处理含糊和不精确问题的新型数学工具, 粗糙集 在处理不完备、不确定、不一致数据方面显现出了其特有的优 势。针对以往基于粗糙集理论中正区域约简特征选取在处理不 一致决策表时存在的不足,本文通过过引入粒度函数的概念,并 以此为基础采用粗糙集启发式属性约简方法实现了特征在分 类中的重要性度量标定和约简, 使原来的特征维数得到一定的 降低,建立了特征选择与文本分类之间的联系。该方法有效地提 高了分类的效率和准确度,大大降低了文本分类子集的维数,生 成规则易于理解, 适应性强。最后用实验验证了该方法的可行

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !