文本信息处理技术是信息检索研究特别是基于Web的信息挖掘研究领域的重要研究方向,而文本自动分类技术是文本信息处理的重要研究内容。文本自动分类(Text Categorization,TC)是指根据待分类文本的具体内容将其自动划分到相应的一个或几个文本类别里。通常使用向量模型用于文本表示,使用文本中的单词或词组作为文本特征项。高维的文本向量不仅使得计算开销加大,而且相应的数据稀疏性问题严重影响着分类算法性能,降低了分类的效率。因此有效的文本特征降维方法成为提高文本分类效率的重要途径。
特征选择是文本自动分类的核心技术。针对经典的CHI模型不足之处,本文首先从特征项与类别之间的正负相关性角度对特征项进行删减;然后针对类偏斜分类环境下的特征项权重进行调整;进而以特征项的词频数为依据,从特征项在文本中的具体位置、特征项的类内及类间分布等层面再对模型逐步改进,提出了一种优化的CHI特征选择方法。随后的文本分类试验验证了该方法的有效性。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !