×

机器学习如何进行特征选择

消耗积分:4 | 格式:doc | 大小:0.04 MB | 2020-05-20

十次方

分享资料个

  1、特征选择介绍

  (1)特征选择的定义

  对当前学习任务有价值的属性称为是“相关特征”,没有价值的属性称为是“无关特征”,从给定的特征集中选择出相关特征子集的过程,就称为是“特征选择”。

  其中还有一种特征称为是“冗余特征”,这些特征指的是可以从其他特征中推演出来的特征。

  (2)特征选择的重要性

  特征选择是一个“数据预处理”过程,它的重要性体现在两个方面:

  1)减轻维度灾难问题。

  2)去除无关特征可以降低学习的难度。

AL t4518531396125696

  2、子集搜索与评价

  想要找一个最好的特征子集,最简单最笨的方法就是把所有的特征排列组合,遍历每一个子集从中选择里面最好的一个,这种方法必然不可取。对这种方法的一种改进就是使用子集搜索与评价,它的思想就是先产生一个特征子集,然后对它进行评价,之后根据评价结果选择下一个特征子集,再进行移动学习评价,……,直到无法找到更好的候选子集。

  可以看出该算法是子集搜索与子集评价的一个迭代过程,下面分别对这两部分进行介绍:

  (1)子集搜索

  子集搜索分为“前向”(forwardforward)搜索、“后向”(backwardbackward)搜索和“双向”(bidirectional)搜索。

  前向搜索就是从只一个特征开始,每次增加一个特征,直到某次的特征子集不如上一轮的子集为止。

  后向搜索就是从完整的特征集合开始,每次去掉一个无关的特征,直到去掉一个特征就会使效果明显下降为止。

  双向搜索就是将前两种方法结合在一起,每一轮逐渐增加选定的相关特征(这些特征在后续迭代中不会被去掉),同时减少无关特征。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !