集成学习是机器学习领域的一个重要分支,其通过整合多个学习器以获得比单个学习器更好的学习效果。多样性和间隔被认为是影响集成学习效果的两个关键因素。现有研究大多是对这两个因素的影响单独进行分析。该文的研究集中于泛化误差、AUC、多样性和间隔之间关系及其在基分类器的权重优化中的应用。该文首先在泛化误差分解理论的基础上,给出了AUC的分解定理。进一步地,该文讨论了泛化误差、AUC、多样性与间隔之间的关系,并指出常用的最大化间隔方法在降低经验误差的同时,也会降低基分类器之间的多样性,进而导致过拟合问题基于这些理论结果,该文提出了两种新的基分类器的权重优化算法,通过求解次优化问题,实现在准确性和多样性之间的最佳平衡。在35个公开数据集上的实验结果表明,该文所提出的算法在绝大多数情况下都优于现有常用的集成方法。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !