bagging

好的！Bagging（中文常翻译为装袋法或袋装法）是一种常用的集成学习技术。

它的核心思想和工作流程可以概括为以下几点：

目标： 通过组合多个弱学习器（通常指比随机猜测略好，但性能不强的模型）的预测结果，构建一个更稳定、更准确、方差更低的强学习器。主要目的是降低模型的方差，减少过拟合风险（尤其是在决策树这类高方差模型上效果显著）。
核心机制 - Bootstrap 抽样：
- 从原始训练数据集 D 中，有放回地随机抽取 N 个样本（N 通常是原始数据集的大小），形成一个自助采样集。
- 由于是有放回抽样，每次抽取都是独立的，所以同一个样本可能在一个采样集中出现多次，也可能一次都不出现。
- 这个过程重复进行 T 次（T 是需要构建的基学习器的数量），得到 T 个彼此略有不同的训练子集 D₁, D₂, ..., Dᵀ。每个 Dᵢ 都与原始数据集大小相同，但样本分布不同。
并行训练基学习器：
- 对于第 t 个训练子集 Dᵢ，独立地训练一个同质的基学习器（例如，都训练决策树，但每棵树的训练数据不同）。
- 这些基学习器通常是不剪枝的（如深度较大的决策树），即它们本身是高方差、低偏差的模型。Bagging 的集成作用正好可以抵消它们的高方差。
聚合预测结果：
- 当需要对新样本进行预测时：
  - 分类任务： 让 T 个基学习器分别投票，最终预测结果是获得票数最多的类别（多数投票法）。
  - 回归任务： 让 T 个基学习器分别预测，最终预测结果是所有基学习器预测值的平均值。

Bagging 的关键优势：

降低方差： 这是 Bagging 最主要的作用。通过对训练数据的随机扰动（Bootstrap 抽样）并集成多个独立训练的模型结果，显著减少了模型预测的波动性（即方差），使模型对训练数据中的微小变化不再敏感，提升了泛化能力。尤其对高方差模型（如复杂决策树）效果极佳。
提高鲁棒性： 由于集成了多个模型，单个模型的错误或被噪声干扰的样本对最终结果的影响变小。
不易过拟合： 在降低方差的同时，通常不会显著增加偏差（特别是当基学习器本身是低偏差时）。因此整体上降低了过拟合的风险。
天然支持并行化： 各个基学习器的训练过程相互独立，可以非常高效地并行训练，加快整体速度。
简单易实现： 概念清晰，实现相对直接。

Bagging 的典型代表：

随机森林： 这是 Bagging 思想最著名、最成功的应用。它以决策树作为基学习器，并在 Bagging 的基础上增加了一个关键特性：特征随机性。在构建每棵树时，不仅对样本进行 Bootstrap 抽样，还在每个节点分裂时，仅随机考虑特征集的一个子集（而不是所有特征）来寻找最佳分裂点。这进一步增强了模型的多样性，降低了方差，并提高了模型的性能和抗噪能力。

适用场景：

当基学习器是高方差、低偏差的模型时（如未剪枝的决策树、神经网络），Bagging 效果通常最好。
需要提升模型稳定性、泛化能力和鲁棒性的场景。
数据集可能存在一定的噪声或不平衡。

总结:

Bagging 是一种通过 Bootstrap 有放回抽样构建多个独立同质基学习器，然后通过投票（分类）或平均（回归） 方式进行预测结果聚合的集成学习方法。它的核心优势在于显著降低模型方差，提高预测结果的稳定性和泛化能力，尤其适合处理高方差模型（如决策树），其经典代表是随机森林。

什么是随机森林？随机森林的工作原理

随机森林使用名为“bagging”的技术，通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征，而且经常过拟合，但随机性对森林的成功至关重要。

2024-03-18 14:27:02

随机森林算法及其实现

其实从直观角度来解释，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。

2023-05-15 09:46:50

概念漂移数据流集成分类算法及实验综述

针对概念漂移数据流集成分类算法的基本概念、相关工作、适用范围及优缺点等方面进行具体阐述，重点分析突变型、渐变型、重复型和增量型集成分类算法，以及集成分类中的 Bagging、 Boosting、基

资料下载佚名 2021-06-03 16:13:39

基于集成深度算法的网络入侵检测方法

和集成学习的 Bagging集成策略的基础上构造随机森林（RF）层，对每层中RF输入随机选择的特征进行训练，拼接输出的类向量和特征向量并向下层传递迭代，持续训练直至模型敛。在NSL-KDD数据集上的实验结果表明与CNN算法相比，EDF算法在保证分类

资料下载佚名 2021-05-26 15:53:42

基于Bagging-SVM集成分类器的头部姿态估计方法

针对现有常用分类器性能不能满足头部姿态估计对准确率的要求，以及光照变化影响头部姿态估计准确率的问题，提出了一种基于 Bagging-SVM集成分类器的头部姿态估计方法。首先，通过图片预处理

资料下载佚名 2021-05-07 10:11:14

机器学习模型的集成方法总结：Bagging, Boosting, Stacking, Voting, Blending

来源：DeepHubIMBA作者：AbhayParashar机器学习是人工智能的一个分支领域，致力于构建自动学习和自适应的系统，它利用统计模型来可视化、分析和预测数据。一个通用的机器学习模型包括一个数据集(用于训练模型)和一个算法(从数据学习)。但是有些模型的准确性通常很低产生的结果也不太准确，克服这个问题的最简单的解决方案之一是在机器学习模型上使用集成学习

2022-10-19 11:29:21

关于Dropout、BN及数据预处理方案

Dropout 可以看作是 Bagging 的极限形式，每个模型都在当一种情况中训练，同时模型的每个参数都经过与其他模型共享参数，从而高度正则化。

2021-05-31 17:37:18

随机森林算法原理_随机森林算法的优缺点

集成学习有两个流派，一个是boosting，特点是各个弱学习器之间有依赖关系；一个是bagging，特点是各个弱学习器之间没依赖关系，可以并行拟合。

2020-12-09 13:58:48

7天热门专题

换一换