登录/注册

机器学习分类

更多

好的,我们来详细解释一下机器学习中的分类问题及相关分类体系

“分类”在机器学习中主要有两个层面的含义:

  1. 机器学习任务的一种:指具体的预测任务类型。
  2. 机器学习模型的类别:指不同类型的机器学习算法或方法体系。

以下我们从这两个主要角度以及更细分的维度来进行说明:


一、作为任务的分类

这是监督学习中最常见的任务之一。


二、作为模型/算法类别的分类(机器学习方法体系的分类)

这是指对机器学习的模型、算法或范式本身进行分类。以下是几种常见的、不同维度的分类方式:

  1. 根据训练数据是否有标签: 类别 定义 核心任务/方法 典型算法
    监督学习 训练数据包含输入特征 X 和对应的预期输出标签/值 y。模型学习从 Xy 的映射关系。 分类、回归 逻辑回归、决策树、支持向量机(SVM)、K近邻(KNN)、线性回归、神经网络(用于分类/回归)等
    无监督学习 训练数据只有输入特征 X,没有标签 y。模型发现数据中隐藏的结构、模式或关系。 聚类、降维、异常检测、关联规则挖掘 K均值聚类、层次聚类、DBSCAN、主成分分析(PCA)、t-SNE、Apriori、自编码器等
    半监督学习 训练数据包含少量带标签数据大量无标签数据。模型利用无标签数据的结构信息辅助学习。 利用无标签数据增强带标签数据的学习效果 标签传播、基于图的半监督方法、自训练、协同训练等
  2. 根据模型的学习方式/是否增量学习: 类别 定义 特点
    批量学习 模型在所有训练数据上一次性训练完成。如需加入新数据,需要从头重新训练整个模型。 训练计算量大,可能无法适应快速变化的数据。
    在线学习 模型逐个或按小批量接收新数据样本,并增量式地更新自身参数。 适用于数据流、资源有限、需实时适应变化的环境。需注意灾难性遗忘问题。
    强化学习 智能体(Agent) 在与环境(Environment) 的交互中,通过不断尝试和接收奖励(Reward)惩罚,学习在特定状态下选择最优动作(Action) 的策略,以最大化长期累积奖励。 常用于游戏AI、机器人控制、自动驾驶、推荐系统、资源管理等决策优化问题。
  3. 根据模型的结构/表示能力: 类别 定义 典型算法/结构 特点
    线性和广义线性模型 模型对特征的组合是线性(或通过链接函数变换后线性)的。 线性回归、逻辑回归、线性判别分析(LDA) 简单、计算高效、可解释性好。但对复杂非线性模式建模能力有限。
    基于树的模型 通过递归地将特征空间划分为一系列决策区域来构建模型。模型由一组“If-Else”决策规则组成。 决策树、随机森林、梯度提升树(如XGBoost, LightGBM, CatBoost) 易于理解和解释(可视化)、对数据分布假设少、能处理数值/类别特征。随机森林和GBDT是强大且常用的集成方法。
    基于核的方法 利用“核技巧”,将非线性问题映射到高维特征空间,在该空间中问题可能变成线性可分的。 支持向量机(SVM) 对于高维数据或样本量不是特别大的情况下效果不错。对参数和核函数选择敏感。
    神经网络/深度学习 受生物神经元启发,由多层“神经元”(非线性计算单元)组成,通过多层次的非线性变换来学习数据的复杂模式表示。 多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer、自编码器(AE)等 模型表示能力极强,在图像、语音、自然语言处理等领域取得革命性突破。通常需要大量数据和计算资源,可解释性较差。
    贝叶斯方法 基于贝叶斯定理进行概率推断的模型,显式地建模特征和标签之间的概率关系(条件概率)。 朴素贝叶斯分类器、高斯过程(GP)、贝叶斯网络 天然适合处理概率问题,可以方便地融入先验知识。朴素贝叶斯简单高效;贝叶斯网络可进行因果推断。
  4. 工程与应用维度:

    • 批处理vs实时处理: 处理数据是批量一次性处理还是实时流式处理。
    • 集中式训练vs分布式训练: 模型训练是在单机进行还是分布到多台机器/多个设备进行。
    • 云端部署vs边缘部署: 训练好的模型是部署在远程服务器(云)还是在靠近数据源的本地设备上(边缘端)。
    • 经典模型vs深度学习模型: 根据不同问题特点选择合适的模型类型。

核心要点总结

  1. 明确语境:当提到“分类”时,首先要区分是指具体的预测任务(预测离散类别),还是指机器学习方法的类别划分
  2. 任务分类:作为任务的分类是监督学习的关键类型,目标是预测离散标签(二分类、多分类、多标签)。
  3. 模型分类维度多:机器学习方法的分类可以从多个维度进行:有无标签(监督/无监督/半监督)、学习方式(批量/在线/强化)、模型结构(线性/树/核/深度学习/贝叶斯)等。
  4. 没有“银弹”不存在一种在所有场景下都最优的机器学习算法或模型类型。 模型的选择取决于:
    • 具体任务(是分类还是回归?是无监督还是有监督?)
    • 数据规模、质量和特征类型
    • 所需的计算资源(时间、内存、算力)
    • 对模型可解释性的要求
    • 部署环境限制等。
  5. 深度学习的地位:深度学习方法(尤其是神经网络)由于其强大的表征学习能力,已成为当前人工智能领域的核心技术引擎,在感知类任务(图像、语音、NLP)中占据统治地位,并在许多领域颠覆了传统的机器学习方法。

理解机器学习的不同分类体系,有助于你更系统地把握这个领域,并为解决实际问题时选择合适的工具和方法提供指导框架。你想重点了解其中哪一部分呢?

机器学习算法汇总 机器学习算法分类 机器学习算法模型

机器学习算法汇总 机器学习算法

2023-08-17 16:11:48

机器学习算法的分类

根据有无标签,监督学习可分类为:传统的监督学习(Traditional Supervised Learning)、非监督

2023-04-18 16:26:13

基于LSTM的表示学习-文本分类模型

的关键。为了获得妤的文本表示,提高文本分类性能,构建了基于LSTM的表示学习-文本分类模型,其中表示

资料下载 佚名 2021-06-15 16:17:17

基于机器学习的恶意代码检测分类

基于特征码匹配的静态分析方法提取的特征滞后于病毒发展,且不能检测出未知病毒。为此,从病毒反编译文件及其灰度图出发进行特征提取及融合,采用机器学习中的随机森林(RF)算法对恶意代码家族进行

资料下载 佚名 2021-06-10 11:03:15

融合文本分类和摘要的多任务学习摘要模型

文本摘要应包含源文本中所有重要信息,传统基于编码器-解码器架构的摘要模型生成的摘要准确性较低。根据文本分类和文本摘要的相关性,提出一种多任务学习摘要模型。从文本

资料下载 佚名 2021-04-27 16:18:58

基于情感字典和机器学习的股市舆情情感分类可视化Web

本文档的主要内容详细介绍的是基于情感字典和机器学习的股市舆情情感分类可视化Web的资料免费下载

资料下载 佚名 2021-03-01 09:28:23

OpenCV机器学习SVM支持向量机的分类程序免费下载

本文档的主要内容详细介绍的是OpenCV机器学习SVM支持向量机的分类程序免费下载。

资料下载 佚名 2019-10-09 11:45:52

机器学习分类分析与聚类分析

数据挖掘中应用较多的技术机器学习。机器学习主流算法包括三种:关联分析、

2023-03-27 14:13:30

如何用卷积神经网络方法去解决机器监督学习下面的分类问题?

人工智能下面有哪些机器学习分支?如何用卷积神经网络(CNN)方法去解决机器学习

2021-06-16 08:09:03

机器学习的范围/算法/分类

什么是机器学习?机器学习是英文名称MachineLearning(简称M

2021-01-21 09:29:06

详谈机器学习及其三大分类

本节概述机器学习及其三个分类(监督学习、非监督

2020-08-14 12:24:47

各类机器学习分类算法的优点与缺点分析

机器学习中有许多分类算法。本文将介绍分类中使用的各种

2020-03-02 09:50:12

详解机器学习分类算法KNN

本文主要介绍一个被广泛使用的机器学习分类算法,K-nearest neighbors(KNN),中文叫K近邻算法。

2019-10-31 17:18:14

机器学习分类

各种机器学习的应用场景分别是什么?例如,k近邻,贝叶斯,决策树,svm,逻辑斯蒂回归和最大熵模型

2019-09-10 10:53:10
7天热门专题 换一换
相关标签