各类机器学习分类算法的优点与缺点分析

独爱72H 2020-03-02 4187

人工智能

641人已加入

描述

（文章来源：不靠谱的猫）

机器学习中有许多分类算法。本文将介绍分类中使用的各种机器学习算法的优缺点，还将列出他们的应用范围。

SVM（支持向量机），SVM的优点：1.在高维中表现良好。在现实世界中有无限维度(不仅仅是2D和3D)。例如，图像数据、基因数据、医学数据等具有更高的维数，支持向量机在这方面是有用的。基本上，当特征/列的数量较多时，SVM表现良好。

2.类可分离时的最佳算法（当两个类的实例可以通过直线或非线性轻松分隔时）。为了描述可分离的类，让我们举个例子（这里以线性分离为例，通过绘制抛物线等，类也可以是非线性可分离的）。在第一个图中，您无法轻易分辨X是属于类1还是类2，但是在情况2中，您可以轻易判断出X属于类2。因此，在第二种情况下，类是线性可分离的。3. 离群值的影响较小。4. SVM适用于极端情况下的二元分类。

SVM的缺点：1. 慢：对于较大的机器学习数据集，需要大量时间来处理。2. 重叠类的性能不佳：重叠类的情况下效果不佳。3. 选择适当的超参数很重要：这将允许足够的泛化性能。4. 选择适当的核函数可能比较麻烦。SVM的应用范围：Bag of words应用程序（许多特征和列），语音识别数据，图像分类（非线性数据），医学分析（非线性数据），文本分类（许多特征）。

朴素贝叶斯，朴素贝叶斯的优点：1.实时预测：速度非常快，可以实时使用。2. 可通过大型数据集进行扩展。3. 对无关特征不敏感。4. 在朴素贝叶斯中可以有效地进行多类预测。5. 具有高维数据的良好性能（特征数量很大）。

朴素贝叶斯的缺点：1.特征的独立性不成立：朴素贝叶斯的基本假设是每个特征对结果做出独立且平等的贡献。但是，大多数情况下不满足此条件。2. 糟糕的估算器：不要太认真看待预测的概率输出。3. 训练数据应该很好地代表总体：如果没有一起出现类别标签和某个属性值（例如，class =“ No”，shape =“ Overcast”），则后验概率为零。因此，如果训练数据不能代表总体，那么朴素贝叶斯将无法很好地工作。

朴素贝叶斯的应用范围：朴素贝叶斯可用于文本分类（可以预测多个类别，并且不介意处理不相关的特征）、垃圾邮件过滤（识别垃圾邮件）、情感分析（在社交媒体分析中识别正面和负面情绪），推荐系统（用户下一步将购买什么）。

逻辑回归，逻辑回归的优点：1.易于实现2. 有效3. 不需要缩放特征：不需要缩放输入特征（也可以使用缩放特征，但是不需要缩放）。3. 不需要调整超参数。

逻辑回归的缺点：1.非线性数据（例如图像数据）性能不佳。2. 具有不相关和高度相关的特征的性能较差（删除相似或相关的特征和不相关的特征）。3. 不是很强大的算法，很容易被其他算法超越。4. 高度依赖正确的数据表示。所有重要的变量/特性都应该被识别，这样才能很好地工作。

逻辑回归的应用范围：最好是任何二元分类问题（它也可以执行多类分类，但最好是二元的）。如果您的输出类有两个结果，则可以使用它，例如癌症检测问题，客户借贷时是否违约，客户是否流失，电子邮件是否为垃圾邮件等。
（责任编辑：fqj）

打开APP阅读更多精彩内容