机器学习十大算法精髓总结

电子说

1.3w人已加入

描述

最常见的机器学习算法是学习映射Y = f(X)来预测新X的Y,这叫做预测建模或预测分析,我们的目标是尽可能作出最准确的预测。 我们不知道函数f的样子或形式,如果知道的话,我们将会直接使用它,不需要用机器学习算法从数据中学习。

下面将概述常用的机器学习算法:

1、线性回归  

线性回归的表示是一个方程,它通过找到输入变量的特定权重(称为系数B),来描述一条最适合表示输入变量x与输出变量y关系的直线。可能是统计学和机器学习中最知名和最易理解的算法之一,预测建模主要关注最小化模型误差或者尽可能作出最准确的预测,以可解释性为代价。    

建模

2、Logistic回归  

Logistic回归与线性回归相似,目标都是找到每个输入变量的权重,即系数值。与线性回归不同的是,Logistic回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。 它是一个快速的学习模型,并且对于二分类问题非常有效。  

建模

3、线性判别分析(LDA)

线性判别分析进行预测的方法是计算每个类别的判别值,并对具备最大值的类别进行预测。该技术假设数据呈高斯分布,因此最好预先从数据中删除异常值。这是处理分类预测建模问题的一种简单而强大的方法。

建模

4、分类与回归树  

决策树的叶节点包含一个用于预测的输出变量y,通过遍历该树的分割点,直到到达一个叶节点并输出该节点的类别值就可以作出预测。决策树模型的表示是一个二叉树,学习速度和预测速度都很快,可以解决大量问题,并且不需要对数据做特别准备。

建模

5、朴素贝叶斯  

朴素贝叶斯是一个简单但是很强大的预测建模算法,该模型由两种概率组成,这两种概率都可以直接从训练数据中计算出来:1)每个类别的概率;2)给定每个x的值,每个类别的条件概率。如果数据是实值时,通常假设一个高斯分布,这样可以简单的估计这些概率。   

建模

6、K近邻算法  

KNN 算法在整个训练集中搜索K个最相似实例(近邻)并汇总这 K 个实例的输出变量,以预测新数据点。KNN需要大量内存或空间来存储所有数据,但是只有在需要预测时才执行计算(或学习)。可以随时更新和管理训练实例,以保持预测的准确性。  

建模

7、学习向量量化  

学习向量量化(简称 LVQ)是一种人工神经网络算法,它允许你选择训练实例的数量,并精确地学习这些实例应该是什么样的。在学习之后,最相似的近邻通过计算每个码本向量和新数据实例之间的距离找到。然后返回最佳匹配单元的类别值作为预测。    

建模

8、支持向量机(SVM)  

超平面是分割输入变量空间的一条线,超平面和最近的数据点之间的距离被称为间隔,分开两个类别的最好的或最理想的超平面具备最大间隔。实际上,优化算法用于寻找最大化间隔的系数的值。

建模

9、Bagging  

Bagging 是从数据样本中估算数量的一种强大的统计方法。在训练数据中抽取多个样本,然后对每个数据样本建模。当你需要对新数据进行预测时,每个模型都进行预测,并将所有的预测值平均以便更好的估计真实的输出值。

建模

10、随机森林

随机森林是对Bagging方法的一种调整,在随机森林的方法中决策树被创建以便于通过引入随机性来进行次优分割,而不是选择最佳分割点。针对每个数据样本创建的模型将会与其他方式得到的有所不同,可以更好的估计真实的输出值。  

建模

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分