电子说
数据挖掘中应用较多的技术机器学习。
机器学习主流算法包括三种:关联分析、分类分析、聚类分析。本文主要介绍分类分析、聚类分析。
图片来源:来自网络
一、分类分析
(1)分类分析概念 分类分析是指算法通过学习得出“某种分类依据”,该分类依据可以判断一个新事物的类别(含个人理解)。
(2)分类分析过程 分类分析包括两个过程:
1)通过大量样本的训练,使算法可以建立准确率超过某值的分类依据。
2)算法根据分类依据对新事物分类。
(3)分类分析过程与学生学习过程对比
1)学生本身具有学习能力,但不会做某一类型的题。这类似于机器学习算法具有学习能力,但不会对某一事物进行分类。
2)学生在学习过程中需要做大量习题,而且还需要根据标准答案确定每道题的正误,学生在该过程逐步调整其知识体系。这类似于机器学习算法需要通过大量样本的训练,机器学习的每个样本均包含输入和输出,机器学习可以通过将样本输入其建立模型得出的输出与样本输出(样本输出类似标准答案)进行对比,判断其建立模型的准确性,不断调整其建立的模型。
3)当学生掌握所学的知识后,其就具备了在考试中解答新的同类型问题的能力。这类似于机器学习算法通过其建立的模型对新事物分类。
(4)分类分析算法
常见的分类分析算法包括:决策树、K近邻法(kNN)、朴素贝叶斯、感知机、支持向量机(SVM)。
更高级的分类分析方法包括:逻辑斯谛回归(Logistic回归)、贝叶斯网络、神经网路等。
二、聚类分析
(1)聚类分析概念
聚类分析是将一群物理对象划分成相似的对象集合的过程。在聚类分析中,各个聚类内的数据对象是相似的,不同聚类间的对象是相异的。
图片来源:来自网络
(2)聚类分析与分类分析对比
与分类分析类似,聚类分析的目的也是将样本划分至不同的子集。两者不同的是:分类分析需要大量样本训练,分类分析的算法在学习过程中需被告知每个样本的类别;聚类分析不需要训练样本,聚类分析的算法学习的数据是没有指导信息的数据,聚类分析的算法通过其内部机制对样本进行划分,将“它”认为同类的数据进行聚类。
(3)聚类分析与日常事物分类方式对比 聚类分析的分类方式使其对事物的分类方式可能有别于日常生活中对事物的划分。
例如,日常生活中如果对香蕉、草莓、木块分类,人们可能更容易将香蕉和草莓划分为水果一类,将木块划分为另外的类别;但聚类分析算法可能将香蕉和木块划分为一类,将草莓划分为另外的类别,分类依据是香蕉和木块都是黄色的。
图片来源:来自网络
(4)聚类分析方法
聚类分析的常用方法包括:K-means算法、K中心点算法、层次聚类算法等。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !