数据挖掘的四类方法

工程师 2019-04-10 14506

电子说

1.4w人已加入

描述

　　数据挖掘的四类方法

　　1、神经网络方法

　　由于神经网络本身具有良好的鲁棒性、自组织适应性、自行处理性、分布存储和高度容错等特性，非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注和使用。典型的神经网络模型主要分3大类：以感知机、BP反向传播模型、函数型网络为代表的，用于分类、预测和模式识别的神经网络模型；以Hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以ART模型、Koholon模型为代表的，用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性，人们难以从网络中理解学习和决策过程。

　　2、遗传算法

　　遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种遗传仿生的全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的数据挖掘工具，利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验，结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。利用遗传算法优化神经网络结构，在不增加错误率的前提下，删除多余的连接和隐层数据单元；用遗传算法和BP算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法较为之复杂，敛于局部极小的较早敛入问题尚未解决。

　　3、决策树方法

　　决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的和潜在的信息。它的优点是描述简单，分类速度快，适合于对大规模的数据处理。最有影响和最早的决策树方法是ID3算法。它的主要问题是：ID3是非递增学习算法；ID3决策树是单变量决策树，复杂概念的表达困难；同性间的相互关系不够强调；抗噪音性差。针对上述问题，出现了许多较好较为改进算法的ID4递增式学习算法和IBLE算法等。

　　4、粗集方法

　　粗集方法专注于研究不精确、不确定知识的数学工具。粗集方法有几个优点，不需要再提供额外信息；加强简化输入信息的表达空间；算法较为简单，容易操作操作。粗集处理的对象是类似于二维关系的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统，为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论，难以直接处理连续性问题的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点重点。现在国际上已经研制出来了一些基于粗集的工具应用软件，例如加拿大KDD-R软件和美国的LERS软件等。

打开APP阅读更多精彩内容