摘要:本文首先介绍了微电子领域及该领域中半导体制造的发展现状,然后分析了数据挖掘在半导体制造中应用的必要性和可行性。最后重点讨论数据挖掘技术在研究晶圆制造质量异常问题中的应用,文章中给出了半导体制造中的数据挖掘流程示意图,并用主成分分析法分析产生异常的原因,最后得出合理的结论。
数据挖掘及相关技术
1、数据挖掘的定义和特点
数据挖掘DM(Data Mining)是对数据库中的数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的、但又是潜在有用的信息和知识的过程。确切地讲,DM是KDD过程中的一个步骤,其处理对象是大量的日常业务数据,它主要基于人工只能、机器学习、统计学等技术,高度自动化地分析原有的海量数据,做出归纳的推理,从中采掘出潜在的模式,预测未知的行为,提高信息的利用,改变“人们被数据淹没,同时却仍感到知识饥渴”的资源浪费的局面。KDD是数据库技术和机器学习两个学科的交叉学科,由于KDD使用的数据来自于实际的数据库,所要处理的数据量可能很大,因此DM中的学习算法的效率和可扩充性就尤为重要;此外,KDD所处理的数据由于来自于现实世界,数据的完整性、一致性和正确性都很难保证,因此数据预处理也是很有必要的。
2、数据挖掘的方法
DM的技术基础包括机器学习、人工智能和统计学。人工智能是以自动机为手段,通过模拟人类宏观外显的思维行为,从而高效率地解决事实世界问题的科学和技术。下面介绍数据挖掘和知识发现的几种常用方法。
(1)人工神经网络(Artificial Neural Networks)
神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:
1)前馈式网络。它以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。
2)反馈式网络。它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。
3)自组织网络。它以ART模型、Koholon模型为代表,用于聚类分析等方面。
神经网络的知识体现在网络连接的权值上是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上包括反复迭代或累加计算。
(2)遗传算法(Genetic Algorithms)
遗传算法是模拟生物进化过程的算法,由三个基本算子(或过程)组成:
1)选择 (selection)。即从一个旧种群(父代)选出生命力强的个体,产生新的种群(后代)的过程。
2)交叉(crossover)。即对选择的两个不同的个体(染色体)的部分(基因)进行交换,形成新个体的过程。
3)变异(mutation)。即对某些个体的某些基因进行变异(0变1,或1变0),形成新个体的过程。
这种遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代。遗传算法已在优化计算和分类机器学习方面发挥了显著作用。
(3)、决策树方法(Decision Trees)
决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支。在每个分支集中重复建立树的下层结点和分支的过程。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !