本文从数据科学的角度讲述了笔者对信息科学的认识与感悟,有选取数据科学中的知识发现和数据挖掘做出来具体的介绍,主要介绍了知识发现和数据挖掘的形成背景、发展历史、概念分析、研究过程、方法技术、应用实例和问题不足。
一切科学都来源于事实,而我们如何将事实转变成可以记录交流传承发展的知识并进一步为人类所用呢?数据是一个切入点。数据具有客观性、真实性、通用性、持久性,它实实在在的存在着,记录着世界的精彩,隐藏着世界的奥秘,等待我们在数据中发现,认识世界。
数据如此强大,那么必然要有一个与它相关的学科——数据科学。数据科学包含了两层意味,一是用科学的方法研究数据,二是用数据的方法研究科学,也就是说它本身是一门科学,而它用可以应用到各个学科中,是很多学科有力的武器和坚实的基础。
可见数据科学覆盖面极广,下文就着重谈一谈知识发现与数据挖掘方面。
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着因特网的出现和发展,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,人们会感到面对数据的海洋像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”和“数据关在牢笼中”,奈斯伯特惊呼“We are drowning in information,but starving for knowledge” 面临浩渺无际的数据,人们呼唤从数据汪洋中出来一个去粗存精、去伪存真的技术。从数据库中发现知识(KDD knowledge discovering in database)及其核心技术——数据挖掘(DM data mining)便应运而生了。
1989年8月在第11届国际联合人工智能学术会议上KDD一词首次出现。1989~1994年,由美国人工智能协会主办KDD国际研讨会,从1995年开始,召开KDD和Data Mining国际学术研讨会。从此开启了KDD和DM的浪潮。
所谓知识发现,就是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据集就是指由一组事实组成的集合,有效指发现的模式对于新的数据仍保持有一定的可信度,潜在有用强调了它的实际效用,非平凡指这个过程要有一定程度的智能性、自动性。
而所谓数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程,即知识发现中的一个核心步骤。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !