数据挖掘与数据仓库的一些基本概念

今日头条

1142人已加入

描述

OLAP:联机分析处理

OLAP是E.F.Codd于1993年提出的。
OLAP是一种软件技术,他使分析人员可以迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,这些信息是从原始数据直接转换过来的,他们以用户easy理解的方式反映企业的真实情况。
OLAP大部分策略都是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到联机分析处理的目的。这样的多维DB也被看作一个超立方体,沿着各个维方向存贮数据,它同意用户沿事物的轴线方便地分析数据,与主流业务型用户相关的分析形式一般有切片和切块以及下钻、挖掘等操作。

数据仓库

 DataMart:数据集市

为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。在数据仓库的实施过程中往往能够从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。须要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。

 Data Mining:数据挖掘 

与数据挖掘类似的有一个术语叫做”机器学习“,这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下:

机器学习:更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI,这些东西的一个共同点就是极其复杂的算法,所以说机器学习的核心就是各种精妙的算法。

数据挖掘:更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

 ETL

ETL各自是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,依照统一的规则集成并提高数据的价值,是负责完毕数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。

 MetaData:元数据

元数据是描写叙述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包含:数据源信息;数据转换的描写叙述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户訪问权限,数据备份历史记录,数据导入历史记录,信息公布历史记录等。

商业元数据从商业业务的角度描写叙述了数据仓库中的数据。包括:业务主题的描写叙述,包括的数据、查询、报表;

元数据为访问数据仓库提供了一个信息文件夹(informationdirectory),这个文件夹全面描写叙述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么訪问这些数据。是数据仓库执行和维护的中心,数据仓库server利用他来存贮和更新数据,用户通过他来了解和訪问数据。

以上是思迈特软件Smartbi的分享,更多行业干货可关注我们下一期的分享。思迈特软件Smartbi是知名国产BI品牌,专注于商业智能BI与大数据BI分析平台软件产业的研发及服务。经过多年持续自主研发,凝聚大量商业智能最佳实践经验,整合了各行业的数据分析和决策支持的功能需求。满足最终用户在企业级报表、数据可视化分析、自助探索分析、数据挖掘建模、AI智能分析等大数据分析需求。

现个人版提供全模块长期免费使用,有兴趣的小伙伴可登陆官网免费试用~


 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分