企业数据集成是什么呢?

电子说

1.3w人已加入

描述

企业数据集成是将不同来源的数据整合在一个数据库中的过程,即异构数据之间的同步。将不同种类,不同版本的数据库、文件、Mail等之间进行同步。由于不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。因此需要数据入库前进行集成,去冗余,保证数据质量。数据集成可以认为是ETL(BI上的定义为:抽取——转换——清洗——过滤——加载);但更强调自动化过程管理。

在实现机制上,应包括常见的集成模式:Split/Merge/Route/PS等;另外还应该具备建模(元数据管理)和治理(Governace)功能。

数据集成有什么意义呢?

数据集成意义主要是实现数据中心,例如企业级SID;或者遗留系统在数据层面的集成。在建立全局SID的基础上,可以构建很多有意义的东西:例 如Portal/CMS,报表,数据搜索,挖掘等等,这些可以概括地称为BI,即商业智能。

因此,数据集成有两个层面的意义:

1)操作层面

2)分析层面

数据集成的实现步骤:

1.界定数据交互的项别与内容,如:PDM系统和ERP系统之间的BOM数据;

2.指定数据交互周期,一天一次,还是一周一次;

3.选择交互方式,通过数据库,还是中间件技术来交互;

4.由ODS数据交互调度程序实现数据上载或是由外围系统自行实现数据下载,从而实现数据的集成。

数据集成会出现的问题:

1.数据重复

检查数据重复一般需要通过主要关键词,最好对主要关键词进行优化,过滤重复数据。在数据结构尽量调研每个字段的含义,拆分或整合。重复数据入库,不仅会给日后的数据关联造成极大的影响,也会影响数据分析与挖掘的效果,应尽量避免。

2.数据冲突

数据冲突就是两个数据源中同样的数据,但是取值记录的不一样。造成这种情况除了有人工误入,还有可能是因为货币计量的方法不同,汇率不同,税收水平不同、评分体系不同等等原因。

对待数据冲突问题,就需要对实际的业务知识有一定的理解。同时,对数据进行调研,尽量明确造成冲突的原因。如果数据的冲突实在无法避免,就要考虑冲突数据是否都要保留、是否要进行取舍,如何取舍等。

审核编辑 黄昊宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分