电子说
企业数据集成是将不同来源的数据整合在一个数据库中的过程,即异构数据之间的同步。将不同种类,不同版本的数据库、文件、Mail等之间进行同步。由于不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。因此需要数据入库前进行集成,去冗余,保证数据质量。数据集成可以认为是ETL(BI上的定义为:抽取——转换——清洗——过滤——加载);但更强调自动化过程管理。
在实现机制上,应包括常见的集成模式:Split/Merge/Route/PS等;另外还应该具备建模(元数据管理)和治理(Governace)功能。
数据集成有什么意义呢?
数据集成意义主要是实现数据中心,例如企业级SID;或者遗留系统在数据层面的集成。在建立全局SID的基础上,可以构建很多有意义的东西:例 如Portal/CMS,报表,数据搜索,挖掘等等,这些可以概括地称为BI,即商业智能。
因此,数据集成有两个层面的意义:
1)操作层面
2)分析层面
数据集成的实现步骤:
1.界定数据交互的项别与内容,如:PDM系统和ERP系统之间的BOM数据;
2.指定数据交互周期,一天一次,还是一周一次;
3.选择交互方式,通过数据库,还是中间件技术来交互;
4.由ODS数据交互调度程序实现数据上载或是由外围系统自行实现数据下载,从而实现数据的集成。
数据集成会出现的问题:
1.数据重复
检查数据重复一般需要通过主要关键词,最好对主要关键词进行优化,过滤重复数据。在数据结构尽量调研每个字段的含义,拆分或整合。重复数据入库,不仅会给日后的数据关联造成极大的影响,也会影响数据分析与挖掘的效果,应尽量避免。
2.数据冲突
数据冲突就是两个数据源中同样的数据,但是取值记录的不一样。造成这种情况除了有人工误入,还有可能是因为货币计量的方法不同,汇率不同,税收水平不同、评分体系不同等等原因。
对待数据冲突问题,就需要对实际的业务知识有一定的理解。同时,对数据进行调研,尽量明确造成冲突的原因。如果数据的冲突实在无法避免,就要考虑冲突数据是否都要保留、是否要进行取舍,如何取舍等。
审核编辑 黄昊宇
全部0条评论
快来发表一下你的评论吧 !