简单谈谈数据集成

电子说

1.2w人已加入

描述

什么是数据集成?

狭义的数据集成定义是指将不同源的数据组合成一个统一视图。而更广义的解释是:数据集成是数据库之间移动数据的过程 - 内部,外部或两者。这里,数据库包括生产DBS,数据仓库(DWS)以及生成和存储数据的第三方工具和系统。

我们简单整理了数据集成的相关技术释义,包括iPAAS, iPAAS,CDP,ETL,ELT,以及反向ETL。同时,所有集成工具都使用相同的底层技术API

1.IPAAS或Integration Platform作为服务:数据在云应用程序之间移动直接在IPAAS中没有发生转换

2.CDP或客户数据平台:数据通过中心集线器在云应用程序之间移动,可实现适度的转换功能

3.ETL或提取,转换和加载:数据从云应用程序通过内置于ETL工具中的强大转换图层移动到数据仓库

4.ELT或提取,加载和变换:数据从云应用程序移动到数据仓库直接发布,通过SQL在仓库中发生转换和数据建模。这里的主要区别在于,使用ETL,在将数据装入仓库之前发生转换,而在ELT中,随后发生转换。

IPAAS或Integration平台作为服务

促进开发、执行和集成流治理同任何本地(on-premises)以及基于云的流程、服务、应用和数据连接的一套云服务,可以在独立的或者多个交叉的组织中进行"。

IPAAS的优点,它们隐藏了优秀Web应用程序背后的大部分语法复杂性。中央集线器可以配置不同的模块,这些模块可以连接不同的工具,然后将结果提供给其他服务或应用程序。

IPAAS的缺点,但是开发人员需要创建数据到达时如何进行转换的描述,要求用户采用传统的编程语言编写函数,以便对数据进行过滤和操作。

CDP或客户数据平台

1.统一客户数据,统一客户身份

CDP客户数据平台可以解决用户场景断点和分散问题,实现数据通融。

2.多场景的客群分析,深度洞察客户

针对不同的运营阶段和业务场景,CDP可以提供不同的客户行为数据分析模型,对目标人群或全量客户的留存情况/参与度进行洞察,及时发现影响客户增长的关键因素,指导市场决策、产品改进、促进用户转化等。

ETL或提取,转换和加载

ETL是一种传统的数据集成过程。首先从一方数据库和第三方来源提取数据(主要是SaaS工具,用于销售,营销和支持),以满足分析师和数据科学家的需求,最后装入数据仓库。

转型特别是资源 - 激励和耗时,这显着影响提取和数据加载之间所需的时间。

但是,由于仓储技术和生态系统的进步,ETL正在被ELT所取代,ELT相对会更快,更灵活。

ELT或提取,加载和变换

ELT是ETL的现代方法,这在很大程度上提高效率,因为云数据仓库的发展,在ELT范例下,数据从源系统中提取并加载到仓库中而不会发生任何转换。事实上,现代ELT工具甚至没有提供内置的转换功能,但与DBT这样的服务很好地集成了用于处理数据仓库内的转换层的DBT。ELT快速,实惠,最重要的是,不需要编码,所有这些都是从ETL到ELT的转变。

目前我国目前数据集成的主流是ETL ,但是作为一种传统技术,在未来使用ELT作为数据集成架构的将会越来越多。

审核编辑 黄昊宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分