ChunJun是一个基于 Flink 提供易用、稳定、高效的批流统一的数据集成工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如binlog,Kafka等。同时ChunJun也是一个支持原生FlinkSql所有语法和特性的计算框架。目前ChunJun在实际应用过程中已服务了上百家客户,经过多次迭代与沉淀,积累了大量的客户案例。
ChunJun主要应用于大数据开发平台的数据同步/数据集成模块,通常采用将底层高效的同步插件和界面化的配置方式相结合的方式,使大数据开发人员可简洁、快速的完成数据同步任务开发,实现将业务数据库的数据同步至大数据存储平台,从而进行数据建模开发,以及数据开发完成后,将大数据处理好的结果数据同步至业务的应用数据库,供企业数据业务使用。
Chunjun目前包含下面这些特性:
-
大部分插件支持并发读写数据,可以大幅度提高读写速度;
-
部分插件支持失败恢复的功能,可以从失败的位置恢复任务,节约运行时间;失败恢复
-
关系数据库的Source插件支持间隔轮询功能,可以持续不断的采集变化的数据;间隔轮询
-
部分数据库支持开启Kerberos安全认证;Kerberos
-
可以限制source的读取速度,降低对业务数据库的影响;
-
可以记录sink插件写数据时产生的脏数据;
-
可以限制脏数据的最大数量;
-
支持多种运行模式;
-
同步任务支持执行flinksql语法的transformer操作;
-
sql任务支持和flinkSql自带connectors共用;
Chunjun目前支持下面这些数据库:
Database Type | Source | Sink | Lookup | |
---|---|---|---|---|
Batch Synchronization | MySQL | doc | doc | doc |
TiDB | 参考mysql | 参考mysql | ||
Oracle | doc | doc | doc | |
SqlServer | doc | doc | doc | |
PostgreSQL | doc | doc | doc | |
DB2 | doc | doc | doc | |
ClickHouse | doc | doc | doc | |
Greenplum | doc | doc | ||
KingBase | doc | doc | ||
MongoDB | doc | doc | doc | |
SAP HANA | doc | doc | ||
ElasticSearch7 | doc | doc | doc | |
FTP | doc | doc | ||
HDFS | doc | doc | ||
Stream | doc | doc | ||
Redis | doc | doc | ||
Hive | doc | |||
Hbase | doc | doc | doc | |
Solr | doc | doc | ||
File | doc | |||
StarRocks | doc | |||
Stream Synchronization | Kafka | doc | doc | |
EMQX | doc | doc | ||
MySQL Binlog | doc | |||
Oracle LogMiner | doc | |||
Sqlserver CDC | doc |