ChunJun是一个基于 Flink 提供易用、稳定、高效的批流统一的数据集成工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如binlog,Kafka等。同时ChunJun也是一个支持原生FlinkSql所有语法和特性的计算框架。目前ChunJun在实际应用过程中已服务了上百家客户,经过多次迭代与沉淀,积累了大量的客户案例。
ChunJun主要应用于大数据开发平台的数据同步/数据集成模块,通常采用将底层高效的同步插件和界面化的配置方式相结合的方式,使大数据开发人员可简洁、快速的完成数据同步任务开发,实现将业务数据库的数据同步至大数据存储平台,从而进行数据建模开发,以及数据开发完成后,将大数据处理好的结果数据同步至业务的应用数据库,供企业数据业务使用。
Chunjun目前包含下面这些特性:
-
大部分插件支持并发读写数据,可以大幅度提高读写速度;
-
部分插件支持失败恢复的功能,可以从失败的位置恢复任务,节约运行时间;失败恢复
-
关系数据库的Source插件支持间隔轮询功能,可以持续不断的采集变化的数据;间隔轮询
-
部分数据库支持开启Kerberos安全认证;Kerberos
-
可以限制source的读取速度,降低对业务数据库的影响;
-
可以记录sink插件写数据时产生的脏数据;
-
可以限制脏数据的最大数量;
-
支持多种运行模式;
-
同步任务支持执行flinksql语法的transformer操作;
-
sql任务支持和flinkSql自带connectors共用;
Chunjun目前支持下面这些数据库:
| Database Type | Source | Sink | Lookup | |
|---|---|---|---|---|
| Batch Synchronization | MySQL | doc | doc | doc |
| TiDB | 参考mysql | 参考mysql | ||
| Oracle | doc | doc | doc | |
| SqlServer | doc | doc | doc | |
| PostgreSQL | doc | doc | doc | |
| DB2 | doc | doc | doc | |
| ClickHouse | doc | doc | doc | |
| Greenplum | doc | doc | ||
| KingBase | doc | doc | ||
| MongoDB | doc | doc | doc | |
| SAP HANA | doc | doc | ||
| ElasticSearch7 | doc | doc | doc | |
| FTP | doc | doc | ||
| HDFS | doc | doc | ||
| Stream | doc | doc | ||
| Redis | doc | doc | ||
| Hive | doc | |||
| Hbase | doc | doc | doc | |
| Solr | doc | doc | ||
| File | doc | |||
| StarRocks | doc | |||
| Stream Synchronization | Kafka | doc | doc | |
| EMQX | doc | doc | ||
| MySQL Binlog | doc | |||
| Oracle LogMiner | doc | |||
| Sqlserver CDC | doc |