当前位置：首页 > news >正文

ps软件下载网站网站建设建站在线建站

news 2026/4/7 21:50:17

ps软件下载网站,网站建设建站在线建站,wordpress换域名教程,做网站需要了解的知识目录背景名词解释问题与挑战 FlinkCDC DataX 工作原理调度流程五、DataX 3.0六大核心优势性能优化背景名词解释 CDC CDC又称变更数据捕获（Change Data Capture），开启cdc的源表在插入INSERT、更新UPDATE和删除DELETE活动时…

背景

名词解释

问题与挑战

FlinkCDC

DataX

工作原理

调度流程

五、DataX 3.0六大核心优势

性能优化

背景

名词解释

CDC

CDC又称变更数据捕获（Change Data Capture），开启cdc的源表在插入INSERT、更新UPDATE和删除DELETE活动时会插入数据到日志表中。CDC通过捕获进程将变更数据捕获到变更表中，通过cdc提供的查询函数，我们可以捕获这部分数据。

ETL

ETL数据仓库技术（Extract-Transform-Load），它是将数据从源系统加载到数据仓库的过程。用来描述将数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端的过程。使用到的工具包含（kettle、flume、sqoop）。

问题与挑战

CDC乃至数据集成领域面临的技术挑战：

历史数据规模大：数据库的历史数据规模大，100T+ 规模很常见
增量数据实时性要求高：数据库的增量数据业务价值高，且价值随时间递减，需要实时处理
数据的保序性：CDC 数据的加工结果通常需要强一致性语义，需要处理工具支持全局保序
表结构动态变化：增量数据随时间增长，数据对应的表结构会不断演进

FlinkCDC

Flink CDC 是以 Debezium 作为底层采集工具。Debezium 支持全量同步，也支持增量同步，也支持全量 + 增量的同步，非常灵活，同时基于日志的 CDC 技术使得提供 Exactly-Once 成为可能。

架构设计

传统的CDC ETL链路中，采集到的数据一般输出到消息中间件如 Kafka，然后 Flink 计算引擎再去消费这一部分数据写入到目的端，目的端可以是各种 DB，数据湖，实时数仓和离线数仓等：

Flink CDC

参考：Flink CDC 1.0至3.0回忆录

DataX

工作原理

DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。
Writer： Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。
Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

在讲解datax原理之前，需要明确一些概念：

Job: Job是DataX用以描述从一个源头到一个目的端的同步作业，是DataX数据同步的最小业务单元。比如：从一张mysql的表同步到hive的一个表的特定分区。
Task: Task是为最大化而把Job拆分得到的最小执行单元。比如：读一张有1024个分表的mysql分库分表的Job，拆分成1024个读Task，若干个任务并发执行。或者将一个大表按照id拆分成1024个分片，若干个分片任务并发执行。
TaskGroup: 描述的是一组Task集合。在同一个TaskGroupContainer执行下的Task集合称之为TaskGroup。
JobContainer: Job执行器，负责Job全局拆分、调度、前置语句和后置语句等工作的工作单元。
TaskGroupContainer: TaskGroup执行器，负责执行一组Task的工作单元。
job和task是datax两种维度的抽象，后面源码分析中还会涉及到。

datax的处理过程可描述为：

DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。
切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。
每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0。