网站建设市场介绍,东昌府网站制作,企业做网站需要那些条件,柳州市住房建设保障网数据导入吞吐是 OLAP 系统性能的重要衡量标准之一#xff0c;高效的数据导入能力能够加速数据实时处理和分析的效率。随着 Apache Doris 用户规模的不断扩大#xff0c; 越来越多用户对数据导入提出更高的要求#xff0c;这也为 Apache Doris 的数据导入能力带来了更大的挑战…数据导入吞吐是 OLAP 系统性能的重要衡量标准之一高效的数据导入能力能够加速数据实时处理和分析的效率。随着 Apache Doris 用户规模的不断扩大 越来越多用户对数据导入提出更高的要求这也为 Apache Doris 的数据导入能力带来了更大的挑战。
为提供快速的数据写入支持Apache Doris 存储引擎采用了类似 LSM Tree 结构。在进行数据导入时数据会先写入 Tablet 对应的 MemTable 中MemTable 采用 SkipList 的数据结构。当 MemTable 写满之后会将其中的数据刷写Flush到磁盘。数据从 MemTable 刷写到磁盘的过程分为两个阶段第一阶段是将 MemTable 中的行存结构在内存中转换为列存结构并为每一列生成对应的索引结构第二阶段是将转换后的列存结构写入磁盘生成 Segment 文件。
具体而言Apache Doris 在导入流程中会把 BE 模块分为上游和下游其中上游 BE 对数据的处理分为 Scan 和 Sink 两个步骤首先 Scan 过程对原始数据进行解析然后 Sink 过程将数据组织并通过 RPC 分发给下游 BE。当下游 BE 接收数据后首先在内存结构 MemTable 中进行数据攒批对数据排序、聚合并最终下刷成数据文件也称 Segment 文件到硬盘上来进行持久化存储。 而我们在实际的数据导入过程中可能会出现以下问题
因上游 BE 跟下游 BE 之间的 RPC 采用 Ping-Pong 的模式即下游 BE 一个请求处理完成并回复到上游 BE 后上游 BE 才会发送下一个请求。如果下游 BE 在 MemTable 的处理过程中消耗了较长的时间那么上游 BE 将会等待 RPC 返回的时间也会变长这就会影响到数据传输的效率。当对多副本的表导入数据时需要在每个副本上重复执行 MemTable 的处理过程。然而这种方式使每个副本所在节点都会消耗一定的内存和 CPU 资源不仅如此冗长的处理流程也会影响执行效率。
为解决以上问题我们在刚刚发布不久 Apache Doris 2.0 版本中https://github.com/apache/doris/tree/2.0.1-rc04 对导入过程中 MemTable 的攒批、排序和落盘等流程进行优化提高了上下游之间数据传输的效率。此外我们在新版本中还提供 “单副本导入” 的数据分发模式当面对多副本数据导入时无需在多个 BE 上重复进行 MemTable 工作有效提升集群计算和内存资源的利用率进而提升导入的总吞吐量。
MemTable 优化 01 写入优化
在 Aapche Doris 过去版本中下游 BE 在写入 MemTable 时为了维护 Key 的顺序会实时对 SkipList 进行更新。对于 Unique Key 表或者 Aggregate Key 表来说遇到已经存在的 Key 时将会调用聚合函数并进行合并。然而这两个步骤可能会消耗较多的处理时间从而延迟 RPC 响应时间影响数据写入的效率。 因此我们在 2.0 版本中对这一过程进行了优化。当下游 BE 在写入 MemTable 时不再实时维护 MemTable 中 Key 的顺序而是将顺序的保证推迟到 MemTable 即将被下刷成 Segment 之前。此外我们采用更高效的 pdqsort 来替代 std::sort 实现了缓存友好的列优先排序方式并取得了更好的排序性能。通过上述两种手段来保证 RPC 能够被及时响应。
02 并行下刷
在导入过程中当下游 BE 将一个 MemTable 写入一定大小之后会把 MemTable 下刷为 Segment 数据文件来持久化存储数据并释放内存。为了保证前文提到的 Ping-Pong RPC 性能不受影响MemTable 的下刷操作会被提交到一个线程池中进行异步执行。
在 Apache Doris 过去版本中对于 Unique Key 的表来说MemTable 下刷任务是串行执行的原因是不同 Segment 文件之间可能存在重复 Key串行执行可以保持它们的先后顺序而 Segment 序号是在下刷任务被调度执行时分配的。同时在 Tablet 数量较少无法提供足够的并发时串行下刷可能会导致系统的 IO 资源无法重复被利用。而在 Apache Doris 2.0 版本中由于我们将 Key 的排序和聚合操作进行了后置除了原有的 IO 负载以外下刷任务中还增加了 CPU 负载即后置的排序和聚合操作。此时若仍使用串行下刷的方式当没有足够多 Tablet 来保证并发数时CPU 和 IO 会交替成为瓶颈从而导致下刷任务的吞吐量大幅降低。
为解决这个问题我们在下刷任务提交时就为其分配 Segment 序号确保并行下刷后生成的 Segment 文件顺序是正确的。同时我们还对后续 Rowset 构建流程进行了优化使其可以处理不连续的 Segment 序号。通过以上改进使得所有类型的表都可以并行下刷 MemTable从而提高整体资源利用率和导入吞吐量。
03 优化效果
通过对 MemTable 的优化面对不同的导入场景Stream Load 的吞吐量均有不同幅度的提升详细对比数据可见下文。这项优化不仅适用于Stream Load 还对 Apache Doris 支持的其他导入方式同样有效例如 Insert Into、Broker Load、S3 Load 等均在不同程度提升了导入的效率及性能。
单副本导入 01 原理和实现
在过去版本中当面对多副本数据写入时Apache Doris 的每个数据副本均需要在各自节点上进行排序和压缩这样会造成较大的资源占用。为了节约 CPU 和内存资源我们在 Apache Doris 在 2.0 版本中提供了单副本导入的能力该能力会从多个副本中选择一个副本作为主副本其他副本为从副本且只对主副本进行计算当主副本的数据文件都写入成功后通知从副本所在节点直接接拉取主副本的数据文件实现副本间的数据同步当所有从副本节点拉取完后进行返回或超时返回大多数副本成功即返回成功。该能力无需一一在节点上进行处理减少了节点的压力而节约的算力和内存将会用于其它任务的处理从而提升整体系统的并发吞吐能力。 02 如何开启
FE 配置
enable_single_replica_load trueBE 配置
enable_single_replica_load true环境变量insert into
SET experimental_enable_single_replica_inserttrue;03 优化效果
对于单并发导入来说单副本数据导入可以有效降低资源消耗。单副本导入所占的内存仅为三副本导入的 1/3单副本导入时只需要写一份内存三副本导入时需要写三份内存。同时从实际测试可知单副本导入的 CPU 消耗约为三副本导入的 1/2可有效节约 CPU 资源。对于多并发导入来说在相同的资源消耗下单副本导入可以显著增加任务吞吐。同时在实际测试中同样的并发导入任务 三副本导入方式耗时 67 分钟而单副本导入方式仅耗时 27 分钟导入效率提升约 2.5 倍。具体数据请参考后文。
性能对比 测试环境及配置
3 个 BE (16C 64G)每个 BE 配置 3 块盘 单盘读写约 150 MB/s1 个 FE共享其中一个 BE 的机器
原始数据使用 TPC-H SF100 生成的 Lineitem 表存储在 FE 所在机器的一个独立的盘上读约 150 MB/s。
01 Stream Load单并发 以上述列举的单并发场景来说Apache Doris 2.0 版本整体的导入性能比 1.2.6 版本提升了 2-7 倍在多副本前提下开启新特性单副本导入导入性能提升了 2-8 倍。
02 INSERT INTO 多并发 以上述列举的多并发场景来说Apache Doris 2.0 版本整体比 1.2.6 版本有小幅提升开启新特性单副本导入后对在多副本提导入性能提升效果明显导入速度较 1.2.6 版提升约 50% 。
结束语 社区一直致力于提升 Apache Doris 导入性能这一核心能力为用户提供更佳的高效分析体验通过在 2.0 版本对 Memtable、单副本导入等能力进行优化导入性能相较于之前版本已经呈现数倍提升。未来我们还将在 2.1 版本中持续迭代结合 MemTable 的优化方法、单副本优化资源能效理念以及基于 Streaming RPC 优化后的 IO 模型和精简的 IO 路径对导入性能进一步优化同时减少导入对查询性能的影响为用户提供更加卓越的数据导入体验。
# 作者介绍
陈凯杰SelectDB 高级研发工程师
张正宇SelectDB 资深研发工程师