当前位置：首页 > news >正文

邵阳网站建设网站独立网站和平台网站

news 2026/4/7 21:46:20

邵阳网站建设网站,独立网站和平台网站,学风建设网站的优势,网站平台建设可行性我们都知道Spark是弹性分布式数据集，数据会存储在多台机器上，那么如何确保在分布式数据计算中，数据不丢失就是其中的关键的部分。本文主要讲解一下Spark中的容错机制。 Spark 主要提供了3个层面的数据容错机制。分别是调度层，RDD…

我们都知道Spark是弹性分布式数据集，数据会存储在多台机器上，那么如何确保在分布式数据计算中，数据不丢失就是其中的关键的部分。本文主要讲解一下Spark中的容错机制。

Spark 主要提供了3个层面的数据容错机制。分别是调度层，RDD血统层, Checkpoint 层。在这3大层面中包括Spark RDD容错的4大核心要点.

(调度层)Stage输出失败，上层调度器DAGScheduler重试。
(调度层)Spark计算中，Task内部任务失败，底层调度器重试。
(血统层)RDD Lineage血统中窄依赖，宽依赖计算。
(Checkpoint层)Checkpoint 缓存。

调度层

DAG生成层

Stage 输出失败，上层调度器DAGScheduler 会进行重试

详细源码详见 Spark大数据商业实战三部曲p58

Task计算层

Spark计算过程中，计算内部某个Task任务出现失败，底层调度器会对此Task进行若干次重试（默认4次）

详细源码详见 Spark大数据商业实战三部曲p58

血统层

SparkRDD 实现基于Lineage的容错机制，基于RDD的各项transformation 构成compute chain, 在部分计算结果丢失的时候可以根据Lineage重新恢复计算。

窄依赖

在子RDD的分区丢失，需要重算父RDD分区时。父RDD相应分区的所有数据都是子RDD分区的数据，并不存在冗余计算。

宽依赖

丢失一个RDD分区，重算的每个父RDD的每个分区的所有数据并不是都丢给丢失的RDD的子RDD分区用的，会有一部分数据相当于对应的是未丢失的子RDD分区中需要的数据，这样就会产生冗余计算开销和巨大的性能浪费。

Checkpoint层

Spark checkpoint 通过将RDD写入Disk作为检查点，是Spark lineage容错的辅助，lineage过长会造成容错成本过高，这时在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage, 就会减少开销。

checkpoint 主要适用于以下两种情况：

DAG中的Lineage过长，如果重算，开销太大，如PageRank, ALS等
尤其适合于在宽依赖上作checkpoint,这个时候就可以避免为Lineage重新计算而带来的冗余计算。

http://www.hkea.cn/news/693229/

相关文章：

徐汇科技网站建设2345中国最好的网址站

邢台论坛吧百度seo收录软件

做国外服务器网站吗怎么让百度搜索靠前

做动态图网站有哪些自建站怎么推广

web网站开发课程设计报告seo技术培训沈阳

会宁网站建设公司网站优化助手

网站设计制作体会2023年5月最新疫情

月亮湾设计有限公司网站南宁seo产品优化服务

福田欧曼服务站电话上海高端seo公司

高端网站建设哪家好谷歌seo和百度seo

前端写一个页面多少钱海口网站关键词优化

浦东新区建设局官方网站东莞seo关键词

在百度做橱柜网站进入百度一下官网

wordpress调用分类标签站长工具查询seo

网站做全局搜索云南新闻最新消息今天

公司网站推广方案长春seo代理

网站地图怎么样做更利于收录手机百度搜索引擎入口

中国建筑公司网站谷歌浏览器官方app下载

厦门网站建设策划seo网站优化培训找哪些

宝安区住房和建设局官方网站seo搜索引擎优化书籍

省建设厅执业资格注册中心网站2023搜索最多的关键词

本地wordpress上传搜索引擎营销优化策略有哪些

html手机网站模板培训心得体会800字

合肥做网站公司哪家好经典的软文广告

网站备案哪个部门北京推广

澳环网站设计公司网站建设方案

云南旅行社网站建设网络推广有多少种方法

龙岗做商城网站建设网络营销战略的内容

网站建设网络公整站排名

南昌购物网站制作软文广告成功案例