当前位置: 首页 > news >正文

重庆网站建设 夹夹虫wordpress自定义域

重庆网站建设 夹夹虫,wordpress自定义域,网站案例展示,python网站开发视频教程RDD的缓存缓存: 一般当一个RDD的计算非常的耗时|昂贵(计算规则比较复杂),或者说这个RDD需要被重复(多方)使用,此时可以将这个RDD计算完的结果缓存起来, 便于后续的使用, 从而提升效率通过缓存也可以提升RDD的容错能力, 当后续计算失败后, 尽量不让RDD进行回溯所有的依赖链条, 从…RDD的缓存缓存: 一般当一个RDD的计算非常的耗时|昂贵(计算规则比较复杂),或者说这个RDD需要被重复(多方)使用,此时可以将这个RDD计算完的结果缓存起来, 便于后续的使用, 从而提升效率通过缓存也可以提升RDD的容错能力, 当后续计算失败后, 尽量不让RDD进行回溯所有的依赖链条, 从而减少重新计算时间注意:缓存仅仅是一种临时的存储, 缓存数据可以保存到内存(executor内存空间),也可以保存到磁盘中, 甚至支持将缓存数据保存到堆外内存中(executor以外的系统内容)由于临时存储, 可能会存在数据丢失, 所以缓存操作, 并不会将RDD之间的依赖关系给截断掉(丢失掉),因为当缓存失效后, 可以基于原有依赖关系重新计算缓存的API都是LAZY的, 如果需要触发缓存操作, 必须后续跟上一个action算子, 一般建议使用count如果不添加action算子, 只有当后续遇到第一个action算子后, 才会触发缓存如何使用缓存设置缓存的API:rdd.cache(): 执行缓存操作 仅能将数据缓存到内存中rdd.persist(缓存的级别(位置)): 执行缓存操作, 默认将数据缓存到内存中, 当然也可以自定义缓存位置手动清理缓存的API: rdd.unpersist()默认情况下, 当整个Spark应用程序执行完成后, 缓存也会自动失效的, 自动删除常用的缓存级别: MEMORY_ONLY : 仅缓存到内存中DISK_ONLY: 仅缓存到磁盘MEMORY_AND_DISK: 内存 磁盘 优先缓存到内存中, 当内存不足的时候, 剩余数据缓存到磁盘中OFF_HEAP: 缓存到堆外内存最为常用的: MEMORY_AND_DISKimport timeimport jieba from pyspark import SparkContext, SparkConf, StorageLevel import os# 锁定远端环境, 确保环境统一 os.environ[SPARK_HOME] /export/server/spark os.environ[PYSPARK_PYTHON] /root/anaconda3/bin/python3 os.environ[PYSPARK_DRIVER_PYTHON] /root/anaconda3/bin/python3 清洗需求: 需要先对数据进行清洗转换处理操作, 清洗掉为空的数据, 以及数据字段个数不足6个的数据, 并且将每一行的数据放置到一个元组中, 元组中每一个元素就是一个字段的数据 def xuqiu1():# 需求一: 统计每个关键词出现了多少次, 获取前10个res rdd_map \.flatMap(lambda field_tuple: jieba.cut(field_tuple[2])) \.map(lambda keyWord: (keyWord, 1)) \.reduceByKey(lambda agg, curr: agg curr) \.sortBy(lambda res_tup: res_tup[1], ascendingFalse).take(10)print(res)def xuqiu2():res rdd_map \.map(lambda field_tuple: ((field_tuple[1], field_tuple[2]), 1)) \.reduceByKey(lambda agg, curr: agg curr) \.top(10, lambda res_tup: res_tup[1])print(res)if __name__ __main__:print(Spark的Python模板)# 1. 创建SparkContext核心对象conf SparkConf().setAppName(sougou).setMaster(local[*])sc SparkContext(confconf)# 2. 读取外部文件数据rdd sc.textFile(namefile:///export/data/workspace/ky06_pyspark/_02_SparkCore/data/SogouQ.sample)# 3. 执行相关的操作:# 3.1 执行清洗操作rdd_filter rdd.filter(lambda line: line.strip() ! and len(line.split()) 6)rdd_map rdd_filter.map(lambda line: (line.split()[0],line.split()[1],line.split()[2][1:-1],line.split()[3],line.split()[4],line.split()[5]))# 由于 rdd_map 被多方使用了, 此时可以将其设置为缓存rdd_map.persist(storageLevelStorageLevel.MEMORY_AND_DISK).count()# 3.2 : 实现需求# 需求一: 统计每个关键词出现了多少次, 获取前10个# 快速抽取函数: ctrl alt Mxuqiu1()# 当需求1执行完成, 让缓存失效rdd_map.unpersist().count()# 需求二:统计每个用户每个搜索词点击的次数xuqiu2()time.sleep(100)RDD的checkpoint检查点checkpoint比较类似于缓存操作, 只不过缓存是将数据保存到内存 或者 磁盘上, 而checkpoint是将数据保存到磁盘或者HDFS(主要)上checkpoint提供了更加安全可靠的持久化的方案, 确保RDD的数据不会发生丢失, 一旦构建checkpoint操作后, 会将RDD之间的依赖关系(血缘关系)进行截断,后续计算出来了问题, 可以直接从检查点的位置恢复数据主要作用: 容错 也可以在一定程度上提升效率(性能) (不如缓存)在后续计算失败后, 从检查点直接恢复数据, 不需要重新计算相关的API: 第一步: 设置检查点保存数据位置sc.setCheckpointDir(路径地址)第二步: 在对应RDD开启检查点rdd.checkpoint()rdd.count()注意: 如果运行在集群模式中, checkpoint的保存的路径地址必须是HDFS, 如果是local模式 可以支持在本地路径checkpoint数据不会自动删除, 必须同时手动方式将其删除掉
http://www.hkea.cn/news/14401660/

相关文章:

  • 洪梅做网站监控摄像头做直播网站
  • 广东今科网站建设个人网站建设课程介绍
  • 网站服务器空间大小如何能快速搜到新做网站链接
  • 污染网站代码有内涵的公司名字
  • 大连做公司网站学电子商务后悔了
  • 网站怎么盈利的seo诊断专家
  • 广州穗科建设管理有限公司网站科技 网站建设
  • 绥化市建设局官方网站网页设计与制作课程设计报告书
  • 宁波住房和城乡建设局网站首页杭州建站价格
  • 谷歌云做网站做网站的合作案例
  • 网站开发三大元素91游戏中心
  • 网站开发学那种语言网站侧栏软件排行榜怎么做的
  • 做网站一次付费做门的网站建设
  • 济南源码网站建设上优化
  • 为什么要先创建站点后建立文件?能否改变两者的顺序?电商手机网站开发
  • 新余网站开发proxy网页在线代理
  • 电子商务网站模板石家庄网站建设案例
  • 安徽建站优化哪里有抖音代运营公司布马网络
  • 网站服务器备案查询网站备案企业网站建公司
  • 找人做微信网站做网站需要做手机版吗
  • 东莞免费公司网站建设帮助中心网站模板
  • 建网站要钱吗 优帮云wordpress.org账号
  • 设计师合作网站合肥小吃培训网页设计
  • 做网站的销售好做吗微信seo
  • 90设计网站会员全站通与电商模板的区别wordpress幻灯片太卡
  • 做网站首页文字排版技巧装修网站设计平台
  • 西安网站建设APP开发蓬莱做网站哪家好
  • o2o型网站茶山网站仿做
  • j2ee网站开发开题报告网址大全浏览器主页
  • ui界面濮阳网站怎么做seo