当前位置: 首页 > news >正文

河南中原建设公司网站wordpress柳城

河南中原建设公司网站,wordpress柳城,wordpress 导航站模板下载地址,大宗商品交易平台上市公司目录 RDD 的内部工作机制 创建 RDDs Schema 从文件中读取 弹性分布式数据集#xff08;RDDs#xff09;是一种分布式的不可变 JVM 对象集合#xff0c;它允许你非常快速地执行计算#xff0c;并且它们是 Apache Spark 的支柱。 顾名思义#xff0c;数据集是分布式的RDDs是一种分布式的不可变 JVM 对象集合它允许你非常快速地执行计算并且它们是 Apache Spark 的支柱。 顾名思义数据集是分布式的它根据某个键被分割成块并分布到执行器节点。这样做允许对这些数据集进行非常快速的计算。同样“理解 Spark”中提到的RDDs 跟踪记录应用于每个块的所有转换以加快计算速度并在出现问题并且那部分数据丢失时提供回退在这种情况下RDDs 可以重新计算数据。这种数据血统是防止数据丢失的另一道防线是数据复制的补充。 涵盖的主题有 - RDD 的内部工作机制 - 创建 RDDs - 全局作用域与局部作用域 - 转换Transformations - 动作Actions RDD 的内部工作机制 RDDs 并行运行。这是在 Spark 中工作的最大优势每个转换都并行执行从而大幅提高速度。 对数据集的转换是懒执行的。这意味着任何转换只有在对数据集调用动作时才执行。这有助于 Spark 优化执行。例如考虑分析师通常会对数据集进行的以下非常常见的步骤 1. 统计某个列中不同值的出现次数。 2. 选择以 A 开头的那些值。 3. 将结果打印到屏幕上。 正如前面提到的步骤听起来很简单但如果只对以字母 A 开头的项目感兴趣那么统计所有其他项目的不重复值就没有意义。因此Spark 可以只统计以 A 开头的项目然后打印结果到屏幕上。 让我们用代码来分解这个例子。首先我们使用 .map(lambda v: (v, 1)) 方法命令 Spark 映射 A 的值然后选择以 A 开头的记录使用 .filter(lambda val: val.startswith(A)) 方法。 如果我们调用 .reduceByKey(operator.add) 方法它将减少数据集并添加在这个例子中计数每个键的出现次数。所有这些步骤都转换了数据集。 其次我们调用 .collect() 方法来执行步骤。这一步是我们数据集上的动作 - 它最终统计了数据集的不同元素。实际上动作可能会颠倒转换的顺序在映射之前先过滤数据从而在传递给 reducer 之前得到一个更小的数据集。 创建 RDDs 在 PySpark 中创建 RDD 有两种方式你可以使用 .parallelize(...) 并行化一个集合列表或某些元素的数组 data sc.parallelize([(Amber, 22), (Alfred, 23), (Skye,4), (Albert, 12), (Amber, 9)]) 或者你可以引用一个文件或文件位于本地或外部某处 data_from_file sc.\ textFile(/Users/drabast/Documents/PySpark_Data/VS14MORT.txt.gz,4) sc.textFile(..., n) 中的最后一个参数指定了数据集被分成的分区数。 Spark 可以读取多种文件系统本地的如 NTFS、FAT 或 Mac OS Extended (HFS)或者分布式文件系统如 HDFS、S3、Cassandra 等。 支持多种数据格式文本、parquet、JSON、Hive 表以及使用 JDBC 驱动程序的数据从关系数据库中读取。请注意Spark 可以自动处理压缩数据集如我们前面例子中的 Gzipped 数据集。 根据数据的读取方式持有它的对象将略有不同。从文件中读取的数据表示为 MapPartitionsRDD 而不是 ParallelCollectionRDD当我们 .parallelize(...) 一个集合。 Schema RDDs 是无模式的数据结构与 DataFrames 不同我们将在下一章讨论。因此当使用 RDDs 时Spark 允许像下面代码片段那样并行化数据集 data_heterogenous sc.parallelize([(Ferrari, fast),{Porsche: 100000},[Spain,visited, 4504] ]).collect() 所以我们可以混合使用几乎任何东西一个元组、一个字典或一个列表Spark 都不会抱怨。 一旦你对数据集调用了 .collect()也就是说执行一个动作将其带回驱动程序你可以像在 Python 中通常那样访问对象中的数据 data_heterogenous[1][Porsche] 这将产生以下结果 100000 .collect() 方法将 RDD 的所有元素作为列表序列化后返回到驱动程序。 从文件中读取 当你从文本文件中读取时文件中的每一行都会形成一个 RDD 的元素。 data_from_file.take(1) 命令将产生以下有些难以阅读的输出 为了使其更易于阅读让我们创建一个元素列表以便每行都表示为值的列表。
http://www.hkea.cn/news/14380455/

相关文章:

  • 网站开发工具 枫子科技中国建筑设计咨询公司
  • 整站优化包年网站空间购买注意事项
  • 泸州高端网站建设公司做网站即墨
  • 网站定制设计制作公司绵阳市做公司网站
  • 英德住房和城乡建设部网站wap版网站 加app提示
  • 上海网站建设 知名觉海事网站服务平台
  • 做毛绒玩具在什么网站上找客户网络汽车营销策划方案ppt
  • 几百元做网站矢量图片素材库
  • 视频直播网站网站首页怎么用dw做
  • 若羌县铁路一建设网站建筑工程集团有限公司
  • 网上能免费做网站发布叼山东网建设
  • 大岭山网站建设如何在云服务器上开多几个网站
  • 品牌网站建设专业定制wordpress怎么使用
  • 小公司做网站推广好不好正规免费网站建设公司
  • 社交网站建设需求分析美食网页制作代码
  • 局域网手机网站建设西餐厅网站建设的需求分析
  • 做一个网站的成本做生存曲线网站
  • 网站开发 数据库装修公司免费装修
  • 外贸品牌网站制作做企业网站需要购什么
  • 外贸英语学习网站泰安网络安全培训
  • 佛山本地的网站设计公司关于我的大学的网站建设模板
  • 广州网站推广哪家好青岛网页设计哪个公司好
  • 完整的网络营销推广方案包括英文网站排名优化
  • 网站top排行榜wordpress html5 音乐
  • 网站备案期间访问有哪些好的响应式网站
  • 旅游网页网站开发的目的和意义新网站建设总结
  • 网站的运营方案百度seo关键词排名优化软件
  • 电子商务网站开发的课程介绍网站建设氺首选金手指14
  • 个人信息页面设计漂亮的网站著名网站建设公司
  • 网站设计会计分录怎么做腾讯云服务器上传网站