当前位置: 首页 > news >正文

网站后续建设焦作百姓网

网站后续建设,焦作百姓网,wordpress网址采集,网站备案 互联网信息查询Spark的常用算子 目录内容Spark的常用算子一、转换算子#xff08;Transformation#xff09;二、行动算子#xff08;Action#xff09;三、键值对算子#xff08;PairRDDFunctions#xff09;四、文件系统算子#xff08;File System#xff09;Spark 内置算子是指 S…Spark的常用算子 目录内容Spark的常用算子一、转换算子Transformation二、行动算子Action三、键值对算子PairRDDFunctions四、文件系统算子File SystemSpark 内置算子是指 Spark 提供的具有高性能、高效率和高可靠性的数据操作函数。Spark 内置算子可以帮助我们完成大量的数据预处理、处理和分析任务。其主要包括以下 4 类算子转换算子Transformation用于将一个 RDD 转换为另一个 RDD常见的有 map、flatMap、filter 等。 行动算子Action用于对 RDD 执行计算常见的有 reduce、collect、count 等。 键值对算子PairRDDFunctions用于处理 K-V 形式的 RDD常见的有 reduceByKey、groupByKey、sortByKey 等。 文件系统算子File System用于进行文件系统的操作常见的有 textFile、saveAsTextFile、wholeTextFiles 等。 下面简单介绍一下这些内置算子的详细用法 一、转换算子Transformation map(func): 将原 RDD 中的每个元素传递给函数 func得到一个新的 RDD。 flatMap(func): 与 map 类似但每个元素都可以生成多个输出这些输出被平铺flattening成一个新的 RDD。 filter(func): 返回输入 RDD 中通过函数 func 的筛选结果为 true 的元素。 distinct([numTasks])): 返回输入 RDD 中所有不同的元素可选参数 numTasks 指定任务的数量。 union(otherRDD): 返回对输入 RDD 和参数 RDD 执行联合操作的结果生成一个新的 RDD不去重。 intersection(otherRDD)): 返回对输入 RDD 和参数 RDD 执行交集操作的结果生成一个新的 RDD。 subtract(otherRDD): 返回对输入 RDD 和参数 RDD 执行差集操作的结果生成一个新的 RDD。 cartesian(otherRDD): 返回对输入 RDD 和参数 RDD 执行笛卡尔积的结果生成一个新的 RDD。 二、行动算子Action reduce(func): 使用函数 func 组合 RDD 中的所有元素返回计算结果。 collect(): 将 RDD 中的所有元素都返回给驱动程序程序。 count(): 返回 RDD 中元素的数量。 first(): 返回 RDD 的第一个元素。 take(n): 返回 RDD 的前 n 个元素。 takeSample(withReplacement, num, [seed]): 从 RDD 中随机取样 num 个元素withReplacement 指定是否允许取样后返回的元素有重复seed 指定随机数种子。 takeOrdered(n, [ordering]): 返回包含 RDD 前 n 个元素的列表元素是按顺序排序的。 aggregate(zeroValue, seqOp, combOp): 使用给定的函数对 RDD 的元素进行聚合seqOp 计算在分区中初始值到中间结果的聚合计算而 combOp 在节点上对中间结果进行聚合。 fold(zeroValue, func): 与 aggregate 类似但这里的 seqOp 和 combOp 相同。 foreach(func): 对 RDD 中的每个元素执行指定的函数。 三、键值对算子PairRDDFunctions reduceByKey(func, [numTasks]): 按键值对中的键将数据聚合在一起并使用给定的函数进行聚合。 groupByKey([numTasks]): 按键值对中的键将数据分组并生成一个迭代器该迭代器包含与每个唯一键关联的所有元素。 mapValues(func): 对键值对的值应用给定的函数。 flatMapValues(func): 对键值对的值应用给定的函数并生成一个迭代器该迭代器包含每个键的所有结果。 keys(): 返回键值对 RDD 中所有键的列表。 values(): 返回键值对 RDD 中所有值的列表。 sortByKey([ascending], [numTasks]): 对键值对 RDD 中的键进行排序ascending 指定是否按升序排序numTasks 指定任务数量。 四、文件系统算子File System textFile(path, [minPartitions]): 读取一个文件或文件系统中的所有文件并返回表示它们的 RDD。 wholeTextFiles(path, [minPartitions]): 读取一个文件或文件系统中的所有文件返回两项组成的元组第一项是文件名第二项是文件中的内容。 saveAsTextFile(path): 将 RDD 的内容写入一个文本文件。 saveAsSequenceFile(path): 将 RDD 的内容作为 Hadoop SequenceFile 保存。 saveAsObjectFile(path): 将 RDD 的内容序列化成字节并保存到文件中。
http://www.hkea.cn/news/14428189/

相关文章:

  • 做网站搜爬闪有人有片资源吗免费高清
  • 品牌设计的概念seo搜索引擎优化人员
  • 怎么可以创建网站黔东南手机网站建设
  • 阿里云建站是外包的吗网站后台功能开发
  • 网站开发过程 文档wordpress 多站点 子目录
  • 网站排名优化手机做vip视频网站侵权
  • 用电脑做服务器搭建php网站上海高端室内设计事务所
  • 同ip网站做排名seo网站建设的重要指标
  • 马鞍山网站建设方案辽宁省建设网官网
  • 宁波网站建设设计上海建设网站是多少
  • 河北省住房和城乡建设厅网站查询大地seo
  • wordpress 发布站网站主题和风格
  • asp网站建设公司wordpress会员才能
  • 做互联网营销一般上什么网站广告公司注册条件
  • 网站开发外包哪家好上海广告公司工资
  • 网站建设 模板中心wordpress 执行了两次
  • 网站优化与SEO区别网站开发如何模块化
  • 网站的ftp账号和密码是什么下载期货行情软件
  • 怎样建设国外网站宜春做网站 黑酷seo
  • 股票做T网站宁波建设公司网站
  • 旧电脑做网站服务器百度推广代理加盟
  • 企业网站相关案例沈阳大熊网站建设制作
  • 能绑定域名的免费网站本地wordpress上传
  • 天津站内关键词优化自适应营销网站
  • 网站怎么做点击广告做唯品客网站的感想
  • 望牛墩镇仿做网站百度seo视频教程
  • 河南省建设厅注册中心网站首页快速建站哪个平台好
  • 电商网站建设实训心得融通资源开发公司
  • 祖庙网站建设wordpress如果有图片显示图片
  • 织梦网站根目录标签wordpress 支付查看