当前位置：首页 > news >正文

搜讯网站建设上海城隍庙小吃推荐

news 2026/5/6 21:33:33

搜讯网站建设,上海城隍庙小吃推荐,网站建设与文字的工作,深圳网站推广策划1. 输出为Python对象 collect算子#xff1a;将RDD各个分区内的数据#xff0c;统一收集到Driver中#xff0c;形成一个List对象 reduce算子#xff1a;对RDD数据集按照传入的逻辑进行聚合 take算子#xff1a;取RDD的前N个元素#xff0c;组合成list返回给你 count…1. 输出为Python对象 collect算子将RDD各个分区内的数据统一收集到Driver中形成一个List对象 reduce算子对RDD数据集按照传入的逻辑进行聚合 take算子取RDD的前N个元素组合成list返回给你 count算子计算RDD有多少条数据返回值是一个数字 # collect算子将RDD各个分区内的数据统一收集到Driver中形成一个List对象 # 语法rdd.collect() # 返回一个listfrom pyspark import SparkConf, SparkContext import osos.environ[PYSPARK_PYTHON] D:/Program Files/Python3.11.4/python.exe conf SparkConf().setMaster(local[*]).setSparkHome(test_spark) sc SparkContext(confconf)rdd sc.parallelize([1, 2, 3, 4, 5]) my_list rdd.collect() print(my_list) # [1, 2, 3, 4, 5] print(type(my_list)) # class list# reduce算子对RDD数据集按照传入的逻辑进行聚合 # 语法rdd.reduce(func) # func(T,T) - T # 两个参数一个返回值且类型一致 num rdd.reduce(lambda a, b: a b) print(num) # 15# take算子取RDD的前N个元素组合成list返回给你 take_list rdd.take(3) print(take_list) # [1, 2, 3]# count算子计算RDD有多少条数据返回值是一个数字 num_count rdd.count() print(num_count) # 5 2. 输出到文件中 saveAsTextFile算子将RDD的数据写入文本文件中修改RDD分区为1个方式1SparkConf对象设置属性全局并行度为1方式2创建rdd的时候设置parallelize方法传入numSlices参数为1 # Spark数据输出到文件中 # saveAsTextFile算子将RDD的数据写入文本文件中 from pyspark import SparkConf, SparkContext import osos.environ[PYSPARK_PYTHON] D:/Program Files/Python3.11.4/python.exe conf SparkConf().setMaster(local[*]).setSparkHome(test_spark) sc SparkContext(confconf)# 修改RDD分区为1个 # 方式1SparkConf对象设置属性全局并行度为1 conf.set(spark.default.parallelism, 1) # 方式2创建rdd的时候设置parallelize方法传入numSlices参数为1 rdd1 sc.parallelize([1, 2, 3, 4, 5], numSlices1) # rdd1 sc.parallelize([1, 2, 3, 4, 5],1)# rdd1 sc.parallelize([1, 2, 3, 4, 5]) rdd2 sc.parallelize([(hello, 3), (Spark, 5), (Hi, 7)]) rdd3 sc.parallelize([[1, 3, 5], [6, 7, 9], [11, 13, 11]])rdd1.saveAsTextFile(./output1) rdd2.saveAsTextFile(./output2) rdd3.saveAsTextFile(./output3)

查看全文

http://www.hkea.cn/news/14559913/