当前位置: 首页 > news >正文

一个空间放多个网站网站目录层级建设

一个空间放多个网站,网站目录层级建设,展示型装饰网站模板,网站是怎么优化的因为RDD在spark中是分布式存储 1、python中定义的变量仅仅在driver中运行#xff0c;在excutor中是获取不到值的——广播变量 2、若定义了一个变量进行累加#xff0c;先分别在driver和excutor中进行累加#xff0c;但是结果是不会主动返回给driver的——累加器 Broadcas…因为RDD在spark中是分布式存储 1、python中定义的变量仅仅在driver中运行在excutor中是获取不到值的——广播变量 2、若定义了一个变量进行累加先分别在driver和excutor中进行累加但是结果是不会主动返回给driver的——累加器 Broadcast Variables广播变量 driver中存放python变量广播到别的excutor中 若不使用就会每个task存放一个 不能修改只能读 通过value使用该变量 if __name__ __main__:# 配置环境os.environ[JAVA_HOME] D:/Program Files/Java/jdk1.8.0_271# 配置Hadoop的路径就是前面解压的那个路径os.environ[HADOOP_HOME] D:/hadoop-3.3.1/hadoop-3.3.1# 配置base环境Python解析器的路径os.environ[PYSPARK_PYTHON] C:/ProgramData/Miniconda3/python.exe # 配置base环境Python解析器的路径os.environ[PYSPARK_DRIVER_PYTHON] C:/ProgramData/Miniconda3/python.exe# 获取 conf 对象# setMaster 按照什么模式运行local bigdata01:7077 yarn# local[2] 使用2核CPU * 你本地资源有多少核就用多少核# appName 任务的名字conf SparkConf().setMaster(local[*]).setAppName(第一个Spark程序)# 假如我想设置压缩# conf.set(spark.eventLog.compression.codec,snappy)# 根据配置文件得到一个SC对象第一个conf 是 形参的名字第二个conf 是实参的名字sc SparkContext(confconf)fileRdd sc.textFile(../datas/user.tsv,2)city_dict {1: 北京,2: 上海,3: 广州,4: 深圳,5: 苏州,6: 无锡,7: 重庆,8: 厦门,9: 大理,10: 成都}# 将一个变量广播出去广播到executor中不是task中city_dict_broad sc.broadcast(city_dict)# 广播变量# class pyspark.broadcast.Broadcastprint(type(city_dict_broad ))# class dictprint(type(city_dict_broad.value))def getLine(line):list01 line.split( )#cityName city_dict.get(int(list01[3]))# 使用广播变量的变量获取数据cityName city_dict_broad.value.get(int(list01[3]))# print(cityName)return line cityNamemapRdd fileRdd.map(getLine)mapRdd.foreach(print)# 释放广播变量city_dict_broad.unpersist()# 使用完后记得关闭sc.stop() 累加器 将所有的excutor中的变量返回到driver中进行汇总。 否则变量是放在excutor中的而打印的是driver中变量值不会改变。 用于修改——汇总 import os import reimport jieba # 导入pyspark模块 from pyspark import SparkContext, SparkConf from pyspark.storagelevel import StorageLevel ------------------------------------------Description : TODOSourceFile : _06SouGou案例Author : yangeDate : 2024/10/31 星期四 -------------------------------------------if __name__ __main__:# 配置环境os.environ[JAVA_HOME] C:/Program Files/Java/jdk1.8.0_241# 配置Hadoop的路径就是前面解压的那个路径os.environ[HADOOP_HOME] D:/hadoop-3.3.1# 配置base环境Python解析器的路径os.environ[PYSPARK_PYTHON] C:/ProgramData/Miniconda3/python.exe # 配置base环境Python解析器的路径os.environ[PYSPARK_DRIVER_PYTHON] C:/ProgramData/Miniconda3/python.exe# 获取 conf 对象# setMaster 按照什么模式运行local bigdata01:7077 yarn# local[2] 使用2核CPU * 你本地资源有多少核就用多少核# appName 任务的名字conf SparkConf().setMaster(local[*]).setAppName(搜索热词案例)# 假如我想设置压缩# conf.set(spark.eventLog.compression.codec,snappy)# 根据配置文件得到一个SC对象第一个conf 是 形参的名字第二个conf 是实参的名字sc SparkContext(confconf)mapRdd sc.textFile(../../datas/zuoye/sogou.tsv,minPartitions8) \.filter(lambda line:len(re.split(\s,line)) 6) \.map(lambda line:(re.split(\s,line)[0],re.split(\s,line)[1],re.split(\s,line)[2][1:-1])).persist(StorageLevel.MEMORY_AND_DISK_2)# 统计一天每小时点击量并按照点击量降序排序_sum 0def sumTotalLine(tuple1):global _sum # 把_sum 设置为全局变量timeStr tuple1[0] # 10:19:18if timeStr[0:2] 10:_sum 1mapRdd.foreach(lambda tuple1:sumTotalLine(tuple1))print(_sum) # 结果是0# 使用完后记得关闭sc.stop() 上面程序最终结果是0因为 sum0 是在 Driver 端的内存中的executor 中程序再累加也是无法改变 Driver 端的结果的。下面的则为正确的 import os import reimport jieba # 导入pyspark模块 from pyspark import SparkContext, SparkConf from pyspark.storagelevel import StorageLevel ------------------------------------------Description : TODOSourceFile : _06SouGou案例Author : yangeDate : 2024/10/31 星期四 -------------------------------------------if __name__ __main__:# 配置环境os.environ[JAVA_HOME] C:/Program Files/Java/jdk1.8.0_241# 配置Hadoop的路径就是前面解压的那个路径os.environ[HADOOP_HOME] D:/hadoop-3.3.1# 配置base环境Python解析器的路径os.environ[PYSPARK_PYTHON] C:/ProgramData/Miniconda3/python.exe # 配置base环境Python解析器的路径os.environ[PYSPARK_DRIVER_PYTHON] C:/ProgramData/Miniconda3/python.exe# 获取 conf 对象# setMaster 按照什么模式运行local bigdata01:7077 yarn# local[2] 使用2核CPU * 你本地资源有多少核就用多少核# appName 任务的名字conf SparkConf().setMaster(local[*]).setAppName(搜索热词案例)# 假如我想设置压缩# conf.set(spark.eventLog.compression.codec,snappy)# 根据配置文件得到一个SC对象第一个conf 是 形参的名字第二个conf 是实参的名字sc SparkContext(confconf)accCounter sc.accumulator(0)mapRdd sc.textFile(../../datas/zuoye/sogou.tsv,minPartitions8) \.filter(lambda line:len(re.split(\s,line)) 6) \.map(lambda line:(re.split(\s,line)[0],re.split(\s,line)[1],re.split(\s,line)[2][1:-1])).persist(StorageLevel.MEMORY_AND_DISK_2)# 统计一天每小时点击量并按照点击量降序排序#_sum 0def sumTotalLine(tuple1):#global _sum # 把_sum 设置为全局变量timeStr tuple1[0] # 10:19:18if timeStr[0:2] 10:accCounter.add(1)mapRdd.foreach(lambda tuple1:sumTotalLine(tuple1))print(accCounter.value) # 104694# 假如我不知道累加器这个操作这个题目怎么做print(mapRdd.filter(lambda tuple1: tuple1[0][0:2] 10).count())# 使用完后记得关闭sc.stop()
http://www.hkea.cn/news/14548817/

相关文章:

  • 怎吗做网站挣钱西安做网站程序
  • 泰州公司做网站微企帮做网站
  • 开发一个app需要哪些技术网站seo文章该怎么写
  • 长治一般建一个网站需要多少钱有哪些好的做网站
  • 网站建设可行性实施报告编程做网站容易还是做软件
  • 中国网站建设公司百强网站开发学历要求
  • dns网站卫士 收录网站开发设计需要什么证书
  • dw网站建设流程asp网站伪静态文件下载
  • 自己免费怎么制作网站快速开发app
  • 网站制作软件手机版下载创办网页
  • 苏州网站建设推广wordpress多域名更改
  • 杭州seo网站优化中国室内设计联盟网站
  • 网站外链快速建设asp网站制作
  • 南城仿做网站推进乡村振兴 加快建设农业强国
  • 网站架构包含哪几个部分wordpress 503错误
  • 西安移动网站建设长春作网站建设的公司
  • 支付网站模板中企动力公司官网
  • 推荐小蚁人网站建设wordpress树形导航注册
  • iis7 网站权限设置工业互联网平台系统
  • 论坛门户网站建设怎么创作一个微信小程序
  • 百度网址大全网站换空间网站备案
  • 郑州推广网站网络营销的机遇和挑战
  • 设计配色推荐的网站wow313做宏的网站
  • 田贝网站建设嘉定建设机械网站
  • 专业提供网站建设服务包括中国互联网协会是做什么的
  • 网站建设销售问你告诉我怎么制作厦门网站建设手机
  • apache 多个网站攀枝花网站推广
  • 做网站工资高吗鄂温克族网站建设
  • 江都微信网站建设甘肃交通工程建设监理有限公司网站
  • iapp用网站做软件代码青海网页设计