当前位置: 首页 > news >正文

建网站 几个链接渠道推广

建网站 几个链接,渠道推广,海口seo外包,无备案网站加速使用PySpark解决数据倾斜问题的完整案例,通过广播表连接的方式来优化性能。 准备数据 假设我们有两张表,一张大表 big_table 和一张小表 small_table ,小表将作为广播表。 from pyspark.sql import SparkSession# 初始化SparkSession spar…

使用PySpark解决数据倾斜问题的完整案例,通过广播表连接的方式来优化性能。

  1. 准备数据

假设我们有两张表,一张大表 big_table 和一张小表 small_table ,小表将作为广播表。

from pyspark.sql import SparkSession# 初始化SparkSession
spark = SparkSession.builder.appName("Data Skew Example").getOrCreate()# 模拟大表数据
big_table = spark.createDataFrame([(i, f"value_{i}") for i in range(1000000)], ["id", "data"])# 模拟小表数据
small_table = spark.createDataFrame([(i, f"category_{i%10}") for i in range(100)], ["id", "category"])
  1. 查看广播表大小
import sys
from pyspark.sql.functions import col# 查看小表的大小,单位字节
small_table_size = small_table.select(col("*")).count() * sys.getsizeof(tuple(small_table.first()))
print(f"Size of small_table: {small_table_size} bytes")
  1. 初始连接(产生数据倾斜)
# 不使用广播进行连接,会产生数据倾斜joined_without_broadcast = big_table.join(small_table, "id")
  1. 使用广播表连接
from pyspark.sql.functions import broadcast# 使用广播表连接
joined_with_broadcast = big_table.join(broadcast(small_table), "id")
  1. 查看Spark WebUI分析数据倾斜

运行作业:在执行上述代码时,Spark会启动作业,可以通过Spark WebUI查看作业执行情况。在浏览器中访问 http://:4040 (这是Spark默认的WebUI端口,实际可能不同)。
查看阶段详情:进入“Jobs”页面,找到对应的作业,点击进入查看各阶段(Stage)详情。在阶段详情里,可以看到任务(Task)的执行时间分布。没有广播时,数据倾斜表现为部分任务执行时间远长于其他任务;使用广播后,任务执行时间应更均匀。
查看执行计划:也可以通过调用 joined_with_broadcast.explain() 查看执行计划,确认广播表是否正确应用。

# 查看执行计划
joined_with_broadcast.explain()
  1. 完整代码示例
from pyspark.sql import SparkSession
import sys
from pyspark.sql.functions import col, broadcast# 初始化SparkSession
spark = SparkSession.builder.appName("Data Skew Example").getOrCreate()# 模拟大表数据
big_table = spark.createDataFrame([(i, f"value_{i}") for i in range(1000000)], ["id", "data"])# 模拟小表数据
small_table = spark.createDataFrame([(i, f"category_{i%10}") for i in range(100)], ["id", "category"])# 查看小表的大小,单位字节
small_table_size = small_table.select(col("*")).count() * sys.getsizeof(tuple(small_table.first()))
print(f"Size of small_table: {small_table_size} bytes")# 不使用广播进行连接,会产生数据倾斜
joined_without_broadcast = big_table.join(small_table, "id")# 使用广播表连接
joined_with_broadcast = big_table.join(broadcast(small_table), "id")# 查看执行计划
joined_with_broadcast.explain()

这个案例先创建了大小两张表,查看小表大小以确认适合广播,演示了普通连接产生数据倾斜的情况,接着使用广播表连接解决该问题,并说明了如何从Spark WebUI查看数据倾斜的发生与解决效果。

http://www.hkea.cn/news/2473/

相关文章:

  • wordpress 二级域名附件如何做网站优化
  • 网站域名在哪里申请品牌营销策划十大要点
  • 网站制作方案包括哪些内容正规的推文平台
  • 做域名不做网站可以吗深圳知名seo公司
  • 招聘网站建设人员条件品牌营销策划包括哪些内容
  • 网站域名证书怎么获取友情链接名词解释
  • 太原网站建设价格什么优化
  • 网站制作公司昆明swot分析
  • 个人养老金制度将推网站推广优化网址
  • 寺庙建设网站的意义2024年度关键词
  • 北京网站开发优选ls20227全国唯一一个没有疫情的城市
  • 那个网站做淘宝推广比较好免费二级域名生成网站
  • 网站空间租用费用网站的开发流程
  • 网站建设方面的文章网站快速有排名
  • wish网站应该怎么做淘宝优化标题都是用什么软件
  • 马来西亚做网站开封网站推广公司
  • 网站设计网站制作营销策划方案怎么写?
  • 口碑好网站建设定制百度浏览器app
  • centos6.6做网站网络营销推广手段
  • 厦门专业网站推广建站怎么让百度快速收录网站
  • 网站点击率多少正常企业网站推广方案的策划
  • 男朋友说是做竞彩网站维护的软文营销
  • php做的网站源代码在哪里互联网广告推广公司
  • 成都网站模板2023年广州疫情最新消息
  • 南宁网站提升排名seo黑帽技术工具
  • 网站建设情况检查报告网站服务费一年多少钱
  • 阿里网站如何做接入2024年4月新冠疫情结束了吗
  • 做婚恋交友类网站泰安seo
  • 网站建设公司生存关注公众号推广2元一个
  • 电商平面设计seo标题优化是什么意思