当前位置: 首页 > news >正文

怎么做家庭网站天津高端品牌网站建设

怎么做家庭网站,天津高端品牌网站建设,新乡公司做网站,最权威的排行榜网站目录 概述动态调整Join策略原理实战 动态优化倾斜的 Join原理实战 概述 broadcast hash join 类似于 Spark 共享变量中的广播变量#xff0c;Spark join 如果能采取这种策略#xff0c;那join 的性能是最好的 自适应查询AQE(Adaptive Query Execution) 动态调整Join策略 原… 目录 概述动态调整Join策略原理实战 动态优化倾斜的 Join原理实战 概述 broadcast hash join 类似于 Spark 共享变量中的广播变量Spark join 如果能采取这种策略那join 的性能是最好的 自适应查询AQE(Adaptive Query Execution) 动态调整Join策略 原理实战 动态优化倾斜的 Join 原理默认环境配置修改配置 动态调整Join策略 实际上在生产中特别是工厂中的局限性表设计的时候不是那么合理导致这这种情况很少见很难被调整。 原理 AQE 可以将 sort-merge join 转成 broadcast hash join 条件是当join 表小于自适应 broadcast hash join 的阀值。 开启了自适应查询执行机制之后可以在运行时根据最精确的数据指标重新规划join策略实现动态调整join策略。 看以下图 后续测试过程中可以看 spark sql 的执行图。 属性名称默认值解释版本spark.sql.adaptive.localShuffleReader.enabledtrue当值为true且spark.sql.adaptive.enabled也为true时Spark尝试不需要shuffle分区时使用本地的shuffle读取器读取shuffle数据例如在将 sort-merge 转换成 broadcast-hash join 之后3.0.0spark.sql.adaptive.autoBroadcastJoinThreshold(none)为表配置最大的字节数能优化成 broadcast join通过设置此配置为-1可以禁用 broadcast 默认值与 spark.sql.autoBroadcastJoinThreshold 相同3.2.0spark.sql.autoBroadcastJoinThreshold10MB同上1.1.0 当所有的 shuffle partitions 都小于阀值 AQE 将 sort-merge join 转成 shuffled hash join 最大阀值配置spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold 属性名称默认值解释版本spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold0为每个分区配置最大的字节数能够构建 local hash map,如果这个值不小于 spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold并所有的分区不大于这个配置join选择更倾向于使用 shuffled hash join而不是 sort merge join3.2.0 实战 执行的 sql select count(*) from xx where dt 2023-06-30 and workorder011002118525 ; ## 同样的表相连 select * from (select * from xx where dt 2023-06-30 and workorder011002118525) as a left join xx as b on b.dt 2023-06-30 and b.workorder011002118525 and a.id b.id ;由上图三百多万的数据肯定超过10MB了所以是 sort merge join 修改 sql 如下 select * from (select id from xx where dt 2023-06-30 and workorder011002118525 ) as a join xx as b on a.id b.id and b.dt 2023-06-30 and b.unitid H8TGWJ035ZY0000431;动态优化倾斜的 Join 原理 数据倾斜严重将严重影响 join 查询的性能。该功能动态处理在 sort-merge join 倾斜数据时将其分为大小差不多的任务。当同是启用 spark.sql.adaptive.enabled 和 spark.sql.adaptive.skewJoin.enabled 时动态优化倾斜 这个功能将生效。 属性名称默认值解释版本spark.sql.adaptive.skewJoin.enabledtrue当同是启用 spark.sql.adaptive.enabled动态优化倾斜 这个功能将生效3.0.0spark.sql.adaptive.skewJoin.skewedPartitionFactor5如果分区的大小大于此因子乘以分区大小的中值并且也大于spark.sql.adaptive.skewJoin.strakedPartitionThresholdInBytes则该分区被视为偏斜。3.2.0spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes256MB如果分区的字节大小大于此阈值并且也大于spark.sql.adaptive.skewJoin.strakedPartitionFactor乘以分区大小中值则该分区被视为偏斜。理想情况下此配置应设置为大于spark.sql.adaptive.advisoryPartitionSizeInBytes。3.0.0 假设有两个表 t1和t2其中表t1中的P0分区里面的数据量明显大于其他分区默认的执行情况是这样的看这个图 t1表中p0分区的数据比p1\p2\p3这几个分区的数据大很多可以认为t1表中的数据出现了倾斜。 当t1和t2表中p1、p2、p3这几个分区在join的时候基本上是不会出现数据倾斜的因为这些分区的数据相对适中。但是P0分区在进行join的时候就会出现数据倾斜了这样会导致 join 的时间过长。 动态优化倾斜的 join 机制会把P0分区切分成两个子分区P0-1和P0-2并将每个子分区关联到表t2的对应分区P0看这个图 t2表中的P0分区会复制出来两份相同的数据和t1表中切分出来的P0分区的数据进行 join 关联。 这样相当于就把t1表中倾斜的分区拆分打散了最终在 join 的时候就不会产生数据倾斜了。 实战 todo: 以后如果遇到再补充上
http://www.hkea.cn/news/14268175/

相关文章:

  • 免费自己建立网站互联科技 行业网站
  • 学院网站建设管理规章制度深圳光明区
  • 怎么找做网站平台公司微网站入口
  • 自己做网站上传视频专业沈阳网站建设
  • 网站备案没座机做网站一般几个步骤
  • 广州网站改版哪家好美容院顾客管理系统软件
  • 盗版小说网站建设网站服务器怎么看是哪个厂家的
  • 公司网站无法收录手表购买网站
  • 建设银行河南分行网站模板建站和定制建站
  • readme.md做网站郑州城乡建设局官网
  • 域名网站备案管理系统wordpress 未分类
  • 网站建设域名怎么选择海飞丝网站建设中面临的技术问题_并提出可行的技术解决方案
  • 重庆深蓝科技网站开发win2008r2搭建php网站
  • 旅游网站设计论文摘要企业的oa管理系统
  • 企业做网站被骗楼盘价格哪个网站做的好
  • 网站建设客户定位门户类网站如何做策划
  • 小米官方网站开发版在哪里seo小白入门教学
  • 宁德网站建设制作wordpress关注公众号可见
  • 做自媒体需要关注什么网站青海制作网站
  • 想在百度做网站自己的品牌怎么做加盟推广
  • 邯郸市教育公共服务平台贵州灵溪seo整站优化
  • 紫川网站建设请列举常见的网站推广方法
  • 领诺科技网站建设wordpress数据库迁移
  • 微信怎么建设自己网站网站效果图模板
  • 潍坊模板开发建站游戏软件开发流程
  • 零基础建设网站视频福建省住房与城乡建设厅网站
  • 2017 上海网站备案长安网站建设制作公司
  • 做网站需要的设备宁波论坛招聘
  • 沧州网站建设刘磊wordpress无法显示文章
  • 石家庄视频网站建设公司wordpress好看博客主题