当前位置: 首页 > news >正文

深圳网站设计要点企业展厅设计哪里好

深圳网站设计要点,企业展厅设计哪里好,长沙律师网站建设,网站空间和虚拟主机切片机制 默认的切片大小和块大小一致#xff0c;切片的个数决定了MapTask的个数。 数据倾斜问题#xff1a;如果某个切片的大小太小#xff0c;会浪费了MapTask申请的CPU资源。 如果剩余数据长度大于128*1.1, 就切片成2份#xff0c;否则就不进行切分了。 InputFormat基…切片机制 默认的切片大小和块大小一致切片的个数决定了MapTask的个数。 数据倾斜问题如果某个切片的大小太小会浪费了MapTask申请的CPU资源。 如果剩余数据长度大于128*1.1, 就切片成2份否则就不进行切分了。 InputFormat基类 TextInputFormatTextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量 LongWritable类型。 CombineTextInputFormatCombineTextInputFormat用于小文件过多的场景它可以将多个小文件从逻辑上规划到一个切片中这样多个小文件就可以交给一个MapTask处理。 CombineTextInputFormat切片机制 虚拟存储过程将输入目录下所有文件大小依次和设置的setMaxInputSplitSize值比较 小于maxSplitSize逻辑上划分1块大于2*maxSplitSize以最大值划分一块介于之间时均分为2块 切片过程 判断虚拟文件大小是否大于max切片大小大于时单独形成一个切片小于时跟下一个虚拟存储文件进行合并共同形成一个切片。 MapReduce工作机制 Map阶段 索引id是哈希和字典序的结合形象上可以将索引id看做key来进行快排。对索引id对索引进行快速排序写入磁盘需要按照分区进行写入环形缓冲区排序后数据整体是有序的分区写入时局部也是有序的。写入时是通过索引在环形缓冲区的右侧数据部分查找对应的数据。环型缓冲区一般为100M实际是指Map的读取数据写入缓冲区和缓冲区索引快排后溢写磁盘的那种往返行为两者的方向是相反的一般来说进行快排和溢写是追加写的速度是很快的可以保证写入数据无需等待同时进行提升效率。先填充数据到达80%时停止填充进行快速排序后溢写数据到磁盘中同时数据继续反向填充。Map在进行溢写后会产生很多局部有序的分区文件将数据交付给Map前会先进行归并排序将局部有序的分区文件合并为整体有序的分区数据。 Reduce阶段 copy:从不同Map中拉取分区后的数据sort:由于是不同Map中的数据仍然是局部有序整体无序的数据Reduce需要将其进行归并排序成为整体有序的数据。reduce:进行数据的计算 Shuffle机制 Map方法之后Reduce方法之前的数据处理过程称之为Shuffle。 Combiner操作归并排序后有一次默认的合并操作第二次合并需要考虑溢写的次数由于combine合并时需要从磁盘读取数据数据数量太少时进行合并效率并不高。Combiner操作是将计算过程提前到了Map阶段由于Map阶段的数据量较少一般情况下每次最多128M的数据减少Reduce阶段的压力。进行combiner操作后的结果会一部分放入内存一部分放入磁盘后续使用时需要分别进行归并排序合并总体结果公共需要进行3次归并排序。当设置reduceNum为0时只有map阶段没有reduce阶段就没有shuffle阶段。 Partition分区 分区器 默认分区器自定义分区器 机制 分区操作在map阶段之后key.hashCode() Integer.MAX_VALUE去除负数reduce阶段中有默认分区器 相同的key永远进入同一个分区不同的key有可能进入不同分区分区无论怎么算都不会有负数诞生已经不会超过reduce的上限 如果对输出结果有具体的分区要求需要定义分区继承Partition类 根据业务逻辑定义分区数量分区数量确定时分区号已经确定了如果分区数量大于返回的分区号会导致reduce空转如果reduce的数量小于返回的分区号会报错当分区数为1时代码会使用默认的分区器 Combiner合并 Combiner是MR程序中的Mapper和Reducer之外的一种组件Combiner组件的父类就是ReducerCombiner和Reducer的区别在于运行的位置 - Combiner是在每一个MapTask所在的节点运行 - Reducer是在ReduceTask节点运行本质上代码都是一样的可以直接使用原本的Reduce类作为Combiner类如果将ReduceTask的数量设置为0Combiner将直接不执行输出结果连排序都没有做在map阶段直接退出了。即shuffle和reduce两个过程都没有执行。 OutputFormat数据输出 基本上不需要自己实现有很多现成的工具类比如Flume, 除非您的公司有自己的文件系统否则不需要自己操心。 总结 MapTask做了什么 input 切割 读取map索引快排后缓冲区往返溢写sort快排后写入磁盘 ReduceTask做了什么 copy阶段ReduceTask从各个MapTask上远程拷贝一片数据并针对某一片数据如果其大小超过一定阈值则写到磁盘上否则直接放到内存中。sort阶段对内存和磁盘上的文件进行合并以防止内存使用过多或磁盘上文件过多。reduce阶段进行数据的规约合并并将结果写入HDFS。
http://www.hkea.cn/news/14331306/

相关文章:

  • 团购网站前景电子商务网站设计方案
  • 做网站绿标简洁大气企业网站源码 后台
  • 51CTO学院个人网站开发视频做阿里巴巴网站装修要多久
  • 游戏开发与网站开发就业情况wordpress4.8 汉化
  • 网站建设小程序开发网站特效漂亮的网站
  • 做网站的需要哪些职位做营销网站制作
  • 规划网站开发总体方案网站建设违法行为
  • 广州 Wix网站开发深圳新公司注册流程及费用
  • wordpress建站博客上海广告推广公司
  • 图书馆网站建设的意义做租凭网站是经营性吗
  • 如何做一个企业网站产品推广方案ppt
  • 建网站的几个公司室内效果图制作流程
  • 做ptt网站wordpress增加登录账户
  • 建设银行查询余额进什么网站百度网站优化升上去
  • 一个网站建设哪家快如何做一个移动网站
  • 网站收录更新大型网站费用
  • 做网站推广需要哪些知识伊犁网站建设评价
  • 俄语网站叫什么yandex网站建设改版升级
  • 公司做网站需要哪些费用学院门户网站建设自评
  • 怀柔成都网站建设热门行业排行榜
  • 织梦小说网站模板下载地址长沙网络营销首选智投未来
  • 网站公司广州河南省建设工程造价信息网
  • 网站推广策划思路与执行中通建设工程管理公司网站
  • 万州那家做网站vi设计和ui设计的区别
  • 南宁建站公司自己做菠菜网站
  • 青浦做网站网站设计制作在哪能看
  • 网站服务器去哪买的上海网站建设公司案例
  • 网页设计师培训教程成都百度搜索排名优化
  • 赤峰网站建设网站建设优化排名推广
  • 淘宝上网站建设好便宜crm客户管理系统论文