当前位置: 首页 > news >正文

国外采购网站大全做蛋糕有哪些网站

国外采购网站大全,做蛋糕有哪些网站,51推广平台,wordpress简体中文版下载这里写目录标题 张量并行TP流水线并行 PPnaive模型并行GPipePipeDream 数据并行DPFSDP 张量并行TP 挖坑 流水线并行 PP 经典的流水线并行范式有Google推出的Gpipe#xff0c;和微软推出的PipeDream。两者的推出时间都在2019年左右#xff0c;大体设计框架一致。主要差别为… 这里写目录标题 张量并行TP流水线并行 PPnaive模型并行GPipePipeDream 数据并行DPFSDP 张量并行TP 挖坑 流水线并行 PP 经典的流水线并行范式有Google推出的Gpipe和微软推出的PipeDream。两者的推出时间都在2019年左右大体设计框架一致。主要差别为在梯度更新上Gpipe是同步的PipeDream是异步的。异步方法更进一步降低了GPU的空转时间比。虽然PipeDream设计更精妙些但是Gpipe因为其“够用”和浅显易懂更受大众欢迎torch的pp接口就基于Gpipe。因此本文以Gpipe作为流水线并行的范例进行介绍。https://zhuanlan.zhihu.com/p/613196255 gpipe论文 https://arxiv.org/pdf/1811.06965.pdf naive模型并行 图片来自https://arxiv.org/pdf/1806.03377.pdf 如果一个模型一个gpu放不下就某些层放在一个卡上图表示一共四个卡F0表示第0个batch灰色的第一个卡计算完第0个batch交给黄色的卡。黄卡上放的模型的层的输入是灰色的卡上放的模型的输出。一次只有一个gpu工作。 GPipe 把mini batch分成micro batch这样多个gpu可以同时计算。 具体的算法 用户定义好L层的网络、前向、损失函数等以后GPipe 就会将网络划分为 K 个单元并将第 k 个单元放置在第 k 个加速器上。通信原语自动插入到分区边界以允许相邻分区之间的数据传输。分区算法最小化所有单元估计成本的方差以便通过同步所有分区的计算时间来最大化管道的效率。 前向过程GPipe先把大小为N的minibatch分成M个相等的micro batch通过 K 个加速器进行流水线处理。在向后传递过程中每个micro batch通过 K 个加速器进行流水线处理。在向后传递过程中通过 K 个加速器进行流水线处理。在向后传递过程中每个micro batch计算梯度都是基于跟前向同一个模型没有误差哦。每个mini batch的最后M个micro的梯度都计算完了 在前向计算期间每个加速器仅存储分区边界处的输出激活。在向后传递期间第 k 个加速器重新计算复合前向函数 Fk。 在micro-batch的划分下我们在计算Batch Normalization时会有影响。Gpipe的方法是在训练时计算和运用的是micro-batch里的均值和方差但同时持续追踪全部mini-batch的移动平均和方差以便在测试阶段进行使用。Layer Normalization则不受影响。 总结 如果模型太大一张卡放不下按照层来切开第一层放在第一张卡第二层放在第二张卡这样第二层要等第一层的计算结果作为输入等待的时候卡就空闲了很浪费。 gpipe的做法是batch再切开切成micro batch这样虽然第一个microbatch的时候要等待但是多张卡可以同时工作了。 GPipe 还用recomputation这个简单有效的技巧来降低内存进一步允许训练更大的模型 如何按照层自动划分根据计算量分配到每张卡 gpipe的micro batch上是需要累计梯度的 重计算多计算一次前向换空间但是不是梯度来了从头前向一次中间有几个激活其实存下来了叫做checkpoint然后从checkpoing的激活值的位置前向就行。因为每张卡上不止一个micro batch所以激活的数量也是好几份这个量就比较大 Gpipe流水线其存在两个问题硬件利用率低内存占用大。于是在另一篇流水并行的论文里微软 PipeDream 针对这些问题提出了改进方法就是1F1B One Forward pass followed by One Backward pass策略。 PipeDream 微软在论文 PipeDream: Fast and Efficient Pipeline Parallel DNN Training PipeDream 模型的基本单位是层PipeDream将DNN的这些层划分为多个阶段。每个阶段stage由模型中的一组连续层组成 1F1B 由于前向计算的 activation 需要等到对应的后向计算完成后才能释放无论有没有使用 Checkpointing 技术因此在流水并行下如果想尽可能节省缓存 activation 的份数就要尽量缩短每份 activation 保存的时间也就是让每份 activation 都尽可能早的释放所以要让每个 micro-batch 的数据尽可能早的完成后向计算因此需要把后向计算的优先级提高 参考 [源码解析] 深度学习流水线并行Gpipe https://www.cnblogs.com/rossiXYZ/ 数据并行DP FSDP fair scale的fsdp https://engineering.fb.com/2021/07/15/open-source/fsdp/ Fully Sharded Data Parallel (FSDP) 是一种DP算法offload一部分计算到cpu。但是模型的参数在多个gpu之间是share的每个microbatch的计算还是local to每个gpu的 在标准 DDP 训练中每个工作人员处理一个单独的批次并使用allreduce对各gpu的梯度进行求和。虽然 DDP 已经变得非常流行但它占用的 GPU 内存超出了其需要因为模型权重和优化器状态会在所有 DDP 工作线程之间复制。 FSDP是pytorch1.11的新特性。其新特性目的主要是训练大模型。我们都知道pytorch DDP用起来简单方便但是要求整个模型能加载一个GPU上这使得大模型的训练需要使用额外复杂的设置进行模型拆分。pytorch的FSDP从DeepSpeed ZeRO以及FairScale的FSDP中获取灵感打破模型分片的障碍包括模型参数梯度优化器状态同时仍然保持了数据并行的简单性。
http://www.hkea.cn/news/14519850/

相关文章:

  • 餐饮行业网站建设河南艾特网站建设公司
  • 做网站要学的东西做网站要用框架吗
  • 做网站的基本功建立网站的链接结构有哪几种形式
  • 微信小程序怎么上架商品seop
  • 凡科可以做返利网站吗网站开发付款
  • 做网站字体要求软件开发八个阶段
  • 东莞南城网站开发公司电话视觉设计网
  • 怎么管理网站数据库酒店网站建设系统介绍
  • 佛山骏域网站建设wordpress支持移动端
  • 上海住房和城乡建设厅网站素材
  • 企业微站系统乐山市做网站的公司
  • dede网站qq类资源源码网页制作与网站建设 论文
  • wordpress 做图片站网页版浏览器在线使用
  • 做迅雷下载电影类网站会侵权么润才网站建设
  • 公司网站建设方案书怎么写iis配置网站开发环境
  • 找别人做的网站问什么域名解析后还是上线不vs网页制作教程
  • 夸克建站系统官网学做游戏 网站
  • 网站开发费计入什么科目合适邢台建设企业网站价格
  • 建设论坛网站步骤用php写的网站
  • 中国建设银行网站用户名是什么意思开个公司一年需要多少费用
  • wordpress阿里云建站长尾关键词查询工具
  • 如何做企业网站推广phpcms转wordpress
  • 苏州市城市建设局网站网站建设项目设计报告
  • 网站怎么优化seo南京做网站南京乐识专心
  • 网站与平台的区别怎样做京东网站
  • 少儿图书销售网站开发背景泰安网页设计招聘
  • 如何做漂亮的网站首页足球推介网
  • 网站招聘方案怎么做海南做房地产网站的网络公司
  • 六安网站建设招商wordpress 常见问题
  • 上海自助建站 上海网站建设免费申请网站域名