当前位置: 首页 > news >正文

长沙网站优化指导炎陵网站建设

长沙网站优化指导,炎陵网站建设,网站制作方案策划书,网站推广效果分析NLP-大语言模型学习系列目录 一、注意力机制基础——RNN,Seq2Seq等基础知识 二、注意力机制【Self-Attention,自注意力模型】 三、Transformer图文详解【Attention is all you need】 四、大语言模型的Scaling Law【Power Low】 文章目录 NLP-大语言模型学习系列目录一、什么是…NLP-大语言模型学习系列目录 一、注意力机制基础——RNN,Seq2Seq等基础知识 二、注意力机制【Self-Attention,自注意力模型】 三、Transformer图文详解【Attention is all you need】 四、大语言模型的Scaling Law【Power Low】 文章目录 NLP-大语言模型学习系列目录一、什么是 Scaling Law二、 Scaling Law的应用1最佳模型参数数据量求解方法2LLaMA3.1中的Scaling Law3计算实例【根据计算量和数据量求最佳模型大小】 三、未来挑战参考资料 一、什么是 Scaling Law Scaling Law缩放法则是人工智能和机器学习中一类理论它描述了随着模型规模例如参数数量、训练数据量、计算资源的增加模型性能如何提升的规律。简单来说Scaling Law 研究的是模型性能与模型规模之间的关系。 定义【Scaling Law】1 在生成模型中被广泛观察到的现象对于计算量C模型参数量N和数据大小D当不受另外两个因素影响时模型的性能与每个因素都呈幂律关系 性能 ∝ N α \propto N^{\alpha} ∝Nα性能 ∝ D β \propto D^{\beta} ∝Dβ性能 ∝ C γ \propto C^{\gamma} ∝Cγ 这些公式中的 α、β、γ 是对应维度的缩放指数。通常模型性能可以用Test Loss来表示Loss越小说明模型性能越好。 Scaling Law背后的基本思想是模型的性能可以通过简单的扩展例如增加模型参数、训练数据或计算资源来不断提升并且这种提升往往遵循一定的幂律关系。通过研究这种关系研究者可以预测模型在不同规模下的性能表现指导大模型的设计和训练。 二、 Scaling Law的应用 Scaling Law总结出来的一个规律是 C ≈ 6 N D C\approx6ND C≈6ND 其中C是计算量N是参数量D是训练数据量。举个例子 假设一个模型有 10亿个参数 N 1 0 9 N10^9 N109 , 并且训练数据集的规模是 D 1 0 12 \mathrm{D}10^{12} D1012 1万亿个 token.使用公式 C 6ND, 总的计算量就是: C 6 × 1 0 9 × 1 0 12 6 × 1 0 21 F L O P s C6 \times 10^9 \times 10^{12}6 \times 10^{21} \mathrm{FLOPs} C6×109×10126×1021FLOPs 这表明要训练这个模型, 大约需要 6 × 1 0 21 6\times 10^{21} 6×1021 次浮点运算。 这个规律有什么用呢?通过前面的Scaling Law我们知道训练大模型时增加模型的参数量或者训练的数据量模型性能会得到提升。但是我们并不能无止境的增加因为现实训练模型收到计算量的制约训练一个语言大模型是很费钱的。所以当给定一个计算量budget我们怎么分配N和D得到一个最好的模型呢 1最佳模型参数数据量求解方法 上面的问题可以建模为如下的优化问题 N o p t ( C ) , D o p t ( C ) argmin ⁡ N , D s.t. FLOPs ( N , D ) C L ( N , D ) , L ^ ( N , D ) ≜ E A N α B D β . N_{opt}(C),D_{opt}(C)\underset{N,D\text{ s.t. FLOPs}(N,D)C}{\operatorname*{argmin}}L(N,D),\\ \hat{L}(N,D)\triangleq E\frac A{N^\alpha}\frac B{D^\beta}. Nopt​(C),Dopt​(C)N,D s.t. FLOPs(N,D)Cargmin​L(N,D),L^(N,D)≜ENαA​DβB​. 这个多变量问题怎么解呢主要有三种方法 固定模型大小改变训练数据固定计算量改变模型大小拟合幂律曲线 根据上表的结果得出a0.5,b0.5 根据图3右边两图所得到的点向外延伸可以得到给定计算量C最佳的N、D. 2LLaMA3.1中的Scaling Law 如下图所示是LLaMA3.1中的Scaling LawLLaMA3.1发布了3个模型分别是8B,70B,405B.这个405B是怎么定下来的呢难道是领导拍脑袋想出来的吗国内可能是hh).显然他们做了实验先在小数据和小模型上进行实验左图然后根据实验结果画出Scaling Law曲线找到对应计算量的最优模型大小和最优训练数据量。 3计算实例【根据计算量和数据量求最佳模型大小】 例 假设你有1000张H100显卡并且可以用6个月。假设你有10T的数据。那么你应该训练多大的模型 另一种更快的估计方法 三、未来挑战 尽管 Scaling Law 提供了重要的理论指导仍然存在一些挑战 计算成本问题大规模扩展模型的参数和训练数据通常需要极高的计算成本。虽然 Scaling Law 提供了理论依据但大规模训练的实际成本可能难以承受。数据质量Scaling Law 假设数据量的增加会提升模型性能但在实际应用中数据的质量同样至关重要低质量数据可能会导致性能下降甚至模型偏差。性能饱和Scaling Law 研究表明性能提升并不是无限的通常会在某个点达到瓶颈。因此研究者需要找到其他方法如新架构、知识蒸馏来进一步提高性能。 参考资料 Scaling Laws for Neural Language Models【paper】 ↩︎
http://www.hkea.cn/news/14551549/

相关文章:

  • 毕业设计 建设旅游网站wordpress 主题管理
  • 医药网站建设的需求分析邯郸网络教研平台
  • 网站建设服务器的选择方式包括做网站一般都用什么字体
  • 营销网站建设平台网站建设维护 微信
  • 深圳做分销网站西安网站设计西安搜推宝
  • 公司做一个网站内容如何设计南通企业网站制作
  • 商务网站的可行性分析包括帝国网站管理系统教程
  • 中山品牌网站建设推广响应式网站 768 320
  • dw做网站的搜索栏怎么做嘉定网站建设
  • 电商网站前端页面内容编写采集做网站
  • 八亿免费建站淘宝网站怎么做视频
  • 百度怎么优化网站关键词一站式婚庆公司
  • php建设网站后台济南天桥区网站建设公司
  • 企业做网站公司五月色做受网站
  • 大淘客怎么做网站天元建设集团有限公司济南六公司
  • 产品介绍网站如何做seo广告制作公司的营业成本
  • 站长统计性宝app个人网站设计论文怎么写
  • 什么网站可以做高仿建设班级网站
  • 国内做设计的网站建设丽水微信网站建设价格
  • 网站开发工程师的生活形态小门店做网站
  • 怎么建立网站个人网站备案通过后
  • 中国建设银行门户网站做一个手机购物网站多少钱
  • 淮北市矿业工程建设公司网站wordpress2017
  • 快手点赞购买网站wordpress 发布文章 自定义栏目
  • 把公司网站 公开下载 做教程 侵权吗网站301重定向 权重转移
  • 移动端网站建设费用开源 购物网站
  • 深圳网站推广活动方案东莞做网站微信巴巴
  • 河北省衡水市景县规划网站wordpress用什么开发工具
  • 南山做棋牌网站建设制作小诗集
  • 一起做网站怎么下单手机网站设计公司立找亿企邦