当前位置: 首页 > news >正文

遂宁网站开发外贸建站有什么用

遂宁网站开发,外贸建站有什么用,餐饮外哪个网站做推广,护肤品网站建设目的TOC 1 前言2 方法2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES 1 前言 1) 提出背景 大模型时代#xff0c;通常参数都是上亿级别的#xff0c;若对于每个具体任务都要去对大模型进行全局微调#xff0c;那么算力和资源的浪费是巨大的。 根据流形学习思想#xff0c;对于数… TOC 1 前言2 方法2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES 1 前言 1) 提出背景 大模型时代通常参数都是上亿级别的若对于每个具体任务都要去对大模型进行全局微调那么算力和资源的浪费是巨大的。 根据流形学习思想对于数据有用的特征通常集中于低维流形区域。我们想去微调实际上只是让部分特征的权值更大而已而这部分特征也是低维的我们没有必要小题大做将整个模型的参数都动一遍。 鉴于此思想提出了LoRALow - Rank Adaptation), 既冻结住预训练好的大模型插入可训练低维压缩矩阵到每一层本文是插入到transformer层。我们仅仅去微调插入的可学习矩阵这样既可以显著降低需要微调的参数量同时也不会增加额外的推理时间。 2 方法 2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES 对于整个预训练大模型可以看作是 W 0 d × k W_0^{d\times k} W0d×k​既输入是一个 d d d维tensor输出一个 k k k维tensor对于新增的矩阵 A d × r A^{d\times r} Ad×r B r × k B^{r\times k} Br×k 其中 r r r就是low rank r m i n ( d , k ) rmin(d,k) rmin(d,k)。那么对于low rank matric可以将整个视为 Δ W d × k \Delta W^{d\times k} ΔWd×k预训练模型的基础上加上LoRa的模型可以视为 W W 0 Δ W WW_0\Delta W WW0​ΔW,最终输出维 h ( W 0 Δ W ) x h(W_0\Delta W)x h(W0​ΔW)x其中对于 A A A用随机高斯噪声去初始化对于 B B B将其设置为全0这样做在刚开始的时候也就不会对模型输出有啥影响避免减少引入不必要的噪声一开始随机初始化的值都是噪声 LoRa还有如下优点 通过如此微调可以近似是在微调整个预训练大模型减小了微调的参数量没有增加额外的推理时间由上面可以看到并没有啥额外的串行操作并且可以将 W W W减去 Δ W 1 \Delta W_1 ΔW1​在重新训练一个 Δ W 2 \Delta W_2 ΔW2​在进行相加就可以得到新的微调模型方便快捷。
http://www.hkea.cn/news/14508921/

相关文章:

  • 学校门户网站作用网站建设的基本步奏
  • 优秀的网站设计方案网站建设怎么设置多语言
  • 集宁做网站的公司网页设计代码模板人物介绍
  • 了解网站建设工作不开心应该辞职吗
  • 茶叶建设网站市场分析wordpress版本降级
  • 外国服务器的网站用html5做的个人网站
  • 太原网站的优化免费的html
  • 票务网站做酒店推荐的目的wap网站的好处
  • 免费海报素材网站大全wordpress rss 文章
  • 甘肃省城市建设档案馆网站wordpress 上传文章
  • 医院网站前置审批公司网站建设开发济南兴田德润优惠吗
  • 做项目的网站东阳住房和城市建设网站
  • 网站建设天地心网站建设多少钱 知乎
  • 社交类网站开发需求分析平顶山网站建设价格
  • 毕业设计某网站开发的开题报告范文凡科建站联系电话
  • 网站开发开题报告范文wordpress百度收录插件
  • 网站建设业务知识培训资料如何给自己做的网站加上域名
  • 建设建网站景区网站建设的重要性
  • 国外 网站 设计如何做目录wordpress
  • wordpress建站百科python做软件的网站
  • 怎么做自己的淘宝网站wordpress cms列表页
  • 淘宝联盟推广可以做网站吗网站建设课后感
  • 网站建设维护论文如何开一家代理记账公司
  • 做图软件官方网站国外室内设计网站排名
  • 建站网络建立科技开发网络管理系统登录
  • 宁波高端模板建站网站 搭建 亚洲服务器
  • 闪图在线制作网站枣庄网页制作公司
  • 影楼网站模版网址导航怎么删除
  • 专业做家政网站外贸公司取什么名字好
  • 响应式旅游网站模板下载网站域名备案与不备案的区别