当前位置: 首页 > news >正文

常州网站推广软件信息国内响应式网站

常州网站推广软件信息,国内响应式网站,宁工图书馆哪种书是关于做网站的,深圳电子厂本文介绍了一种名为 **LLM-Pruner** 的方法#xff0c;用于对大型语言模型#xff08;LLMs#xff09;进行结构化剪枝#xff0c;以减少模型大小和计算需求#xff0c;同时保留其多任务解决和语言生成能力。LLM-Pruner 通过依赖检测和重要性估计实现高效剪枝#xff0c;并…本文介绍了一种名为 **LLM-Pruner** 的方法用于对大型语言模型LLMs进行结构化剪枝以减少模型大小和计算需求同时保留其多任务解决和语言生成能力。LLM-Pruner 通过依赖检测和重要性估计实现高效剪枝并结合低秩近似LoRA快速恢复模型性能。以下是文章的核心公式及其解释 --- ### 1. **依赖关系的定义** 文章定义了模型中结构之间的依赖关系用于确定哪些结构需要同时剪枝。依赖关系的定义如下 - **公式 (1)**     \[   N_j \in \text{Out}(N_i) \land \text{Deg}^-(N_j) 1 \Rightarrow N_j \text{ 依赖于 } N_i   \]   其中\(N_i\) 和 \(N_j\) 是模型中的两个神经元\(\text{Out}(N_i)\) 表示指向 \(N_i\) 的神经元集合\(\text{Deg}^-(N_j)\) 表示 \(N_j\) 的入度。如果 \(N_j\) 的入度为1且唯一依赖于 \(N_i\)则 \(N_j\) 依赖于 \(N_i\)。 - **公式 (2)**     \[   N_i \in \text{In}(N_j) \land \text{Deg}^(N_i) 1 \Rightarrow N_i \text{ 依赖于 } N_j   \]   其中\(\text{In}(N_j)\) 表示从 \(N_j\) 指向的神经元集合\(\text{Deg}^(N_i)\) 表示 \(N_i\) 的出度。如果 \(N_i\) 的出度为1且唯一指向 \(N_j\)则 \(N_i\) 依赖于 \(N_j\)。 **作用**这些公式用于自动检测模型中耦合的结构确保剪枝时不会破坏模型的依赖关系。 --- ### 2. **重要性估计** 为了决定哪些结构可以被剪枝文章提出了基于梯度和近似 Hessian 矩阵的重要性估计方法。 - **公式 (3)**向量级重要性估计     \[   I_{W_i} |\Delta L(D)| |L_{W_i}(D) - L_{W_i0}(D)| \left|\frac{\partial L(D)}{\partial W_i} W_i - \frac{1}{2} W_i^\top H W_i O(\|W_i\|^3)\right|   \]   其中\(L\) 是模型的损失函数\(D\) 是用于估计重要性的数据集\(H\) 是 Hessian 矩阵。公式中忽略了 Hessian 矩阵的高阶项因为计算复杂度较高。 - **公式 (4)**元素级重要性估计     \[   I_{W_k^i} |\Delta L(D)| |L_{W_k^i}(D) - L_{W_k^i0}(D)| \left|\frac{\partial L(D)}{\partial W_k^i} W_k^i - \frac{1}{2} W_k^i H_{kk} W_k^i O(\|W_k^i\|^3)\right|   \]   其中\(k\) 表示权重矩阵 \(W_i\) 中的第 \(k\) 个元素\(H_{kk}\) 是 Hessian 矩阵的对角线元素可以用 Fisher 信息矩阵近似。 - **公式 (5)**近似 Hessian 矩阵     \[   I_{W_k^i} \approx |L_{W_k^i}(D) - L_{W_k^i0}(D)| \approx \left|\frac{\partial L(D)}{\partial W_k^i} W_k^i - \frac{1}{2} \sum_{j1}^N \left(\frac{\partial L(D_j)}{\partial W_k^i} W_k^i\right)^2 O(\|W_k^i\|^3)\right|   \]   其中\(N\) 是数据集 \(D\) 的样本数量。 **作用**这些公式用于评估每个结构或参数对模型性能的影响帮助选择剪枝的目标。 --- ### 3. **组重要性聚合** 文章提出了多种聚合方法来评估整个结构组的重要性 - **求和Summation**     \[   I_G \sum_{i1}^M I_{W_i} \quad \text{或} \quad I_G \sum_{i1}^M \sum_k I_{W_k^i}   \] - **求积Product**     \[   I_G \prod_{i1}^M I_{W_i} \quad \text{或} \quad I_G \prod_{i1}^M \prod_k I_{W_k^i}   \] - **取最大值Max**     \[   I_G \max_{i1}^M I_{W_i} \quad \text{或} \quad I_G \max_{i1}^M \max_k I_{W_k^i}   \] - **仅最后执行的结构Last-Only**     \[   I_G I_{W_l} \quad \text{或} \quad I_G \sum_k I_{W_k^l}   \]   其中\(l\) 是组中最后执行的结构。 **作用**这些聚合方法用于将单个结构或参数的重要性汇总为组的重要性以便决定哪些组可以被剪枝。 --- ### 4. **快速恢复阶段** 为了快速恢复剪枝后的模型性能文章使用了低秩近似LoRA方法。具体公式如下 - **公式 (6)**LoRA 更新     \[   \Delta W PQ \quad \text{其中} \quad P \in \mathbb{R}^{d^- \times d}, \quad Q \in \mathbb{R}^{d \times d^}   \]   \[   f(x) (W \Delta W)X b (WX b) (PQ)X   \]   其中\(W\) 是模型的权重矩阵\(\Delta W\) 是更新值\(P\) 和 \(Q\) 是低秩矩阵\(d\) 是低秩维度。 **作用**LoRA 通过分解权重矩阵的更新值为两个低秩矩阵的乘积减少了优化参数的数量从而加速模型的恢复过程。 --- ### 5. **实验结果** 文章在多个大型语言模型如 LLaMA、Vicuna 和 ChatGLM上验证了 LLM-Pruner 的效果。实验结果表明 - 在 20% 的剪枝率下模型保留了 94.97% 的原始性能。 - 使用 LoRA 恢复后模型的性能进一步提升且仅需 3 小时的调优时间。 - 剪枝后的模型在零样本分类和生成任务中表现出色且计算效率显著提高。 --- ### 总结 LLM-Pruner 通过依赖关系检测和重要性估计实现了对大型语言模型的高效结构化剪枝并结合 LoRA 快速恢复模型性能。这种方法在减少模型大小和计算需求的同时保留了模型的多任务能力和语言生成能力。
http://www.hkea.cn/news/14342350/

相关文章:

  • 网站怎么做让PC和手机自动识别协会网站开发
  • 青浦区做网站app混合开发框架哪个好
  • 做网站设计有哪些网页wordpress 网站加密
  • 编程培训网站个人网站做多久有效果
  • 深圳网站建设(信科网络)wordpress添加音频
  • 网站维护费用wordpress 慢途网
  • 如何为企业网站设计完整的推广方案linu安装wordpress
  • 平度城乡建设局网站网页制作基础教程第二版教材
  • 房产网站cms黄骅招聘信息最新2022
  • 上海网站建设的价格低浙江建设职业技术学院
  • 金坛网站制作it培训学校
  • 做网站绑定 对应的域名外贸网站 建站
  • 私人诊所网站源码企业信息的网站
  • seo优化教学视频seo网站优化课程
  • 新手做哪类网站网站建设需要注意哪些方面
  • 单页网站搭建学校网站建设状况
  • 网站建设的功能描述wordpress插件 地图
  • 沧州做家装的公司网站中小企业网站制作过程中要注意什么
  • 网站推广基本预算制作网站网页域名的公司
  • 安徽两学一做专题网站wordpress好的博客主题
  • 哪些网站是用wordpress搭建的wordpress获取分类链接
  • 做网站的文章711相卡打印网址
  • dede网站后台怎么自己做网站免费的
  • 国家网站备案查询系统做网站收入来源表
  • 网站开发项目经验描述怎么写六安建设机械网站
  • 网站活动策划方案久治县网站建设公司
  • 做网站用什么电脑配置怎么做几个版面的网站
  • 足球比赛直播回放完整版seo伪原创工具
  • cn域名后缀网站做企业网站 目的
  • 没有营业执照怎么样做百度企业网站电脑做网站空间