当前位置: 首页 > news >正文

内蒙古做网站手机维修培训班学校

内蒙古做网站,手机维修培训班学校,学电商一般月收入多少,一定要用c 做网站吗文章目录 摘要Abstract 1 RNN的梯度消失问题2 LSTM缓解梯度消失总结 摘要 在深度学习领域,循环神经网络(Recurrent Neural Network, RNN)被广泛应用于处理序列数据,特别是在自然语言处理、时间序列预测等任务中。然而&#xff0c…

文章目录

    • 摘要
    • Abstract
  • 1 RNN的梯度消失问题
  • 2 LSTM缓解梯度消失
    • 总结

摘要

在深度学习领域,循环神经网络(Recurrent Neural Network, RNN)被广泛应用于处理序列数据,特别是在自然语言处理、时间序列预测等任务中。然而,传统的RNN在长序列数据学习过程中容易出现梯度消失和梯度爆炸问题,使得模型难以捕捉长时间依赖性。梯度消失问题源于RNN的反向传播算法中,多次矩阵相乘导致梯度指数级衰减,从而影响模型性能。为解决这一问题,长短期记忆网络(Long Short-Term Memory, LSTM)应运而生。LSTM通过设计特殊的门结构(输入门、遗忘门和输出门)以及引入细胞状态的传播,有效缓解了梯度消失现象。本文推导了RNN梯度消失的数学公式,并详细说明了LSTM如何利用门结构保持梯度稳定性,从而捕捉长时间依赖。

Abstract

Recurrent Neural Networks (RNNs) are widely used in deep learning for handling sequential data, particularly in tasks such as natural language processing and time series forecasting. However, traditional RNNs often encounter the vanishing and exploding gradient problem when learning from long sequences, which hinders their ability to capture long-term dependencies. The vanishing gradient problem arises in RNNs due to multiple matrix multiplications during backpropagation, causing exponential decay of gradients and impacting model performance. To address this issue, Long Short-Term Memory (LSTM) networks were developed. LSTM alleviates gradient vanishing by introducing specially designed gate structures—input gate, forget gate, and output gate—along with a cell state that propagates through time. This paper derives the mathematical basis for the vanishing gradient in RNNs and explains how LSTM leverages gate structures to maintain gradient stability, enabling the model to capture long-term dependencies effectively.

1 RNN的梯度消失问题

在这里插入图片描述

  • RNN的缺点

当序列太长时,容易产生梯度消失,参数更新只能捕捉到局部以来关系,没法再捕捉序列之间长期的关联或依赖关系。

如图为RNN连接,输入x,输出o(简单线性输出),权重w,s为生成状态。

在这里插入图片描述

根据前向传播可得:

在这里插入图片描述
假设使用平方误差作为损失函数,对单个时间点进行求梯度,假设再t=3时刻,损失函数为 L 3 = 1 2 ( Y 3 − O 3 ) 2 L_3=\frac{1}{2}(Y_3-O_3)^2 L3=21(Y3O3)2,然后根据网络参数Wx,Ws,Wo,b1,b2等求梯度。

  • W o W_o Wo求梯度得:

在这里插入图片描述

  • W x W_x Wx求梯度得:

在这里插入图片描述

具体求解过程:首先,所求目标为 L 3 L_3 L3 W x W_x Wx的偏导,通过链式法则进行展开。对比前向传播公式图可知, O 3 O_3 O3中并不能直接对 W x W_x Wx求偏导,而是包含在 S 3 S_3 S3中,所以要展开成如下形式。

在这里插入图片描述

但在 S 3 S_3 S3中又包含 S 2 S_2 S2 S 2 S_2 S2中包含 W x W_x Wx S 1 S_1 S1 S 1 S_1 S1中又包含 W x W_x Wx,嵌套了很多层,为了方便表示,我们用 θ 3 \theta_3 θ3来表示 S 3 S_3 S3括号中的内容。进一步简化可得:

在这里插入图片描述
S 3 S_3 S3演变为 S 2 S_2 S2,同理可递推求出 ∂ S 2 ∂ W x \frac{\partial{S_2}}{\partial{W_x}} WxS2 ∂ S 1 ∂ W x \frac{\partial{S_1}}{\partial{W_x}} WxS1

梯度的更新同时依赖于x3,x2,x1包括其梯度值。

在这里插入图片描述此为t=3时刻的梯度公式,推广至任意时刻的梯度公式为:

在这里插入图片描述
此式括号中的项为求导的连乘,此处求出的导数是介于0-1之间的,有一定的机率导致梯度消失(但非主要原因)。
造成梯度消失和梯度爆炸的主要原因是最后一项:当 W s W_s Ws很小的时候,它的k-1的次方会无限接近于0,而当 W s W_s Ws大于1时,它的k-1次方会很大。

如下为t=20时梯度更新计算的结果:

在这里插入图片描述
从式中可以看出,t=3的节点由于连乘过多导致梯度消失(t=3时的信息, x 3 x_3 x3所乘的 W s 17 W_s^{17} Ws17由于 W s W_s Ws介于0,1之间,已经非常接近于0),无法将信息传给t=20,因此t=20的更新无法引入t=3时的信息,认为t=20节点跟t=3的节点无关联。

对于梯度爆炸和梯度消失,可以通过梯度修剪来解决。相对于梯度爆炸,梯度消失更难解决。而LSTM很好的解决了这些问题。

2 LSTM缓解梯度消失

此过程为公式推导(以求 W x f W_{xf} Wxf为例)

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

故得 ∂ L 1 ∂ W x f \frac{\partial{L_1}}{\partial{W_{xf}}} WxfL1

在这里插入图片描述
其中 ∂ C t ∂ C t − 1 \frac{\partial{C_t}}{\partial{C_{t-1}}} Ct1Ct

通过调节 W h f W_{hf} Whf W h i W_{hi} Whi W h g W_{hg} Whg的值,可以灵活控制 C t C_t Ct C t − 1 C_{t-1} Ct1的偏导值,当要从n时刻长期记忆某个东西到m时刻时,该路径上的 ∏ t = n m ∂ C t ∂ C t − 1 \quad \prod_{t=n}^m\frac{\partial{C_t}}{\partial{C_{t-1}}} t=nmCt1Ct ≈ \approx 1×1×1…×1=1从而大大缓解了梯度消失。
在这里插入图片描述

总结

传统RNN在处理长序列数据时,由于重复矩阵相乘使梯度呈指数级衰减,导致梯度消失问题。为此,RNN模型难以学习序列中远距离位置的依赖信息。通过对RNN的梯度推导可以看出,当模型深度较大时,梯度逐渐趋向于零,最终导致模型无法学习有效特征。LSTM网络通过引入细胞状态和多个门控机制来缓解这一问题。细胞状态在序列传递中起到信息通路的作用,门控机制则控制信息的增删过程,使得梯度的传递得以有效保留。通过这样的设计,LSTM能够在长序列任务中稳定地传递梯度,从而有效捕捉长时间依赖关系。

http://www.hkea.cn/news/933921/

相关文章:

  • 网页设计中html代码seo博客网站
  • 怎样建设小游戏网站google关键词搜索技巧
  • 淘宝 客要推广网站怎么做全媒体广告代理
  • 那个b2b网站可以做外贸武汉全网推广
  • 深圳css3网站开发多少钱如何策划一个营销方案
  • 织梦统计网站访问量代码网络营销公司如何建立
  • 外贸营销型网站建设今日最新重大新闻
  • 个性化定制网站长春网络推广优化
  • 合肥庐阳区疫情最新消息seo优化首页
  • h5网站制作接单最新中高风险地区名单
  • 北京市住房城乡建设委网站公司怎么在网上推广
  • 网站建设首页怎样插入视频百度指数在线查询小程序
  • 青州网站制作哪家好aso优化哪家好
  • wordpress做网站优点郑州网站seo优化
  • 宝安做棋牌网站建设找哪家公司好湖南长沙疫情最新消息
  • 四川专业网站建设中国十大企业培训机构排名
  • 怎么切页面做网站灰色词首页排名接单
  • 网站右侧浮动广告代码百度推广代理公司广州
  • 固原建站公司旺道seo推广系统怎么收费
  • 适合做外链的网站海外广告联盟平台推广
  • 建筑模板规格型号郑州厉害的seo顾问
  • ppt做书模板下载网站有哪些内容国际婚恋网站排名
  • 上海网站建设内容更新网络营销策划目的
  • 重庆市建设信息网站关键词查询网
  • 做哪种网站流量大怎么打广告宣传自己的产品
  • 免费表白网站制作seo网络优化推广
  • 网站建设中可能升级中国科技新闻网
  • 网站制作内容文案网站如何快速被百度收录
  • 淘宝淘宝网页版登录入口免费seo公司
  • 竹溪县县建设局网站短视频营销