当前位置: 首页 > news >正文

wordpress建站 app访问网站的备案的要多少钱

wordpress建站 app访问,网站的备案的要多少钱,江西建设网官方网站,网页源代码中笔记来源#xff1a;bilibili LSTM 回顾 原始的 LSTM 是为了解决 RNN 时序反向传播中梯度消失和爆炸问题而提出的。 其所谓的门控机制#xff0c;其实就是一种时序上的注意力机制#xff0c;相当于把不同时间进行掺和#xff0c;是对时序信息的一种选择性控制…笔记来源bilibili LSTM 回顾 原始的 LSTM 是为了解决 RNN 时序反向传播中梯度消失和爆炸问题而提出的。 其所谓的门控机制其实就是一种时序上的注意力机制相当于把不同时间进行掺和是对时序信息的一种选择性控制。从这个视角看它与 Transformer 和 mamba 都异曲同工之妙。核心思想都是选择性控制信息流动更好地处理时序数据或序列信息。门控机制通过固定的结构和参数来控制信息流而注意力机制通过动态计算权重来控制信息流。因此门控机制可以看作是一种特定形式的时序注意力机制对不同时间步的信息进行选择性控制和掺和。可以认为是一种约束版或者简化版的注意力机制。 其缺点 LSTM 有三个主要局限性 在处理长序列时效率低记忆容易有限不可以并行处理数据 而 transformer 借助网格模块堆叠参数规模扩充和 GPU 并行处理拼算力在一定的程序上解决了以上的问题所以 transformer 实现了赶超。 初级版sLSTM 改进注意力机制 改进的点 输入门和遗忘门的激活函数从 sigmoid 改成了指数函数红色部分引入了一个归一化状态 n t n_t nt​相应的隐层 h t h_t ht​ 的计算方式亦了改成了 c t / n t c_t/n_t ct​/nt​公式 10引入了一个额外状态 m t m_t mt​ 来进一步稳定门控 改进的原因如下 指数函数相比于 sigmoid 函数具有更大的输出范围和更大的梯度可以减轻梯度消失的问题使得梯度在反向传播过程中不会迅速减小从而使得模型在训练时能够更有效地更新权重。指数函数的增长速度比 sigmoid 函数快对输入变化更加敏感因此可以更迅速地强烈的调整输入和遗忘门的输出使得模型能够更快地捕捉到输入信息的变化更加选择性地记住或忘记信息从而提高模型的记忆和遗忘能力。强烈的选择性可以让模型能够更准确地保留重要信息和丢弃不重要的。在特定任务如长序列的最近邻搜索或稀有事件预测中表现得尤为显著能够显著提升模型的性能。 引入归一化和状态 m t m_t mt​ 都是为了稳定因为指数激活函数可能导致数值过大而溢出前者相当于搞了一个大分母。后者通过下面的公式进行 第一个式子中使用了 log 的作用就是防止输入门和遗忘门都不要太猛。然后根据 m t m_t mt​ 来调整输入了门与遗忘门这样就实现了对输入门与遗忘门的调节。 在原论文中还证明了在瘦身传播中使用 f t ′ f_t ft′​ 和 i t ′ i_t it′​ 替换 f t f_t ft​ 和 i t i_t it​ 不会改变整个网络的输出也不会改变参数损失的导数。 增加了这些公式相当于增加了新的记忆单元它们之间通过连接从长短期记忆状态借助门控阀门i, f, 0 进行记忆混合。门控就是选择也是一种时序注意力机制的体现。 中级版mLSTM 改进内存处理 解决了敏感度某种程序上也是长序列处理效率问题为了增强 LSTM 的存储能力文章将 LSTM 的记忆单元从一个标量 c 增加到矩阵 C。而且在这里引入了 transformer 键值对的概念更新规则如下 C t C t − 1 v t k t T C_tC_{t-1}v_tk_t^T Ct​Ct−1​vt​ktT​ 在将输入投影到键和值之前mLSTM 进行层归一化使得均值为零。同时将协方差更新规则也就是优化器整合到 LSTM 架构中遗忘门对应于衰减率输入门对应于学习率而输出门则缩放检索到的向量最终形成了下面的迭代公式 与之前的 sLSTM 对比最大的区别之一就是状态和权重参数都变成了矩阵的形式对应的运算变成了向量矩阵简洁和哈达玛积。区别之二是增加了 q t q_t qt​ k t k_t kt​, v t v_t vt​ 这种键值对的计算公式优化了自注意力机制多了好几个权重矩阵增强了模型表达能力。其他的公式基本没变。相当于记忆单元没变只是每个单元扩容了记忆的容量。 此外这种框架可以使用多头模型头与头之间没有记忆混合因此可以充分并行可以提升并行能力。 高级版xLSTM 大模型 Cover 定理 Cover 定理它及衍生的高维空间中非线性映射理论是现代大模型设计的重要理论依据之一。尤其是在深度学习和大规模神经网络的设计中直到了关键的作用。 大模型中激活函数通过非线性变换将数据映射到高维空间使得模型可以捕捉复杂的模式和特征增强模型的表达能力。深度网络在权重矩阵和激活函数共同作用将输入数据逐步映射到越来越高的维度。这使得在低维空间难以分离的模式在高维空间国变得线性可分。Transformer 模型就是通过多头注意力机制在高维空间中进行并行处理使得不同位置的特征可以相互影响和结合从而提高了模型的性能。 Cover 定理为这些设计提供了理论支持解释了为什么通过高维空间国的非线性映射可以提高模型的性能。 核心模块和工作原理 它做了以下的事 非线性总结压缩信息通过残差块在高维空间中对历史信息进行非线性总结使得不同的历史或上下文信息更容易分离。线性映射回原始空间完成高维空间中的处理后再将数据线性映射回原始空间。这一过程利用了高维空间中的优势使得模型可以更好地分离和记忆历史信息。 而具体的长维其结构如下 左侧可以看成 sLSTM右侧则可以看成mLSTM。其输入方向为从下往上输入。 左边是先在原始空间中总结信息sLSTM然后映射到高维空间再返回原始空间。可以看到有一个倒梯形矩阵用于升维处理后再降维。而右边是先映射到高维空间总结信息后再返回原始空间。输入直接上投影再使用 mLSTM 处理然后再降维。 关于为啥左边使用 sLSTM而右边使用 mLSTM高维空间中的记忆容量更大所以使用矩阵化记忆单元的 mLSTM 更合适而在低维空间处理 sLSTM 更合适。 以下是两个模块的详细设计 PF3/4 和 PF4/3投影因子用于将输入维度缩小或扩大为原来的 PF 倍。GN组归一化。在每一组内进行归一化有助于加速训练和提高模型稳定性特别是在小批量batch训练时。Swish一种平滑的非线性激活函数可以帮助模型学习到更复杂的模式。Conv 4: 卷积层卷积核大小为 4提取局部特征。LN层归一化帮助稳定和加速训练过程。NH4表示有 4 个头。此外将输入块使用块对角线结构进行线性变换有助于捕捉局部相关性。 PF1/2 和 PF2投影因子。前者将输入维度缩小一半后者将输入维度扩大 2 倍。LSkip类似于残差连接可以帮助梯度更好地传递防止梯度消失和爆炸。这里相当于有两种跳线残差。qkv从输入中生成用于计算注意力权重和进行信息检索。BS4块大小为 4 的块对角投影矩阵。 整体上都是充分利用了残差堆叠结构层归一化技术等稳定网络通过升降维度实现空间变换激活函数非线性变换然后利用 LSTM 进行记忆混合或者说时序上的选择性自力机制计算采用多头和块对角模式实现并行处理。 与 Transformer 的对比 有了这两种基本构建模块通过堆叠增加模型的深度可以逐层提取更高层次的特征。最终整个堆叠结构作为一个端到端的模型进行训练。 同时Transformer 能干的xLSTM 也可以干但是 xLSTM 有更加明确的逻辑结构有数据公式的严密推导效率更高。 与 Transformer 不同xLSTM 在计算复杂度与内存复杂序上随着序列长度呈再发关系。由于 xLSTM 有记忆压缩性很适合在工业应用和边缘设备上实现。 适用的场景 sLSTM无法并行化需要高精度和复杂特征提取的任务计算资源充足且不需要并行化的应用对延迟敏感但不受并行化限制的场景。mLSTM可以并行化图像识别视频处理等需要高效并行计算的任务计算资源有限且需要高效利用内存的应用需要在工业环境或边缘设备上部署的任务。 小结 xLSTM 的原理借助指数门控混合记忆和新内存结构LSTM 增强为 sLSTM 和 mLSTM。二者的结合构成了 xLSTM进一步堆叠可以实现大模型化。
http://www.hkea.cn/news/14411466/

相关文章:

  • 如何查网站是哪个公司做的网络推广方案策划书
  • 青岛网站建设eoe高端网站设计哪个好
  • 包装设计灵感网站网站开发商品管理表字段
  • 快速建站介绍网络规划设计师 用途
  • 网站伪静态化舟山市住房与城乡建设厅网站
  • 重视网站建设广州百度快速排名优化
  • 360路由器做网站ci框架建设网站
  • 医院网站做竞价需要注意广告法培训教育
  • 网站规范建设wordpress模板开发教程
  • 福永小学网站建设能够做冶金工程毕业设计的网站
  • 驻马店高端网站建设临清聊城网站优化
  • 免费空间网站推广神器app
  • 网站访问量很大怎么办安徽网络推广
  • 做网站美工赚钱吗网站推广做百度还是360
  • 前端手机网站厦门新闻头条最新消息
  • 关于电视剧的网站设计网页wordpress加载不出来
  • 邯郸制作网站网站建设开发人员
  • 网站降权如何百度申诉番禺网站(建设信科网络)
  • 最好的淘宝客网站装修设计公司营业执照经营范围
  • 如何设计大型电商网站建设wordpress 语言包编辑
  • 网站服务器端口号是什么logo在线设计生成器app
  • 网站开发劳动合同范本张掖市建设规划局网站
  • 交易平台网站建设策划书营销网络用语是什么意思
  • 厦门网站建设模拟中国建筑网官网查询阮国方
  • 一般做外单的有哪些网站店铺logo图片免费生成器
  • 网站加速器quickq建设网站程序下载
  • 门户网站建设情况wordpress背景图美化
  • 正规的网站制作罗湖附近公司做网站建设哪家效益快
  • 济南网站微信网站开发文档的示例
  • 四川品牌网站建设离婚协议书模板免费下载