当前位置: 首页 > news >正文

公司内部网站创建湄潭建设局官方网站

公司内部网站创建,湄潭建设局官方网站,广州网络营销首荐佐兰网络vip,中国各地积极推进疫苗接种工作Zipformer 是kaldi 团队于2024研发的序列建模模型。相比较于 Conformer、Squeezeformer、E-Branchformer等主流 ASR 模型#xff0c;Zipformer 具有效果更好、计算更快、更省内存等优点。并在 LibriSpeech、Aishell-1 和 WenetSpeech 等常用数据集上取得了当时最好的 ASR 结果…Zipformer 是kaldi 团队于2024研发的序列建模模型。相比较于 Conformer、Squeezeformer、E-Branchformer等主流 ASR 模型Zipformer 具有效果更好、计算更快、更省内存等优点。并在 LibriSpeech、Aishell-1 和 WenetSpeech 等常用数据集上取得了当时最好的 ASR 结果。 目录 一.方法 1. Down sampled encoder structure 2. Zipformer block 3. BiasNorm 4. Swoosh 激活函数 5. ScaledAdam 论文地址https://arxiv.org/pdf/2310.11230.pdf 项目地址https://github.com/k2-fsa/icefall/tree/master/egs/librispeech/ASR/zipformer 一.方法 Zipformer的整体框架如下图所示。 不同于 Conformer 只处理固定帧率 25Hz Zipformer 采用了1个类似于 U-Net 的结构在不同帧率上学习时域表征。 首先Conv-Embed 将输入的 100Hz 的声学特征下采样为 50 Hz 的特征序列然后由 6 个连续的 encoder stack 分别在 50Hz、25Hz、12.5Hz、6.25Hz、12.5Hz 和 25Hz 的采样率下进行时域建模。除了第1个 stack 外其他的 stack 都采用了降采样的结构。在 stack 与 stack 之间特征序列的采样率保持在 50Hz。不同的 stack 的 embedding 维度不同中间stack 的 embedding 维度更大。每个 stack 的输出通过截断或者补零的操作来对齐下1个 stack 的维度。Zipformer 最终输出的维度取决于 embedding 维度最大的stack。 1. Down sampled encoder structure •Conv-Embed 使用3个2-D卷积层其时间×频率步长分别为1×2、2×2和1×2输出通道分别为8、32和128。随后利用了一个类似于Nextformer的ConvNeXt层该层由1个kernel大小为7×7的深度卷积、1个具有384个输出通道的点卷积、1个SwooshL激活函数和1个具有128个输出通道的点卷积组成。在ConvNeXt模块上应用了残差连接。最后使用1个线性层后面跟着1个BiasNorm以调整特征维度使其与第1个stack相匹配。 •Downsampled stacks 对于降采样的 encoder stack成对出现的 Downsample 和 Upsample 模块负责将特征长度对称地缩放。当降采样率为 2 时Downsample 学习2个标量权重用来将相邻的2帧加权求和Upsample 将每1帧复制为2帧。最后通过1个 Bypass 模块整合 stack 的输入和输出。 2. Zipformer block Zipformer block的结构如下图左侧所示。 Zipformer block深度大约是 Conformer block 的2倍。具体地block 输入先被送到 MHAW 模块计算注意力权重attention weightsattention weights作为NLA 模块和 SA 模块的输入。同时block 输入也被送到 feed-forward 模块后接 NLA 模块和2个连续的模块组SA convolution feed-forward。最后由1个 BiasNorm 模块对block 输出进行 normalize操作。除了残差连接每个 Zipformer block 使用2个 Bypass 模型用于结合 block 输入和中间模块的输出分别位于 block 的中间和尾部。 •Non-Linear Attention 上图右侧为Non-Linear Attention的结构。利用 MHAW 模块计算好的注意力权重沿着时间轴汇聚不同帧的向量。 具体而言使用3个 linear 将输入转换为 A、B、C每个的维度为输入维度的 3/4 倍。模块的输出为 ⊙ 表示点乘attention 表示利用1个注意力头的权重对不同帧汇聚 linear layer 负责恢复特征的维度。 •Bypass Bypass 模块学习1个逐通道的权重 结合模块输入 和模块输出 。在训练早期通过约束   的最小值让模块接近 “straight-through” 有助于稳定模型训练。 3. BiasNorm 提出 BiasNorm 模块来替换 LayerNorm 其中 是可学习的逐通道的 bias 是通道的均方根值是1个可学习的标量。 4. Swoosh 激活函数 提出2个新的激活函数用于代替 Swish分别称为 SwooshR 和 SwooshL。 在 SwooshR 函数中偏移值 0.313261687 是为了让函数经过原点在 SwooshL函数中偏移量 0.035 是经过实验得到的。 如下图所示SwooshL 近似于 SwooshR 向右偏移得到的。 把 SwooshL 用在 “normally-off” 的模块feed-forward 和 ConvNeXt中把 SwooshR 用在convolution 和 Conv-Embed 中其余的部分。 5. ScaledAdam 提出1个 Adam 优化器的 parameter-scale-invariant 版本称为 ScaledAdam可以加快模型收敛。 令  为我们想要优化的 loss 函数它对参数 是可导的。在每个步骤 Adam 计算参数梯度 并更新梯度的一阶动量  和二阶动量 此处, , 表示控制动量更新的系数。Adam 在步骤 t 的参数更新量为 通常由外部的 LR schedule 控制 为偏置纠正项。 •Scaling update 为了确保不同 scale 的参数的相对变化量  一致在参数更新量中引入参数的 scale来放缩更新量 •Learning parameter scale 从更新到对参数带来的变化为。 其中是学习率的缩放参数值为0.1时有助于稳定训练。 •Eden schedule Eden schedule的公式如下 其t为 stepe为 epoch,和 分别控制学习率在哪个 step 和 epoch 开始快速下降,表示1个线性 warmup起点为 经过 个 step 变为 1。表示当没有 warmup 的情况下学习率的最大值。 •Efficient implementation 为了加快 ScaledAdam 计算我们将参数根据 shape 分组按照 batch 进行参数更新。
http://www.hkea.cn/news/14363283/

相关文章:

  • 兖州网站制作wordpress子菜单位置
  • 如东建设网站怎么给网站做跳转
  • 青岛开发区网站建设网站构成的基本结构
  • 免费网站app哪个最好企业官网 源码 免费下载
  • 网站收缩目录模板成全视频免费观看在线看主演
  • 安徽国华建设工程项目管理有限公司网站学做网站书籍
  • 五个h5制作网站系统网站怎么做的
  • 买软件网站建设前端招聘去哪个网站
  • 青岛网站设计多少钱关于建设企业网站的请示
  • 本地电脑做视频网站 外网连接个人网站推广app
  • 哈尔滨网站备案手续费网站颜色搭配案例
  • google网站地图格式如何做自己的网站百度推广
  • 类似+wordpress+建站服务器维护教程
  • 网站建设陷阱如何规范网站使用
  • 十大免费ppt模板免费下载网站搜易网服务内容
  • 制作网站的模板长沙 汽车 网站建设
  • asp手机网站开发教程033340网站建设与管理
  • 餐饮设计网站怎么查一个网站做的外链
  • 徐州做网站多少钱网站内容编辑怎么做
  • 手机网站 等比缩放个人做网站可以盈利么
  • 网站建设完成确认函个人网站 logo 版权 备案 没用
  • 榆林电商网站建设品牌展示型网站有哪些
  • 展示网站呼市网站制作
  • wordpress文章字体样式wordpress系统加速优化
  • 网站首页改版费用佛山+网站建设
  • 空间手机版网站目录建设创建自己的博客网站
  • 巴中学校网站建设wordpress 采集微博
  • 无锡网站关键词优化软件咨询网站开发一月工资多少
  • 在线做网站黄建设官方网站的作用
  • 网站建设公司兴田德润在那里建设400官方网站