当前位置: 首页 > news >正文

成都市微信网站建设报价前端开发培训学费

成都市微信网站建设报价,前端开发培训学费,专业的网站制作公司哪家好,app制作器软件下载上一篇文章#xff0c;我们介绍了encoder#xff0c;这篇文章我们将要介绍decoder Transformer-encoder decoder结构#xff1a; 如果看过上一篇文章的同学#xff0c;肯定对decoder的结构不陌生#xff0c;从上面框中可以明显的看出#xff1a; 每个Decoder Block有两个…上一篇文章我们介绍了encoder这篇文章我们将要介绍decoder Transformer-encoder decoder结构 如果看过上一篇文章的同学肯定对decoder的结构不陌生从上面框中可以明显的看出 每个Decoder Block有两个Multi-Head Attention层 第一个Multi-Head Attention层采用了Masked操作所以叫多头掩码注意力模块 第二个Multi-Head Attention就是和encoder的一样不过他的K、V矩阵输入源来自Encoder的输出编码矩阵而Q矩阵是由多头掩码注意力层经过Add Norm层之后的输出计算来的 Add Norm和前面encoder的一样 feed forward它包含一个全连接层对输入特征进行非线性变换并产生输出。在训练过程中Feed Forward会根据损失函数的梯度进行参数更新以优化模型的性能。他的输入层参数和Embedding的维度一样。 Linear是一种简单的神经网络组件通常用于处理线性可分的问题。它包含一个全连接层和一个激活函数对输入进行线性变换并产生输出。与Feed Forward不同Linear在训练过程中不会根据损失函数的梯度进行参数更新因为它的输出取决于输入的线性组合。Linear的长度实际上就是你词向量的种类数量。 softMax把linear的输出做分类概率运算算出每种词向量的概率。 这里我们详细说一下多头掩码注意力模块其他的和encoder中都一样就不详细介绍了。 Masked Multi-Head Attention 在下面第9点介绍多头掩码注意力 在介绍之前我们先来说一下transformer的训练过程网上搜了很多没有找到谁具体讲过所以我就借助“文心一言”来进行了询问大概了解了这个过程但是不能保证正确如果有知道同学看到了欢迎给我留言。 先有encoder的输入“你好吗”也就是问题和decoder的输入“好的很”也就是答案。 把encoder的输入“你好吗”输入encoder中把“你好吗“转化为Embedding然后对Embedding添加position信息decoder也同理。 把添加了pos的Em做成6组QKV那么总共就是18个QKV然后每组都送入一个注意力模块总共有6组注意力模块这6组就称为多头注意力模块然后把这6组的输出经过一个conact和Linear具体可以看上一篇文章合并后输出这个输出就是注意力矩阵。 把注意力矩阵经过残差链接和归一化后放入一个Feed Forward中后再使用一次残差链接和归一化encoder的输出就有了。 接下来我们看decoder的输入在transformer的训练中我们使用的是Teacher Forcing方法我们是告诉了transformer正确的答案是什么的也就是“好得很”。 首先decoder会把encoder的输入做成QK然后放入一个多头注意力模块中接下来一直到Linear的操作和encoder的一样。 decoder中的Linear输入的方法和encoder的一样可以参考上篇文章最后不过linear的输出最后是使用了softmax做分类器。从下图可以看出Linear的输出是和你的词向量类别有关假设你的词向量类别有1w个那么这里就会输出1w的类别如下图然后使用softMax对着些输出做概率计算就可以算出概率最大的词向量是哪个softMax的计算可以参考我的BP神经网络大概方式类似于下面 假如现在经过softMax的运算后最大概率的字是好那么就把这个字和标准答案中的好得很对比一下如果不是好字那么就使用梯度下降法反向去更新两个Feed forward和所有的QKV更新完后回到decoder输入。 接下来把标准答案中的“好”直接输入到decoder的输入下面是带有掩码的多头注意力 经过EMpos还有QKV后我们把他输入了多头掩码注意力模块这里为什么要加个掩码呢掩码又是什么呢我们看下面这张图 我们需要把好字加入到”你好吗”的后面但是我们又不能让多头注意到“好”字后面“得很”所以我们就需要把后面的字给遮起来这个就是掩码。经过softMax的变化可以看到下图 比如“好”字后面的“得很”都是0说明好字只和前面的内容有关系则接下来就是“好”字的[0.37,0.62,0,0]作为多头掩码的输出也可以抽象的看成是把“好”拼在了“你好吗”的后面但是其实是“你好吗”作为QK,好作为V。 接下来就和上面的3一样一直到softMax做出预测如果是预测的不是“尼”就反向更新梯度下降如果是“尼”则把“好尼”送入多头掩码中然后把“好尼”拼在“你好吗”的后面。一直循环到softMax预测到结束标志。
http://www.hkea.cn/news/14493424/

相关文章:

  • 仿网站百度会怎么做网站开发成本主要有哪些
  • 泰安网站建设入门网站设计模板源码
  • 网站建设方案范文8篇云朵课堂网站开发怎么收费
  • 东营免费网站制作智能小程序是什么
  • 网站UI怎么做长春网站建设哪家专业
  • 服装行业网站建设比较好dw网页制作教程ppt
  • 长宁专业做网站网站专题制作
  • 孔夫子旧书网网站谁做的精选资料
  • 旅游加盟网站建设环保网站建设费用
  • 金华市有网站建设最低价wordpress登陆不上
  • 合肥网站建设排名网站查外链
  • 本溪兼职网站建设招聘区域信息网站怎么做
  • 保险网站 源码印刷设计营销网站
  • 网站做电商销售需要注册吗泉州那几个公司网站建设比较好
  • 施工企业会计核算办法2021网站优化软件破解版
  • 网站认证怎么用wordpress
  • 五 网站开发总体进度安排wordpress制作友情链接
  • 网站底部悬浮建设银行网站 诚聘英才 频道
  • 300网站建设58招聘网最新招聘信息
  • 建设工程规划许可证查询网站聊城网站推广品牌
  • 昆明贤邦网站建设1688电影网入口
  • 网站开发自学流程深圳公关公司
  • 做视频网站的方法wordpress怎么加入站长统计代码
  • 网站官网网站建设需要哪些设备
  • 西安网站 技术支持牛商网做网站需要美工吗
  • 专业做二手房的网站有哪些久久建筑网官网平台
  • 做个电商网站需要怎么做上海新站专家网络公司
  • 深圳网站优化软件做网站建设的公司排名
  • 高清素材网站无水印seop
  • 有哪些做微博长图网站注册网站邮箱格式怎么写