当前位置: 首页 > news >正文

梅州专业网站建设教程推广平台有哪些

梅州专业网站建设教程,推广平台有哪些,传统建筑网站,个人网站制作的主要内容以下用形状来描述矩阵。对于向量,为了方便理解,也写成了类似(1,64)这种形状的表示形式,这个你理解为64维的向量即可。下面讲的矩阵相乘都是默认的叉乘。 词嵌入矩阵形状:以BERT_BASE为例,我们知道其有12层Encoder&…

以下用形状来描述矩阵。对于向量,为了方便理解,也写成了类似(1,64)这种形状的表示形式,这个你理解为64维的向量即可。下面讲的矩阵相乘都是默认的叉乘。
词嵌入矩阵形状:以BERT_BASE为例,我们知道其有12层Encoder,12个Head。对于中文版的BERT_BASE来说,词嵌入矩阵的形状为(21128,768),其中21128就是词典的大小,768是词典中的每个字对应的维度。
需要注意的是这个维度其实可以是其他值,只不过官方恰巧给的是768=64×12(12个head,每个head是64维),对于Transformer的Encoder来说,这个维度是512,这个时候512≠64×6(6个head,每个head为64维)。一般来说Encoder层数越多,该词向量维度也应该越大,毕竟整个网络参数数量增大之后,有能力学习更多维度的信息。
词向量维度:然后我们知道,每个位置x的输入其实一开始是一个序数,通过这个序数便可以在上述词嵌入矩阵中查找到相应的词向量,每个位置x的词向量维度为(1,768)。对于整个BERT序列来说,其序列长度为512,所以BERT序列的形状为(512,768)。
Q、K、V向量的维度:这个是论文中固定的,维度都是(1,64)。而由词向量x到Q、K、V向量是分别乘以一个权重矩阵(Wq、Wk、Wv)得到的,所以权重矩阵的形状为(768,64)。上述都是一个head的情况,扩展到12个head,那么整个权重矩阵的形状就变成了(768,768)。这样词向量x和这个权重矩阵相乘后得到维度为(1,768)维度的向量,然后经过切分在单个head上为(1,64)维度的向量。
注意力计算后的维度:注意力的计算如下,这里盗个图,链接为:
https://zhuanlan.zhihu.com/p/48508221
在这里插入图片描述
可知Q向量(1,64)和K的转置(64,1)相乘后其实就变成了一个数,该数再和V向量进行数乘得到的z向量,维度和V一样,为(1,64)。多个head中的z向量进行拼接得到(1,768)维的Z’向量。Z’向量再乘以一个转换矩阵Wo(768,768)得到最终的Z向量(1,768)。
需要注意的是,上述图中的Q、K、V向量均有两个,最终得到两个z向量。并且这里公式没有考虑掩码的情况,但是掩码并不影响矩阵的形状。
前馈神经网络(FFNN)的形状:前馈神经网络用一句话概括就是对于多头注意力的输出先进行线性变化,然后经过激活函数之后再进行线性变换。前馈神经网络的维度为3072,由于单个时刻多头注意力的输出维度为(1,768),第一个线性变换的矩阵形状为(768,3072),第二个线性变换矩阵的形状为(3072,768)。

http://www.hkea.cn/news/968573/

相关文章:

  • 线上做交互的网站百度app下载
  • 做暖暖欧美网站挖掘爱站网
  • 网站 风格百度推广公司
  • 林州网站建设公司站长工具关键词排名怎么查
  • 想给公司做个网站微信seo是什么意思
  • 网站做管制户外刀具营销推广方案模板
  • 淘宝客网站免费做seo网站关键词优化机构
  • 企业做网站建设的好处seo网站关键词优化
  • 一般网站用什么做的最新新闻国内大事件
  • 做线上网站需要钱吗互联网营销推广
  • 找个美工做淘宝网站需要多少钱南昌seo方案
  • 网站用户登录流程图外贸高端网站设计公司
  • 做搜狗手机网站优化软代写
  • wordpress页面背景颜色win7优化设置
  • 做分类信息网站代码百度搜索推广优化师工作内容
  • 南京网站开发公司关键词推广
  • 合水口网站建设百度指数明星人气榜
  • 上传网站图片处理推广软件免费
  • 做网站怎么写代码下载百度软件
  • 县城做网站网站搭建关键词排名
  • b2b多平台一键发布seo需要掌握哪些技术
  • 网站建设推广合同网络广告联盟
  • 汽车网站正在建设中模板什么是营销模式
  • 宜昌seo百度seo优化
  • 做网站公司q房网seo快速排名站外流量推广
  • 南宁网站排名优化广州发布紧急通知
  • 网站建设的策划方案seo排名
  • 网站模板绑定域名培训班
  • coupang入驻条件2022台州关键词优化报价
  • 网站建设前景怎么样google优化师