无锡网站建设详细内容,网络服务器配置与管理考试题,实时热搜,爱站长创作不易#xff0c;免费的赞
前面有介绍了GPT2如何进行token化的过程#xff0c;现在讲下transformer的Embedding层
Embedding层就是一个巨大的矩阵#xff0c;边长分别是词汇表长度和词向量维度#xff0c;矩阵里面的每一个数字都是一个随机初始化的#xff0c;或者是…创作不易免费的赞
前面有介绍了GPT2如何进行token化的过程现在讲下transformer的Embedding层
Embedding层就是一个巨大的矩阵边长分别是词汇表长度和词向量维度矩阵里面的每一个数字都是一个随机初始化的或者是其他地方经过训练之后拿过来的。在transformer训练过程中这些每个token的维度浮点数会发生改变。
在训练的过程中假设我们窗口为50个token意思就是我们生成下一个词的时候只使用前面50个词去预测下个词就算前面继续有词我也不会应用那么就变成下图。但是当本来就没有50个词的时候怎么办那么需要填充字符可以是任意字符反正你就当成是个填充码这里使用的是PADPAD在token当中也是存在的你甚至自己定义一个token如notoken!都可以。
为什么需要填充满50个字符不满就不满感觉也什么问题啊
这是因为如果限定成50个那么在使用显卡的训练的时候速度就可以快很多没有的话也可以。 上图这个矩阵就是输入到下一个层级的矩阵下一层就是添加位置编码本系列中也已经有章节介绍。