建外贸网站比较好的公司,手机网站模板用什么做,德清网站制作,微商推广1 背景
由于计算资源限制#xff0c;目前的LLM大多在较短的上下文长度中进行训练#xff0c;在推理中#xff0c;如果超出预训练的长度#xff0c;模型的性能将会显著降低 ——需要一个可提供外推性的位置编码最经典的绝对位置编码就是原始Transformer中的那个sinusoi…1 背景
由于计算资源限制目前的LLM大多在较短的上下文长度中进行训练在推理中如果超出预训练的长度模型的性能将会显著降低 ——需要一个可提供外推性的位置编码最经典的绝对位置编码就是原始Transformer中的那个sinusoidal位置编码了 2 RoPE
2.1 motivation
RoPE通过绝对位置编码实现相对位置编码 以实现有效外推我们现在有query词向量q对应的位置mkey词向量k对应的位置n 我们希望学一个词向量和位置信息结合的函数f【经典Transformer的f是用m,n计算sinusoidal位置编码然后将位置编码向量和q/k相加】经过f后得到的query向量和key向量都是位置感知的词向量RoPE希望之间的点积能够带有相对位置信息m-n 也就是希望存在另一个函数使得
2.2 RoPE的f函数
2.2.1 二维向量
对于二维词向量结论是 这里θ是一个常数此时
2.2.2 多维向量 在原始论文Roformer: Enhanced Transformer With Rotray Position Embedding中这里直接
所以有
上面的矩阵乘法等价于如下的实现方式