当前位置：首页 > news >正文

织梦如何做网站建网站的软件

news 2026/4/6 14:09:01

织梦如何做网站,建网站的软件,广州白云区防疫工作,新任上海市领导调整公示一、seq2seq任务特点：输入输出均为不定长的序列自回归语言模型： 由前面一个字预测下一个字的任务 encoder-decoder结构： Encoder-Decoder结构是一种基于神经网络完成seq2seq任务的常用方案 Encoder将输入转化为向量或矩阵，其…

一、seq2seq任务

特点：输入输出均为不定长的序列
自回归语言模型：
由前面一个字预测下一个字的任务
在这里插入图片描述

encoder-decoder结构：
Encoder-Decoder结构是一种基于神经网络完成seq2seq任务的常用方案
Encoder将输入转化为向量或矩阵，其中包含了输入中的信息
Decoder利用这些信息输出目标值

在这里，encoder的output和decoder每一个时间层的output拼接，用一个线性层和softmax激活函数计算权重（attention机制），再把权重张量和encoder的output点乘，把这个结果和decoder这个时间层的output拼接，再过一层gru和线性层得到下一个字的概率分布。
attention思想:
从decoder的query和encoder的key结合计算出权重（判断文本的重点），再作用在value上
在这里插入图片描述
soft attention:

hard attention:

teacher forcing:在预测下一个字时用输入decoder的正确的字来预测，这样做的问题是在预测时如果一个字错，后面会出现连环反应（就像在平时老师经常把正确答案给学生，在考试时学生答题效果不好）；如果用非teacher forcing，会出现在训练模型时，一个字错导致后面出现连环反应。

二、transformer

在这里插入图片描述
在encoder-decoder交互attention阶段，q矩阵由decoder提供，与encoder的output里的key计算出attention矩阵，然后作用在encoder提供的value矩阵上，再过残差机制曾和LN层（使模型更稳定，防止梯度爆炸和梯度消失）
mask attention:
将输入decoder的文本做一次attention，对输出的矩阵进行mask（因为预测的过程中预测下一个字的过程中我们看不到下一个字，所以前一个字对下一个字没有attention)
在这里插入图片描述