当前位置: 首页 > news >正文

wordpress 知名站点湖北网站建设公司哪家好

wordpress 知名站点,湖北网站建设公司哪家好,昆山市住房和城乡建设网站,宁波网络营销咨询自学参考#xff1a; Transformer:Attention Is All You Need Transformer论文逐段精读 视频课 课件资料 笔记 一、引入 seq2seq#xff1a;输入一个序列的向量作为input#xff0c;output的长度由机器自己决定seq2seq model应用: 语音辨识 输入是声音讯号的一串vector 输出… 自学参考 Transformer:Attention Is All You Need Transformer论文逐段精读 视频课 课件资料 笔记 一、引入 seq2seq输入一个序列的向量作为inputoutput的长度由机器自己决定seq2seq model应用: 语音辨识 输入是声音讯号的一串vector 输出是语音辨识结果即声音讯号对应的文字输出长度由机器自行决定 机器翻译 输入一种语言的句子长度为N 输出另一种语言的句子长度为N’N和N’之间的关系由机器自行决定 语音翻译 输入一种语言的语音 输出另一种语言的文字 不能用以上两种简单拼接因为很多语言并没有对应的文字例如一些方言 语音合成Text-to-Speech (TTS) Synthesis 输入文字 输出声音讯号 聊天机器人Chatbot 输入和输出都是文字利用人的对话进行train 问答系统Question Answering (QA) 输入和输出都是文字序列 许多nlp任务都可以解读为QA任务例如翻译、摘要、情感分析。而QA问题就可以用seq2seq model来解决 语法分析Syntactic Parsing 树状结构也可以视为一个sequence从这个角度切入语法分析问题也可以视为 输入一个语句 输出一个代表语法分析树的序列 多标签分类multi-label classification multi-class classification:从多个class里为样本选某一个classmulti-label classification:同一个样本可属于多个class 实体检测Object Detection 二、 seq2seq’s model Encoder Decoder encoder 输入一排向量序列 输出另一排同样长度的向量序列 可使用self-attention、RNN、CNN 进一步分析,每个block都包含若干层(例如下图中是self-attentionFC) 每个block输入一排向量,输出一排向量 在transformer中 在送入block前要先进行positional encoding 每个block中的架构为 multi self-attentionresidual connection把这个vector加上其input作为output(残差网络)layer normalization对同一个feature同一个example不同的dimension计算mean和standard deviation 区别batch normalization:是对不同example,不同feature的同一个dimension,计算mean跟standard deviation FC network也有residual架构把residual结果再做一次layer normalization得到的输出才是residual network里一个block的输出 decoder 以Autoregressive Decoder为主AT 向decoder输入encoder产生的向量 在decoder可能产生的文字里多加一个特殊字符BEGINBOSbegin of sentence。在nlp问题中每个token用一个one-hot的vector来表示其中一维是1其他全0而BEGIN也用one-hot vector表示 decoder输出的一个向量长度和vocabulary size取决于输出的单位。本例中输出中文则size是中文方块字的数目一样。在产生这个向量前跑一个softmax分数最高的一个中文字即为最终的输出 把“机”作为decoder新的input原来decoder的输入有BEGIN和“机” 根据这两个输入输出一个蓝色的向量 根据这个蓝色的向量里给每一个中文的字的分数来决定第二个输出再作为输入继续输出后续的字以此类推…… decoder会把自己的输出作为接下来的输入之一当decoder看到错误的输入再被decoder自己吃进去可能会造成error propagation,一步错步步错 ⇒解决teacher forcing技术 机器自行决定输出的长度特别符号ENDEOS 在transformer中除了中间部分encoder和decoder没有太大的差别。最后部分可能会再做一个softmax使得它的输出变成一个概率分布 Masked self-attention:产生输出时不能再看”右边“的部分 ⇒因为实际上就是顺次产生的 Non-autoregressive (NAT) NAT不是依次产生而是一次吃的是一整排的 BEGIN 的 Token把整个句子一次性都产生出来 问题如何确定BEGIN的个数 方法① 另外训练一个 Classifier,吃 Encoder 的 Input,输出是一个数字,代表 Decoder 应该要输出的长度,方法②给它一堆 BEGIN 的 Token,比如输出的句子的最大长度长度,不超过 300,给它 300 个 BEGIN,然后就会输出 300 个字。什麼地方输出 END表示这个句子结束。 NAT的好处 并行化。NAT 的 Decoder 不管句子的长度如何,都是一个步骤就产生出完整的句子,所以在速度上,NAT 的 Decoder 比AT 的 Decoder 要快,容易控制输出长度。 常用在语音合成有一个 Classifier决定 NAT 的 Decoder 应该输出的长度,并以此调整语音的速度。比如要让你的系统讲快一点,那你就把那个 Classifier 的 Output 除以二,它讲话速度就变两倍快如果你想要这个讲话放慢速度,就把Classifier 输出的长度乘两倍。 但是虽然表面上看起来有种种的厉害之处,尤其是平行化是它最大的优势,但是 NAT 的 Decoder ,它的 Performance,往往都不如 AT 的 Decoder。 ⇒ Multi-Modality Encoder-Decoder之间的信息传递CrossAttention 有两个输入来自EncoderEncoder 提供两个箭头 Decoder 提供了一个箭头 Encoder输入一排向量,输出一排向量 a 1 , a 2 , a 3 a^1,a^2,a^3 a1,a2,a3经过transform产生 Key1 Key2 Key3 k 1 , k 2 , k 3 k^1,k^2,k^3 k1,k2,k3)以及 v 1 , v 2 , v 3 v^1,v^2,v^3 v1,v2,v3. Decoder 会先吃 BEGIN,得到一个向量,输入多少长度的向量,输出就是多少向量。乘上一个矩阵做一个 Transform,得到一个 Query 叫做 q q q 利用q,k计算attention的分数并做Normalization得到 α 1 ′ , α 2 ′ , α 3 ′ , \alpha_1,\alpha_2,\alpha_3, α1′​,α2′​,α3′​, α 1 ′ , α 2 ′ , α 3 ′ , \alpha_1,\alpha_2,\alpha_3, α1′​,α2′​,α3′​,与 v 1 , v 2 , v 3 v^1,v^2,v^3 v1,v2,v3做weighted sum加权求和得到 v v v. v v v丢进Fully-Connected 的Network做接下来的任务。 总之Decoder 就是产生一个 q q q,去 Encoder 抽取信息出来,当做接下来的 Decoder 的Fully-Connected 的 Network 的 Input 其中Decoder可以看Encoder中的许多层而不一定只是最后一层。 training 以语音辨识为例 训练数据一段音频与对应的文字文字为one-hot编码的向量 训练过程Decoder输出的是概率分布。可以通过输出的概率分布与Ground Truth之间的计算交叉熵Cross Entropy并求梯度实现优化交叉熵的值越小越好。 在训练Decoder时会输入“正确答案”而不是自己产生的答案 ⇒Teacher Forcing (但测试的时候,显然没有正确答案可以给 Decoder 看) 三、Tips (for seq2seq model) Copy Mechanism decoder没必要自行创造输出它要做的事也许是从输入的东东里复制一些出来而非创造词汇 chatbot 摘要 Guided Attention 有时seq2seq model训练会产生奇怪的结果比如漏字没看到 ⇒强迫机器一定要把输入的东西全看过如TTS强迫attention要用某种方式 例如对语音合成或者是语音辨识来说,我们想像中的 Attention,应该就是由左向右 束搜索 -beam search 四、评测标准Optimizing Evaluation Metrics BLEU Score 是 Decoder产生一个完整的句子以后再去跟正确的答案一整句做比较。但是在训练时是对每一个生成的token进行优化使用的指标是交叉熵。 换言之训练的时候,是看 Cross Entropy,但是我们实际上你作业真正评估的时候,看的是 BLEU Score 不能把BLEU作为LOSS⇒无法微分。 解决办法遇到你在 Optimization 无法解决的问题,用 RL 硬 Train 一发。遇到你无法 Optimize 的 Loss Function,把它当做是 RL 的 Reward,把你的 Decoder 当做是 Agent。 Scheduled Sampling 由于Teacher Forcing的存在训练跟测试的情景是不一致。Decoder 在训练的时候,永远只看过正确的东西,那在测试的时候,只要有一个错,那就会一步错 步步错。 解决给 Decoder 的输入加一些错误的东西⇒Scheduled Sampling。 问题会损害平行化的能力。
http://www.hkea.cn/news/14548823/

相关文章:

  • 淘宝网站怎么做会话保持的免费建站有哪些
  • cdr做网站流程阿里巴巴logo含义
  • 成都微信网站建设公wordpress用户文档
  • 外贸网番禺网站 优化
  • php做听歌网站点击进入公众号
  • 一个空间放多个网站网站目录层级建设
  • 怎吗做网站挣钱西安做网站程序
  • 泰州公司做网站微企帮做网站
  • 开发一个app需要哪些技术网站seo文章该怎么写
  • 长治一般建一个网站需要多少钱有哪些好的做网站
  • 网站建设可行性实施报告编程做网站容易还是做软件
  • 中国网站建设公司百强网站开发学历要求
  • dns网站卫士 收录网站开发设计需要什么证书
  • dw网站建设流程asp网站伪静态文件下载
  • 自己免费怎么制作网站快速开发app
  • 网站制作软件手机版下载创办网页
  • 苏州网站建设推广wordpress多域名更改
  • 杭州seo网站优化中国室内设计联盟网站
  • 网站外链快速建设asp网站制作
  • 南城仿做网站推进乡村振兴 加快建设农业强国
  • 网站架构包含哪几个部分wordpress 503错误
  • 西安移动网站建设长春作网站建设的公司
  • 支付网站模板中企动力公司官网
  • 推荐小蚁人网站建设wordpress树形导航注册
  • iis7 网站权限设置工业互联网平台系统
  • 论坛门户网站建设怎么创作一个微信小程序
  • 百度网址大全网站换空间网站备案
  • 郑州推广网站网络营销的机遇和挑战
  • 设计配色推荐的网站wow313做宏的网站
  • 田贝网站建设嘉定建设机械网站