当前位置: 首页 > news >正文

安阳网站建设策划wordpress防护屏蔽国外ip

安阳网站建设策划,wordpress防护屏蔽国外ip,公众号链接转wordpress,专业seo网络推广一.文章概述 通常而言#xff0c;Seq2Seq解决方案一般都采用循环神经网络#xff0c;但在本文#xff0c;作者提出了基于卷积神经网络的解决方案ConvS2S。基于卷积神经网络的方案有两大优势#xff1a;计算并行化更高#xff0c;优化更容易#xff08;非线性的数量是固定…一.文章概述 通常而言Seq2Seq解决方案一般都采用循环神经网络但在本文作者提出了基于卷积神经网络的解决方案ConvS2S。基于卷积神经网络的方案有两大优势计算并行化更高优化更容易非线性的数量是固定的。 二.卷积框架 ConvS2S的框架如下图所示在对源语句English(上)进行编码后对4个德语目标词进行编码左下并计算并计算注意力。然后将注意力中右计算的条件输入添加到解码器状态再预测目标单词右下。 2.1 位置编码 给定输入序列 x ( x 1 , . . . , x m ) \mathbf{x} (x_1,...,x_m) x(x1​,...,xm​)其对应的嵌入表示为 w ( w 1 , … , w m ) \mathbf{w}\left(w_1, \ldots, w_m\right) w(w1​,…,wm​)其中 w j ∈ R f w_j \in \mathbb{R}^f wj​∈Rf。对于其嵌入表示作者加上了绝对位置即 e ( w 1 p 1 , … , w m p m ) \mathbf{e}\left(w_1p_1, \ldots, w_mp_m\right) e(w1​p1​,…,wm​pm​)。 2.2 卷积块结构 Encoder和Decoder都采用卷积块一维卷积非线性层。令Decoder第 l l l块的输出为 h l ( h 1 l , … , h n l ) \mathbf{h}^l\left(h_1^l, \ldots, h_n^l\right) hl(h1l​,…,hnl​)Encoder第 l l l块输出为 z l ( z 1 l , … , z m l ) \mathbf{z}^l\left(z_1^l, \ldots, z_m^l\right) zl(z1l​,…,zml​) 。给定输入 X ∈ R k × d X \in \mathbb{R}^{k \times d} X∈Rk×d 经过卷积神经网络的输出为 Y [ A B ] ∈ R 2 d Y[A B] \in \mathbb{R}^{2 d} Y[AB]∈R2d。对于非线性层作者采用的是门控线性单元即 v ( [ A B ] ) A ⊗ σ ( B ) v([A B])A \otimes \sigma(B) v([AB])A⊗σ(B) 其中 σ ( B ) \sigma(B) σ(B)控制着当前上下文中哪些输入 A A A是相关的。 此外为了能堆叠更深的卷积层作者使用了残差连接。 h i l v ( W l [ h i − k / 2 l − 1 , … , h i k / 2 l − 1 ] b w l ) h i l − 1 h_i^lv\left(W^l\left[h_{i-k / 2}^{l-1}, \ldots, h_{ik / 2}^{l-1}\right]b_w^l\right)h_i^{l-1} hil​v(Wl[hi−k/2l−1​,…,hik/2l−1​]bwl​)hil−1​ 为了避免decoder看到未来的信息作者在输入的左侧和右侧都pad k − 1 k-1 k−1个 0 0 0并删除了卷积输出末端的 k k k个元素。 h i l v ( W l [ h i − k / 2 l − 1 , … , h i k / 2 l − 1 ] b w l ) h i l − 1 h_i^lv\left(W^l\left[h_{i-k / 2}^{l-1}, \ldots, h_{ik / 2}^{l-1}\right]b_w^l\right)h_i^{l-1} hil​v(Wl[hi−k/2l−1​,…,hik/2l−1​]bwl​)hil−1​ 2.3 Multi-step Attention 对于每个decoder层作者引入了单独的注意力机制。作者组合当前解码器状态 h i l h_i^l hil​和先前的目标元素 g i g_i gi​来计算注意力 d i l W d l h i l b d l g i d_i^lW_d^l h_i^lb_d^lg_i dil​Wdl​hil​bdl​gi​ 对于解码层 l l l状态 i i i和源元素 j j j的注意力 a i j l a_{i j}^l aijl​是基于点积计算的 a i j l exp ⁡ ( d i l ⋅ z j u ) ∑ t 1 m exp ⁡ ( d i l ⋅ z t u ) a_{i j}^l\frac{\exp \left(d_i^l \cdot z_j^u\right)}{\sum_{t1}^m \exp \left(d_i^l \cdot z_t^u\right)} aijl​∑t1m​exp(dil​⋅ztu​)exp(dil​⋅zju​)​ 其中 z j u z_j^u zju​表示最后一个编码层的输出。当前解码曾的输入 c i l c_i^l cil​即为解码器输出和输入嵌入 e j e_j ej​的加权和 c i l ∑ j 1 m a i j l ( z j u e j ) c_i^l\sum_{j1}^m a_{i j}^l\left(z_j^ue_j\right) cil​j1∑m​aijl​(zju​ej​) 上述注意力的计算方法与传统的seq2seq中的注意力机制有点不太相同作者还添加了 e j e_j ej​其类似于键值存储网络其中键是 z j u z_j^u zju​ 值是 z j u e j z_j^ue_j zju​ej​。编码器的输出 z j u z_j^u zju​表示潜在的大输入上下文而 e j e_j ej​提供了特定输入元素的点信息其对预测比较有效。 2.4 正则化策略 通过缩放残差模块的输出和注意力以确保整个网络的方差不会发生剧烈变化。 对于残差块将残差块的输入和输出的总和乘以 0.5 \sqrt{0.5} 0.5 ​使总和的方差减半。 由注意力生成的条件输入 c i l c_i^l cil​是 m m m个向量的加权和作者通过乘以 m 1 / m m \sqrt{1 / m} m1/m ​来抵消方差的变化。
http://www.hkea.cn/news/14501594/

相关文章:

  • 全国学校网站建设即墨区城乡建设局网站官网
  • 获取网站访客信息网站怎么做微博认证
  • 网站想换个风格怎么做网站群 米拓
  • 优秀html5网站织梦如何做中英文网站
  • 网站备案现状网址
  • 建设网站企业排行外贸网站建设公司案例
  • 安庆市网站建设制作网站推广的阶段目标
  • 网站建设与网页设计从入门到精通 素材下载上海seo网站设计
  • 怎样建立自己网站视频四川城乡建设网网站
  • 常州的网站建设哪个网站可以做魔方图片
  • 教育培训 营销型网站系统太原建站模板
  • 南充公司网站建设网上哪里可以免费打广告
  • 黄页推广网站下载app营销策略模板
  • 杭州大型网站建设计算机网络实验 做网站的
  • 微信公众号商城网站开发网站建设和考核工作通知
  • 新乡哪里有做网站的建立网站时间
  • 做儿童网站事业单位网站建设算固定资产吗
  • 有道网站提交入口西安网站设计
  • 泉州网站建设定制网络销售怎么聊客户
  • iis网站伪静态手机上的免费销售网站建设
  • 微商如何引流与推广seo站内优化
  • 深圳建站公司招聘企业网站建设申请怎么写
  • 购物商城类网站备案WordPress页面模板功能不见了
  • 东胜区教育网站入口网站怎么做vga头
  • 邯郸网站seo平台推广方案模板
  • 关注建设银行网站wordpress加密修改密码
  • zedu小语种网站建设wordpress 开发指南
  • mysql做wp网站wordpress改变访问目录结构
  • 小网站搜什么关键词好wordpress 招聘网站
  • 濮阳门户网站开发搜索推广策略制定