当前位置: 首页 > news >正文

广州工商学院门户网站网络营销的三种方式

广州工商学院门户网站,网络营销的三种方式,现在企业做网站用什么软件,福州百度网站快速优化一.文章概述 通常而言#xff0c;Seq2Seq解决方案一般都采用循环神经网络#xff0c;但在本文#xff0c;作者提出了基于卷积神经网络的解决方案ConvS2S。基于卷积神经网络的方案有两大优势#xff1a;计算并行化更高#xff0c;优化更容易#xff08;非线性的数量是固定…一.文章概述 通常而言Seq2Seq解决方案一般都采用循环神经网络但在本文作者提出了基于卷积神经网络的解决方案ConvS2S。基于卷积神经网络的方案有两大优势计算并行化更高优化更容易非线性的数量是固定的。 二.卷积框架 ConvS2S的框架如下图所示在对源语句English(上)进行编码后对4个德语目标词进行编码左下并计算并计算注意力。然后将注意力中右计算的条件输入添加到解码器状态再预测目标单词右下。 2.1 位置编码 给定输入序列 x ( x 1 , . . . , x m ) \mathbf{x} (x_1,...,x_m) x(x1​,...,xm​)其对应的嵌入表示为 w ( w 1 , … , w m ) \mathbf{w}\left(w_1, \ldots, w_m\right) w(w1​,…,wm​)其中 w j ∈ R f w_j \in \mathbb{R}^f wj​∈Rf。对于其嵌入表示作者加上了绝对位置即 e ( w 1 p 1 , … , w m p m ) \mathbf{e}\left(w_1p_1, \ldots, w_mp_m\right) e(w1​p1​,…,wm​pm​)。 2.2 卷积块结构 Encoder和Decoder都采用卷积块一维卷积非线性层。令Decoder第 l l l块的输出为 h l ( h 1 l , … , h n l ) \mathbf{h}^l\left(h_1^l, \ldots, h_n^l\right) hl(h1l​,…,hnl​)Encoder第 l l l块输出为 z l ( z 1 l , … , z m l ) \mathbf{z}^l\left(z_1^l, \ldots, z_m^l\right) zl(z1l​,…,zml​) 。给定输入 X ∈ R k × d X \in \mathbb{R}^{k \times d} X∈Rk×d 经过卷积神经网络的输出为 Y [ A B ] ∈ R 2 d Y[A B] \in \mathbb{R}^{2 d} Y[AB]∈R2d。对于非线性层作者采用的是门控线性单元即 v ( [ A B ] ) A ⊗ σ ( B ) v([A B])A \otimes \sigma(B) v([AB])A⊗σ(B) 其中 σ ( B ) \sigma(B) σ(B)控制着当前上下文中哪些输入 A A A是相关的。 此外为了能堆叠更深的卷积层作者使用了残差连接。 h i l v ( W l [ h i − k / 2 l − 1 , … , h i k / 2 l − 1 ] b w l ) h i l − 1 h_i^lv\left(W^l\left[h_{i-k / 2}^{l-1}, \ldots, h_{ik / 2}^{l-1}\right]b_w^l\right)h_i^{l-1} hil​v(Wl[hi−k/2l−1​,…,hik/2l−1​]bwl​)hil−1​ 为了避免decoder看到未来的信息作者在输入的左侧和右侧都pad k − 1 k-1 k−1个 0 0 0并删除了卷积输出末端的 k k k个元素。 h i l v ( W l [ h i − k / 2 l − 1 , … , h i k / 2 l − 1 ] b w l ) h i l − 1 h_i^lv\left(W^l\left[h_{i-k / 2}^{l-1}, \ldots, h_{ik / 2}^{l-1}\right]b_w^l\right)h_i^{l-1} hil​v(Wl[hi−k/2l−1​,…,hik/2l−1​]bwl​)hil−1​ 2.3 Multi-step Attention 对于每个decoder层作者引入了单独的注意力机制。作者组合当前解码器状态 h i l h_i^l hil​和先前的目标元素 g i g_i gi​来计算注意力 d i l W d l h i l b d l g i d_i^lW_d^l h_i^lb_d^lg_i dil​Wdl​hil​bdl​gi​ 对于解码层 l l l状态 i i i和源元素 j j j的注意力 a i j l a_{i j}^l aijl​是基于点积计算的 a i j l exp ⁡ ( d i l ⋅ z j u ) ∑ t 1 m exp ⁡ ( d i l ⋅ z t u ) a_{i j}^l\frac{\exp \left(d_i^l \cdot z_j^u\right)}{\sum_{t1}^m \exp \left(d_i^l \cdot z_t^u\right)} aijl​∑t1m​exp(dil​⋅ztu​)exp(dil​⋅zju​)​ 其中 z j u z_j^u zju​表示最后一个编码层的输出。当前解码曾的输入 c i l c_i^l cil​即为解码器输出和输入嵌入 e j e_j ej​的加权和 c i l ∑ j 1 m a i j l ( z j u e j ) c_i^l\sum_{j1}^m a_{i j}^l\left(z_j^ue_j\right) cil​j1∑m​aijl​(zju​ej​) 上述注意力的计算方法与传统的seq2seq中的注意力机制有点不太相同作者还添加了 e j e_j ej​其类似于键值存储网络其中键是 z j u z_j^u zju​ 值是 z j u e j z_j^ue_j zju​ej​。编码器的输出 z j u z_j^u zju​表示潜在的大输入上下文而 e j e_j ej​提供了特定输入元素的点信息其对预测比较有效。 2.4 正则化策略 通过缩放残差模块的输出和注意力以确保整个网络的方差不会发生剧烈变化。 对于残差块将残差块的输入和输出的总和乘以 0.5 \sqrt{0.5} 0.5 ​使总和的方差减半。 由注意力生成的条件输入 c i l c_i^l cil​是 m m m个向量的加权和作者通过乘以 m 1 / m m \sqrt{1 / m} m1/m ​来抵消方差的变化。
http://www.hkea.cn/news/14519942/

相关文章:

  • 怎么做公司的网站宣传百度seo关键词
  • 做网站推广要注意什么成都市建筑设计研究院
  • 大同住房和城乡建设网站广州模板网站建设价格
  • 网络宣传广告费多少网站优化建设公司
  • 深圳龙岗网站维护seo外贸网站制作
  • 有域名有空间如何做网站顺企网怎么样
  • 广东网站建设十大品牌网站改版后的内容
  • 建立公司网站多少钱雄县做网站的
  • 勒流顺德网站建设淘宝seo推广优化
  • 网站平台开发报价表怎么做wordpress add_menu_page
  • 东莞专业做淘宝网站网站制作在哪找
  • 郴州市网站建设公司山东最新新闻事件今天
  • 做洁净的网站h5设计平台
  • 网站制作培训多少钱无锡网络公司找哪家
  • 湖南省建设银行网站官网什么是网站模板
  • 做网站做外贸那里发广告网站
  • 建设网站需要什么东西sdk广告平台
  • 奎屯建设局网站广州app开发公司地址
  • 北京市地铁建设公司网站wap建站程序哪个好
  • 网站权重一般有几个等级录音录像手表网站
  • 做网站的属于什么行业怎么做家教网站
  • 网站排名如何上升个人怎么做贷款网站
  • 广州市公司网站建设报价网站流量统计分析的维度包括
  • 找人建设一个网站多少钱国际新闻最新消息今天新闻
  • 绵阳网站的建设吉林省建设局网站
  • 江阴网站制作网站开发公司有什么福利
  • 交互设计网站推荐山西网站开发培训
  • 建设部网站打不开宁波品牌网站推广优化公司
  • 南通哪里做网站成都德阳网站建设
  • 哪家建设网站中文小说网站建设与维护