当前位置: 首页 > news >正文

服务器除了做网站还能做什么廊坊seo关键词排名

服务器除了做网站还能做什么,廊坊seo关键词排名,网店推广的目的,河南建网站这是ICLR2023的一篇world model论文,用transformer来做世界模型的sequence prediction。文章贡献是transformer-based world model(不同于以往的如transdreamer的world model,本文的transformer-based world model在inference 的时候可以丢掉…

在这里插入图片描述

  • 这是ICLR2023的一篇world model论文,用transformer来做世界模型的sequence prediction。
  • 文章贡献是transformer-based world model(不同于以往的如transdreamer的world model,本文的transformer-based world model在inference 的时候可以丢掉)两个损失,一个采样策略。

WM

  • TWM用的仍然是经典的world model框架:
    • encoder-decoder用的是VAE,不过输入是四帧而不是一帧
    • dynamic model用过去 l l l 步的 z z z a a a r r r 和当前的 z z z a a a作为输入,用transformer预测 h t h_t ht,再用 h t h_t ht预测 r t r_t rt γ t \gamma_t γt z t + 1 z_{t+1} zt+1,如下:
      在这里插入图片描述
    • 上面的三个 p p p都是MLP, f f f是transformerXL, 3 l − 1 3l-1 3l1个token输入,预测一个token:
      在这里插入图片描述
    • z,r,gamma的MLP的输出分别是:a vector of independent categorical distributions, a normal distribution,
      and a Bernoulli distribution
  • 提的两个损失,一个是如下的encoder-decoder的损失,由三项组成,第一项是VAE的损失,第二项是对z的熵损失,第三项是与sequence model的一致损失:
    在这里插入图片描述
  • 第二个损失是用来train sequence model的,第一项其实跟上一个损失的第三项一样,但是上一个损失是train VAE的,这个损失是train sequence model的;第二项第三项不用说,就是正常的reward和discount的损失:
    在这里插入图片描述
  • 相比LSTM GRU之类模型,transformer的好处在于长序列建模,sequence model总是能看到过去 l l l步发生的确切的事情,而非仅能观察到一个压缩的状态 h t h_t ht

RL

  • 这里可以看到,dreamerv3等模型预测的是奖励 r t r_t rt 和terminate d t d_t dt,但是TWM预测的是discount factor γ \gamma γ,在这里就可以派上用场了,预测的 γ \gamma γ用来train RL模型(而其他的WM,RL模型的 γ \gamma γ用的是固定值)。那么训练的时候 γ \gamma γ怎么监督呢,文章定义的label是 γ t = 0 \gamma_t=0 γt=0 γ t = γ \gamma_t=\gamma γt=γ,即当terminate的时候 γ = 0 \gamma=0 γ=0而其他时候 γ \gamma γ是固定值,label是这样,而模型应该会灵活预测?不知道
  • 这里有一些新的损失,比如对策略的熵的损失,不能低于一个阈值:
    在这里插入图片描述
  • 这里还要关注的是policy model的输入,一般policy model的输入是 z t z_t zt h t h_t ht的concate,如dreamerv3和STORM,文章试了发现decoder的输出也可以(IRIS就这么干的), o t o_t ot也可以,本文用的是 z t z_t zt,比较轻量快速,只需要encoder而不需要sequence model。并且,训练的时候用的是sequence model预测的zt,而测试的时候则用的是encoder编码的zt加上frame stacking操作(这里有点疑问,维度?)
  • train的时候还是常规的三步走:用RL model采样,train world model,用world model train RL model。
  • training的时候有个sampling的stategy,如下, 是为了让模型更关注后面采样得到的sample,但vt的公式也没给,之说是incremented every time an entry is sampled:
    在这里插入图片描述
http://www.hkea.cn/news/13108/

相关文章:

  • 做文化传播公司网站推广平台有哪些
  • 南同网站建设百度一下首页版
  • dw做链接网站无法显示该页面武汉网站推广公司排名
  • 内网网站搭建教程环球军事网最新消息
  • 做营销网站建设挣钱吗软文营销策划方案
  • 国内做香港视频网站有哪些贵阳网络推广排名
  • 第三方做公司网站推广平台网站热狗网
  • 网站制作图片插入代码关键词优化靠谱推荐
  • 四川万景建设工程有限公司网站天眼查企业查询
  • 网站建设 长摊 无形资产必应bing搜索引擎
  • 西安域名注册网站建设柏乡seo快排优化
  • 有没有做奥数题的网站班级优化大师官网登录
  • 合肥专业做网站的百度站长社区
  • 网站源码 正在建设中app推广30元一单平台
  • 法律顾问 网站 源码关键词挖掘ppt
  • 广东哪家网站建设哪家公司好百度小说搜索风云排行榜
  • app软件怎么开发优化工具箱下载
  • 网站做竞价需要什么信息业务推广方式有哪些
  • wordpress网站和微信公众号爱站关键词查询
  • 把网站制作成app网页设计模板素材图片
  • 坪山区住房和建设局网站五种营销工具
  • 动漫网站开发需求分析线上推广平台都有哪些
  • 安徽优化开发区福州搜索引擎优化公司
  • 个性flash网站1+x网店运营推广
  • 网站上怎么做动画广告网站推广教程
  • 做医疗的网站html网页制作模板
  • wordpress站点登陆重庆搜索引擎seo
  • 天津市企业网站设计公司二十条优化措施
  • 邯郸网站建设渠道网站网页设计
  • 深圳网站建设61916新冠疫情最新数据