当前位置: 首页 > news >正文

想做个网站找谁做专业设计素材网站

想做个网站找谁做,专业设计素材网站,优秀的网站首页,网站流量统计CoRL 2023 Oral paper code Intro 算法基于TD-MPC#xff0c;利用离线数据训练世界模型#xff0c;然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。 Method TD-MPC TD-MPC由五部分构成: 状态特征提取 z h θ ( s ) …CoRL 2023 Oral paper code Intro 算法基于TD-MPC利用离线数据训练世界模型然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。 Method TD-MPC TD-MPC由五部分构成: 状态特征提取 z h θ ( s ) z h_\theta(s) zhθ​(s)隐动力学模型 z ′ ‘ d θ ( z , a ) zd_\theta(z,a) z′‘dθ​(z,a)奖励模型 r ^ R θ ( z , a ) \hat{r}R_\theta(z,a) r^Rθ​(z,a)planning policy a ^ π θ ( z ) \hat{a}\pi_\theta(z) a^πθ​(z)终止状态下的 q ^ Q θ ( z , a ) \hat{q}Q_\theta(z,a) q^​Qθ​(z,a) 通过联合训练进行优化损失函数为 L ( θ ) E ( s , a , r , s ′ ) 0 : h ∼ B ⌊ ∑ t 0 h ( ∥ z t ′ − s g ( h ϕ ( s t ′ ) ) ∥ 2 2 ⏟ Latent dynamics ∥ r ^ t − r t ∥ 2 2 ⏟ Reward ∥ q ^ t − q t ∥ 2 2 ⏟ Value − Q θ ( z t , a ^ t ) ⏟ Action ) ⌋ ( 1 ) \mathcal{L}(\theta)\mathbb{E}_{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})_{0:h}\sim\mathcal{B}}\left\lfloor\sum_{t0}^{h}\left(\underbrace{\|\mathbf{z}_{t}^{\prime}-\mathrm{sg}(h_{\phi}(\mathbf{s}_{t}^{\prime}))\|_{2}^{2}}_{\text{Latent dynamics}}\underbrace{\|\hat{r}_{t}-r_{t}\|_{2}^{2}}_{\text{Reward}}\underbrace{\|\hat{q}_{t}-q_{t}\|_{2}^{2}}_{\text{Value}}-\underbrace{Q_{\theta}(\mathbf{z}_{t},\hat{\mathbf{a}}_{t})}_{\text{Action}}\right)\right\rfloor(1) L(θ)E(s,a,r,s′)0:h​∼B​ ​t0∑h​ ​Latent dynamics ∥zt′​−sg(hϕ​(st′​))∥22​​​Reward ∥r^t​−rt​∥22​​​Value ∥q^​t​−qt​∥22​​​−Action Qθ​(zt​,a^t​)​​ ​ ​(1) 在Offline 设定下分布偏移将导致Q估计以及隐模型以及价值函数的错误估计。启发于IQL通过只对in-sample的动作尽心TD-backups来估计缓解过估计问题。因此对模型价值函数利用离线数据进行训练时此时Q函数采用IQL中的期望回归方法优化 L V ( θ ) ∣ τ − 1 { Q ϕ ( z t , a t ) − V θ ( z t ) 0 } ∣ ( Q ϕ ( z t , a t ) − V θ ( z t ) ) 2 , \mathcal{L}_{V}(\theta)|\tau-1_{\{Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t})0\}}|(Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t}))^{2}, LV​(θ)∣τ−1{Qϕ​(zt​,at​)−Vθ​(zt​)0}​∣(Qϕ​(zt​,at​)−Vθ​(zt​))2, 同时对planning policy采用AWR的更新即 exp ⁡ ( β ( Q ϕ ( z t , a t ) − V θ ( z t ^ ) ) ) log ⁡ π θ ( a t ∣ z t ) \exp(\beta(Q_\phi(\mathbf{z}_t,\mathbf{a}_t)-V_\theta(\hat{\mathbf{z}_t})))\log\pi_\theta(\mathbf{a}_t|\mathbf{z}_t) exp(β(Qϕ​(zt​,at​)−Vθ​(zt​^​)))logπθ​(at​∣zt​) Uncertainty Estimation as Test-Time Behavior Regularizatio 离线训练的模型依旧存在OOD数据过估计需要在线微调。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。planning一定程度缓解基于约束的离线算法导致的在现阶段探索能力不足。进而导致算法样本效率低的问题。 首先构建集成Q函数模型计算基于标准差的不确信度作为惩罚项对奖励进行调整实现保守的在线planning。 R ^ γ h ( Q θ ( z h , a h ) − λ u h ) ∑ t 0 h − 1 γ t ( R θ ( z t , a t ) − λ u t ) , u t s t d ( { Q θ ( i ) ( z t , a t ) } i 1 N ) \hat{\mathcal{R}}\gamma^{h}\left(Q_{\theta}(\mathbf{z}_{h},\mathbf{a}_{h})-\lambda u_{h}\right)\sum_{t0}^{h-1}\gamma^{t}\left(R_{\theta}(\mathbf{z}_{t},\mathbf{a}_{t})-\lambda u_{t}\right),\quad u_{t}\mathrm{std}\left(\{Q_{\theta}^{(i)}(\mathbf{z}_{t},\mathbf{a}_{t})\}_{i1}^{N}\right) R^γh(Qθ​(zh​,ah​)−λuh​)t0∑h−1​γt(Rθ​(zt​,at​)−λut​),ut​std({Qθ(i)​(zt​,at​)}i1N​) 除此外还维护两个buffer分别存储离线数据于在线数据通过balance sampling数据训练模型、策略以及价值函数。 结果
http://www.hkea.cn/news/14405529/

相关文章:

  • 触屏手机网站建设网站建设主管
  • 大型网站空间费用网络推广服务商产品介绍
  • 网站改版 301跳转企业门户网站建设优势
  • 网站空间有什么用软件开发输出文档
  • 长沙高新区建设局网站永康公司做网站
  • 为什么实验楼网站上做实验这么卡微信导入wordpress
  • 建设银行广达行网站关于网的设计创意作品
  • 网站备案网站我想带货怎么找货源
  • 免费建站网站seo黄村做网站哪家好
  • 网站建设人群wordpress网易插件怎么用
  • 普陀企业网站建设网站建设好了怎么发布
  • 珠海网站制作门户网站群建设
  • 广宁县住房和城乡建设局网站新遵义
  • 网站如何建设手机版温州专业微网站制作
  • 怎么建设淘客自己的网站_php企业门户网站
  • 建网站 主流软件学校网站建设申请报告
  • 专门做婚姻法的网站企业工商信息查询
  • 门户网站建设的作用及意义wordpress 表白
  • 自己电脑做网站域名备案建网站详细教程
  • 做名片的网站网站建设实训个人总结3000字
  • 养老院网站开发背景惠州企业建站模板
  • 网站代码预览器wordpress后台更新等待响应
  • 连云港做网站设计动易学校网站模板
  • 做网站需要看那几点wordpress 登录用户信息
  • 游戏网站怎么做推广做电脑系统最好的网站
  • 网站做指向是什么意思南昌seo网站开发
  • 济南优化网站排名企业邮箱怎么申请账号
  • 重庆网站建设 优化淄博那里有做网站的
  • 网站备案添加域名怎样做网站系统
  • 加强网站建设和维护工作推广关键词优化公司