当前位置: 首页 > news >正文

公司做网站做什么类型的网站好使用jquery的网站

公司做网站做什么类型的网站好,使用jquery的网站,WordPress发表评论自定义,做推广网站的去哪能买到有效资料ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作#xff0c;这就容易导致采取了OOD的数据。因此#xff0c;IQL取消max,#xff0c;通过一个期望回归算子…ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作这就容易导致采取了OOD的数据。因此IQL取消max,通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。 method 期望回归(Expectile Regression) arg ⁡ min ⁡ m τ E x ∼ X [ L 2 τ ( x − m τ ) ] , \arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)], argmτ​min​Ex∼X​[L2τ​(x−mτ​)], 其中 L 2 τ ( u ) ∣ τ − 1 ( u 0 ) ∣ u 2 . L_2^\tau(u)|\tau-\mathbb{1}(u0)|u^2. L2τ​(u)∣τ−1(u0)∣u2. 函数如下所示 最右边的图可以看出越大的 τ \tau τ使得预测值逼近上界。 IQL IQL将上述的 L 2 τ L_2^{\tau} L2τ​替换掉MSE来优化Q L ( θ ) E ( s , a , s ′ , a ′ ) ∼ D [ L 2 τ ( r ( s , a ) γ Q θ ^ ( s ′ , a ′ ) − Q θ ( s , a ) ) ] . L(\theta)\mathbb{E}_{(s,a,s,a)\sim\mathcal{D}}[L_2^\tau(r(s,a)\gamma Q_{\hat{\theta}}(s,a)-Q_\theta(s,a))]. L(θ)E(s,a,s′,a′)∼D​[L2τ​(r(s,a)γQθ^​(s′,a′)−Qθ​(s,a))]. 然而上式存在一个问题。 Q θ ^ Q_{\hat{\theta}} Qθ^​中采样的下一个动作具有一定的随机性即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q: L V ( ψ ) E ( s , a ) ∼ D [ L 2 τ ( Q θ ^ ( s , a ) − V ψ ( s ) ) ] . L_V(\psi)\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))]. LV​(ψ)E(s,a)∼D​[L2τ​(Qθ^​(s,a)−Vψ​(s))]. 采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络 L Q ( θ ) E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) γ V ψ ( s ′ ) − Q θ ( s , a ) ) 2 ] . L_Q(\theta)\mathbb{E}_{(s,a,s)\sim\mathcal{D}}[(r(s,a)\gamma V_\psi(s)-Q_\theta(s,a))^2]. LQ​(θ)E(s,a,s′)∼D​[(r(s,a)γVψ​(s′)−Qθ​(s,a))2]. AWR 价值函数完成优化后便是优化策略。这里采用的是AWR方法 L π ( ϕ ) E ( s , a ) ∼ D [ exp ⁡ ( β ( Q θ ^ ( s , a ) − V ψ ( s ) ) ) log ⁡ π ϕ ( a ∣ s ) ] L_\pi(\phi)\mathbb{E}_{(s,a)\sim\mathcal{D}}[\exp(\beta(Q_{\hat{\theta}}(s,a)-V_\psi(s)))\log\pi_\phi(a|s)] Lπ​(ϕ)E(s,a)∼D​[exp(β(Qθ^​(s,a)−Vψ​(s)))logπϕ​(a∣s)]
http://www.hkea.cn/news/14392019/

相关文章:

  • 做新闻微网站有哪些方面wordpress默认ssl
  • 网站优点缺点如何安装 wordpress
  • 衡水seo网站建设优化排名成都装修网
  • app开发科技网站建设南昌网站建设联系方式
  • 玉树州网站建设公司网站建设横幅系列素材
  • 深圳大型网站建设服务公司最新新闻热点事件直播
  • 推荐常州模板网站建设网络推广赚钱平台有哪些
  • 网站建设原则包括哪些方面佛山精品网站建设
  • 网站建设的方式完整的活动策划方案
  • 网站建设公司下载wordpress 美食主题
  • 怎么才能百度做网站wordpress学校官网
  • 广州番禺网站建设住房和城乡建设部令第51号
  • 网站空间申请开通建立网站可行性
  • e特快做单子的网站wordpress 防火墙
  • 网站建设入门教程视频佳木斯城乡建设局官方网站
  • 公司多个门户是做二级域名还是做多个网站已经买了域名怎么做网站
  • 网站搜索功能怎么实现网站制作潍坊
  • delphi 2010 网站开发阿里云如何购买域名
  • php网站开发实例教程下载谷歌搜索入口365
  • asp免费网站模板秦皇岛网站建设
  • 制作小公司网站一般多少钱怎么做网站的百度排名
  • 南山区住房与建设局官方网站肥猫网站建设
  • 安顺市哪里可以做网站卫生计生加强门户网站建设
  • xuzhou网站制作学广告设计平面设计
  • 网站运营与推广论文百度公司介绍
  • 做网站常德知名企业门户网站建设
  • 呼和浩特公司网站制作网页设计模板网站
  • 如何给给公司建立网站长沙 外贸网站建设公司价格
  • 网站ui设计用什么软件做最好的免费logo设计网站
  • icp对网站内容wordpress 菜价插件