当前位置: 首页 > news >正文

小城市做网站徐州模板建站哪家好

小城市做网站,徐州模板建站哪家好,什么网站可以做外单,张家港网站设计有吗2024/6/23#xff1a; 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别#xff08;在线 or 离线#xff09; 首先#xff0c;一切的开始是强化学习中时序差分方程#xff0c;这体现了强化学习方法的优化策略。在… 2024/6/23         前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别在线 or 离线 首先一切的开始是强化学习中时序差分方程这体现了强化学习方法的优化策略。在看方程之前先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益。 该方程通过Target值采取当前动作后得到的奖励 采取动作后下一个状态根据某个策略选取动作的Q值减去估计值当前估计的当前状态采取A的Q值再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值而方程的目的就是来逼近真正的最佳收益。可能有点绕但是从类似于动态规划的角度看会明白一点。 下面是on-policy和off-policy策略的区别 这两种策略本质上的区别是他们的时序差分方程如下图所示上面的target属于on-policy方法下面的属于off-policy方法 on-policy主要应用于Sarsa方法是一种在线的交互式的学习方法大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取也可以根据贪婪策略选取然后根据这个选取的action计算得到的结果来更新Q表格。很显然用这种方法进行训练的效率很慢需要很长的时间方法才可以收敛在我看来基本是off-policy方法的完全下位但优点也存在也就是对在线交互式实验方法的适应。 从时序差分方程的角度看下面这张图将其中的内容和方程中的联系起来看就能大概理解sarsa做了什么 off-policy是一种更加常用的方法Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到他使用下个状态的采取所有动作的最佳Q值来优化因此收敛也更快。 参考在线/离线策略区别 面向新手从零学习强化学习
http://www.hkea.cn/news/14490482/

相关文章:

  • 长沙好博网站建设有限公司急招一对夫妻门卫6500元
  • 长沙网站排名报价西安软件公司有哪些
  • 河南省建设科技网站沧州网站设计公司价格
  • 福州 网站建设价格做网站赣州
  • 大气装饰公司网站源码简洁汽车配件网站模板
  • 意识形态 加强网站建设公司网站优化哪家好
  • 1688货源网官方网站效果图大全
  • 做vip电影网站福建城建设厅官方网站
  • 商城网站前台html正能量网站免费进入无需下载
  • 瑞安做企业网站找哪家wordpress 网店模板
  • asp.net 网站开发框架自己开发企业管理系统
  • 网站域名注册证书查询网站建设的准备工作
  • 校园网站建设年度总结宠物网站项目
  • 宁波网站推广软件哪家强怎么用手机做软件
  • 网站注册域名备案潍坊营销网站
  • 网站建设 办公系统wordpress登录注册页面模板
  • 设计素材网站有哪些平台十大难进的互联网公司
  • 外贸中间体做哪个网站好网站怎么制作成软件
  • 建设工程检测预约网站编程培训就业班
  • 网站开发电子商务问答推广
  • 网站开发搜索功能店面招牌设计效果图大全
  • 石家庄 外贸网站建设公司如何开通自己的网站
  • h5做的公司网站如何建立wordpress商城
  • 张北网站seo大连市住建局官方网
  • 汾湖做网站网站页脚写什么
  • 二手车网站设计建网站 云主机
  • 建站网站如何清理缓存wordpress换网址图片打不开
  • 静态网站用什么做最快河南网络推广系统
  • 广东省高校质量工程建设网站软件开发文档资料包括哪些
  • 电脑怎么做服务器 网站网站定位分析是什么