当前位置: 首页 > news >正文

甘肃手机版建站系统信息郑州市经开区建设局网站

甘肃手机版建站系统信息,郑州市经开区建设局网站,什么是网络营销的出发点,甘肃兰州气候特点文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习 在线强化学习#xff08;on-policy MC RL#xff09;#xff0c;是指#xff1a;智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ … 文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习 在线强化学习on-policy MC RL是指智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample​(a∣s)与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(a∣s)都是同一个策略,即 π π s a m p l e \pi\pi_{sample} ππsample​。 简而言之所谓在线就是在对一个初始策略评估的同时利用 ϵ − \epsilon- ϵ−贪心算法对它进行及时改进。 2. 什么是离线MC强化学习 所在离线强化学习off-policy MC RL是指智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample​(a∣s)与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(a∣s)不是同一个策略,即 π ≠ π s a m p l e \pi\ne\pi_{sample} ππsample​。 3. 在线MC强化学习有何缺点 所学到的策略可能不适合作为最终的策略使用。 为什么 因为它引入的 ϵ − \epsilon- ϵ−贪心算法虽然确保了完整轨迹覆盖状态的多样性但却以牺牲较快找到最优策略为代价它总是小心翼翼认为最优行为有可能存在于依赖经验确定的最优行为之外它没有考虑这一常识随着轨迹覆盖了更多的状态和行为随着这些状态行为对出现次数的增多依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略而这样的策略能够帮助自己更快地优化最终所要采取的策略就没有必要在策略评估和策略控制中采用同一策略了。 由于以上缺点人们已经发展出了离线强化学习算法它可以进一步细分为 重要性采样MC强化学习算法加权重要性采样MC强化学习算法
http://www.hkea.cn/news/14384701/

相关文章:

  • 做电子外贸网站建设网站建设3a模型是什么意思
  • 澄海建网站网站首页布局自适应
  • 建立网站的软件网络规划设计师教程第二版电子书
  • 响应式网站改为自适应世赛网站开发
  • 温州建设管理处网站壹财富 网站开发
  • vps 网站能打开现在ui做的比较好的网站
  • php部署网站企业查询系统官网
  • 网站设计公司苏州网站建设现在市场大不大
  • 微网站开发协议wordpress速度快不快
  • vue做单页面网站宝安设备网站设计
  • 南宁网站开发价格网站建设及推广方案ppt模板
  • 中国网站备案取消公司名称变更通知函
  • 广州外贸网站推广电子商务专业网站
  • win2012 iis 部署网站口碑营销经典案例
  • 常德网站建设费用东莞品牌网站制作
  • 廊坊网站自助建站网站推广工作是在网站发布之后开展的
  • 佛山百度网站排名优化网页设计的要点有哪些
  • 北海 网站建设seo管理员
  • 宾川网站建设天津房屋装修设计公司
  • 网站如何免费做SEO优化衡水做网站企业
  • 深圳集团网站建设专业公司百度网站大全旧版
  • 网站优化推广 视屏龙岩新罗区
  • 广州网站建设484186商标注册网上申请
  • 公司网站建设费用多少关键词排名seo优化
  • 南开做网站wordpress 搜索 多个词
  • 高端商城网站建设石排镇仿做网站
  • 网站建设的图片怎么加水印长沙正规seo优化价格
  • 做门用什么网站好做房地产咨询网站怎么赢利
  • 网站建设分金手指排名二七网站开发 原理
  • 常州网站开发公司深圳市珠宝网站建设