甘肃手机版建站系统信息,郑州市经开区建设局网站,什么是网络营销的出发点,甘肃兰州气候特点文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习
在线强化学习#xff08;on-policy MC RL#xff09;#xff0c;是指#xff1a;智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ … 文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习
在线强化学习on-policy MC RL是指智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(a∣s)与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(a∣s)都是同一个策略,即 π π s a m p l e \pi\pi_{sample} ππsample。
简而言之所谓在线就是在对一个初始策略评估的同时利用 ϵ − \epsilon- ϵ−贪心算法对它进行及时改进。
2. 什么是离线MC强化学习
所在离线强化学习off-policy MC RL是指智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(a∣s)与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(a∣s)不是同一个策略,即 π ≠ π s a m p l e \pi\ne\pi_{sample} ππsample。
3. 在线MC强化学习有何缺点
所学到的策略可能不适合作为最终的策略使用。 为什么 因为它引入的 ϵ − \epsilon- ϵ−贪心算法虽然确保了完整轨迹覆盖状态的多样性但却以牺牲较快找到最优策略为代价它总是小心翼翼认为最优行为有可能存在于依赖经验确定的最优行为之外它没有考虑这一常识随着轨迹覆盖了更多的状态和行为随着这些状态行为对出现次数的增多依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略而这样的策略能够帮助自己更快地优化最终所要采取的策略就没有必要在策略评估和策略控制中采用同一策略了。
由于以上缺点人们已经发展出了离线强化学习算法它可以进一步细分为
重要性采样MC强化学习算法加权重要性采样MC强化学习算法