做物流的可以在那些网站找客户端,百度外推排名,运城市住房与城乡建设厅网站,张掖市住房和城乡建设厅网站前言 本文内容来自于南京大学郭宪老师在博文视点学院录制的视频#xff0c;课程仅9元地址#xff0c;配套书籍为深入浅出强化学习 编程实战 郭宪地址。 正文 我们发现多臂赌博机执行一个动作之后#xff0c;无论是选择摇臂1#xff0c;摇臂2#xff0c;还是摇臂3之后都会返…前言 本文内容来自于南京大学郭宪老师在博文视点学院录制的视频课程仅9元地址配套书籍为深入浅出强化学习 编程实战 郭宪地址。 正文 我们发现多臂赌博机执行一个动作之后无论是选择摇臂1摇臂2还是摇臂3之后都会返回原来的状态也就是说它的状态并没有改变而右边的寻金币游戏从1到2智能体执行动作之后位置状态发生了变化而强化学习就是寻找当前状态下最优的动作或者说不同状态下最优动作合集策略。 从下图右可以看出P和R都和sa有关系无模型就是因为缺P和R。 实际应用中对于游戏一般用截取的图像信息作为s但通常不能只用一帧图像作为s比如说在大小球的游戏中一帧图像无法判断小球移动方向和球速最起码要两帧在实际应用中为了提高精确度一般用四帧图像作为s。AlphaGo中用过去八手双方棋局作为状态。 动作的定义 策略的定义策略就是给定状态s时动作集上的分布比方说找金币智能体在状态5时采用确定性策略此时向西走概率为1向其他方向为0为改状态下的动作概率分布。 值函数定义就是在策略Π下智能体从状态s出发用采用策略Π的累计回报的期望简单理解从状态s出发不同的选择函数策略该策略是动作选择策略会选择不同的动作转移到不同的状态最后会找到很多条路径sa选则累计回报最大的路径。 值函数和行为值函数的区别值函数只和s有关行为值函数和sa相关。但两者都是对策略Π的度量。 我们看一下寻找梦中的他游戏的环境设置
状态空间对下图进行10×10的网格划分也就是说会有100个不同的状态空间所以最多会遍历100步
动作空间有上下左右四个选择
状态转移概率此处主要说一下鸳鸯在碰到障碍物时不会移动到障碍物位置而是继续保持原本状态同样在即将出界时也是保持原本状态。比方说向东连续走两个格第三个格有障碍物不会移动到障碍物位置而是保持原本位置不变。 立即回报碰到障碍物时回报为-1找到他时回报为1正常移动回报为0
策略表示使用了词典函数待理解
值函数设置了10×10的矩阵对应一百个表格属于表格型强化学习 环境渲染用到了pygame包使用时共三个步骤
1.获取当前图片所在目录
2.获取图片文件名
3.下载图片并转换成surface对象 最后要继续使用pygame绘制窗口
1.display.set_mode绘制窗口幕布
2.blit图片显示在窗口中
3.display.update幕布更新函数 代码可从视频链接自取 参考文献
1.深入浅出强化学习 编程实战 郭宪
2. 博文视点学院