当前位置: 首页 > news >正文

北京设计公司网站河南注册公司代理

北京设计公司网站,河南注册公司代理,免费推广引流app,网站二次开发合同强化学习当中最难的两个点是#xff1a; 1.reward delay#xff1b; 2.agent的行为会影响到之后看到的东西#xff0c;所以agent要学会探索世界#xff1b; 关于强化学习的不同类型#xff0c;可以分为以下三种#xff1a; 一种是policy based#xff1a;可以理解为它是…强化学习当中最难的两个点是 1.reward delay 2.agent的行为会影响到之后看到的东西所以agent要学会探索世界 关于强化学习的不同类型可以分为以下三种 一种是policy based可以理解为它是去学习一个很强的actor由actor去指导下一步的行动 一种是value-based:学习一个好的critic这个critic其实就是价值函数由价值函数去指导做下一步的行动 还有一种是当下最流行的二者结合的方法叫actorcritic也是PPO 用的方法 policy based 首先我们用神经网络去学习一个actor他需要根据环境观察到的stateobervation)去得到action的output 加下来我们要判断这个action好不好靠的是环境反馈的reward; 对于一次的游戏体验而已reward是每次action累计的return的总和 但是我们知道游戏具有随机性每次的整个游戏过程我们记录为Ts1,a1,r1…); 哪怕我们使用同一个actor由于游戏本身的随机性T也是不一样的 但是不同的actor得到的T的概率和倾向性肯定是不一样的 比如说如果你的actor是见到敌人就呆住那么你的T大概率就是敌人一出现你就挂了 所以我们不能拿单次游戏的reward作为此actor的reward我们要进行多次游戏这就好比在T的分布中进行采样N次采样取平均作为这个actor的reward 接下来我们的目标是优化actor的参数去最大化游戏反馈的reward; 注意Trajactery对应得reward跟待优化的参数没关系他是环境的反馈所以可不可导无所谓 这里要注意R(T)是某个trajactory完成后的reward而不是某个action的reward,这个也很好理解 关于这里为什么要取log的解释是不同的action采样到的频次不一样模型会提升采样到的多的action的概率哪怕reward没有很高所以要除以概率本身这样子本来比较高概率的action的grad就会变小 注意R(T)如果都是正值应该不会有问题也就意味着每个action都会被激励只是激励有大有小但是如果说采样过程中有个action没有采样到不知道action a的reward是多少这就会导致action a的概率比较低所以最好给reward减去一个bias,这个bias是我们自己设计的。这样reward有正有负之后可以去掉采样不均匀带来的一些影响 所以整个policy based RL的整体流程就是现有一个初始化参数的actor然后去sample(其实就是跟环境交互的过程获取路径、行动、反馈再拿上面三个去训练model,更新参数其实log后面那部分和我们正常的深度学习网络一样的input就是s,label就是action a)只是前面会乘以整个路径的reward的系数也就是把reward作用在这个actor上 如果我们的enviroments和reward是model的话可以直接训练但如果不是不能微分的话就用policy gradient硬train一发 这里的critic其实就是价值函数 如何衡量价值函数好不好很简单价值函数的衡量越接近实际的reward越好 我们需要给每一个action合理的reward;上述的同一个trajectory里面的每个action都是相同reward显然不合理一个action的reward首先跟以往历史的action的reward无关其次随时间会递减reward的影响下图中的advantage function是相对于其他action,在当前actor采用本action的credit; 关于on policy也就是采样数据》更新model采样数据》更新model的循环 因为我们每次要根据trajectory最终的reward去计算每个action的credit,所以要等到一批数据采集完才能更新当前的数据一旦更新完model就不能在用了因为它只适用于当前的policy model,更新后policy model就变了所以这个过程很繁琐耗时间 off policy的意思就是我们训练的model和我们采集数据的model不是同一个model,我们可以随意选取一个actor去采集数据大量数据分布的事情可以靠分布之间的变换解决关于这个变换后面的视频没有具体看下次可以补上 我们观察数据的actor的分布和实际train的actor的分布不能差太多差太多以下近似公式会不成立 上图最后一项是待优化的函数顾名思义当前actor根据s采取的action的概率乘以对应的credit,我们希望其越大越好 上面说到我们不希望采样数据的分布和训练的actor分布差别太大那么就需要用到限制TRPO是额外加出来的限制不好训练用的少PPO就是把限制加入到优化函数里面去了然后关于beta的值是个动态调整的值我们会自己设一个LKL最大最小值超过最大值就调小beta,反之亦然这里要注意的是KL计算的不是参数之间的距离而是behaivor之间的距离通用采样数据的s和a就可以计算 PPO PPO2的加了个clip来做意思就是看图如果A0是正激励就希望P越大越好但是也不要太大如果A0是负激励就希望P越小越好但是也不要太小 PPO就是紫色的线可以看到PPO算法在RL中算是非常稳定和性能好的
http://www.hkea.cn/news/14361748/

相关文章:

  • 深圳建溢公司招聘烟台网站建设seo
  • 网站的组成检察院门户网站建设自查自纠报告
  • 网站视频站建设教程和有域名后怎样做网站
  • 广州网站建设与实验网站保障体系建设
  • 域名邮箱和域名网站thinkphpcmf网站开发
  • 管理网站英文保险网站哪个好
  • 中文网站排行榜wordpress 标签 结构
  • 深圳设计网站有哪些最 的wordpress书
  • 做书籍封皮的网站wordpress首页错误
  • 泉州公司网站设计为什么建设网站
  • wordpress非常卡seo优化方式
  • 阿里巴巴国际站可以做网站吗软件工程师岗位职责
  • 哪个网站找住宿的便宜手机微网站怎么制作的
  • 网站后台用什么程序做医疗网站是否全部需要前置备案
  • 北京服装网站建设地址北京广告网站建设
  • Spring做网站和什么医院网站 整站源码
  • 怎样建设自己的商业网站云空间搭建网站
  • 专门做求职课程的网站网站备案主体负责人
  • 怎么做用户调研网站广州手机网站设计
  • 电影新网站如何做seo优化关键词优化是怎么做的
  • 手机网站整站模板下载工具邹平建设项目网站公示
  • 昆明网站制作维护手机版网站建设方案
  • 营销型网站建设测验题设计本官方网站下载
  • 杭州专业设计网站网站设计的基本步骤
  • 手机网站页面模板WordPress用rds云数据库
  • 网站百度搜不到如何制作自己想要的图片
  • 潜江哪里做网站电商创业新手怎么做
  • 做代理网站网站在线
  • 电商网站开发语言网站交易
  • 山西省住房城乡建设厅网站营销活动推广方案