当前位置: 首页 > news >正文

哈尔滨网站运营服务商个人网站的重要性

哈尔滨网站运营服务商,个人网站的重要性,青岛黄岛网站建设,wordpress用于商业PPO 近端策略优化算法 PPO 概率比率裁剪 演员-评论家算法演员-评论家算法#xff1a;多智能体强化学习核心框架概率比率裁剪#xff1a;逐步进行变化的方法PPO 目标函数的设计重要性采样KL散度 PPO 概率比率裁剪 演员-评论家算法 论文链接#xff1a;https://arxiv.org… PPO 近端策略优化算法 PPO 概率比率裁剪 演员-评论家算法演员-评论家算法多智能体强化学习核心框架概率比率裁剪逐步进行变化的方法PPO 目标函数的设计重要性采样KL散度 PPO 概率比率裁剪 演员-评论家算法 论文链接https://arxiv.org/abs/1707.06347 OpenAI 提出 PPO 旨在解决一些在策略梯度方法中常见的问题特别是与训练稳定性和样本效率有关的问题。 能在提高学习效率和保持训练稳定性之间找到平衡。 策略梯度方法的问题 策略更新过快 在传统的策略梯度方法中如果每次更新都大幅度改变策略可能会导致学习过程变得非常不稳定。 这种大幅更新可能会使得智能体忘记之前有效的策略或者探索到低效的行为区域。 数据利用率低 许多强化学习算法特别是那些基于样本的算法需要大量的数据才能学到有效的策略。 PPO试图通过更有效地使用数据来缓解这个问题使得从每个数据样本中学到更多信息。 训练周期长 由于数据利用率低传统的强化学习算法通常需要很长的训练周期才能收敛到一个好的策略。 PPO通过改进学习算法来减少所需的训练时间。 PPO算法在演员-评论家的框架基础上使用了 概率比率裁剪 技巧来控制策略更新的幅度以确保训练的稳定性和性能。 演员-评论家算法多智能体强化学习核心框架 请猛击演员-评论家算法多智能体强化学习核心框架 概率比率裁剪逐步进行变化的方法 想象你有两个不同的蛋糕配方这个比率就像是告诉你使用新配方做蛋糕的可能性与旧配方相比有多大的变化。 如果我们的新策略和旧策略差别太大那就像是突然完全改变蛋糕的配方可能会做出一个很不一样的蛋糕我们不确定它会好吃还是不好吃。 所以PPO通过计算概率比率来确保新策略不会偏离旧策略太远。 在每次策略更新时它计算新策略和旧策略之间的比率并通过限制这个比率的大小来裁剪更新幅度以防止过大的改变。 解决如何安全地逐步进行变化控制变化的方法。 具体请见目标函数的设计。 PPO 目标函数的设计 在测试中PPO 基本在每个任务都是第一梯队。 那我们说一下 PPO 到底做了什么居然比 A2C 另一种演员-评论家的改进算法还要好。 近端主要体现在其目标函数的设计上。 在PPO近端策略优化算法中结合使用重要性采样和KL散度实现了主要的目标。 重要性采样 探索与利用的平衡重要性采样帮助算法判断新策略新动作与旧策略旧动作相比的效果。如果新策略比旧的好算法会更倾向于采用新策略这是“利用”。但同时算法也会尝试一些不同的策略这是“探索”以找到可能更好的解决方案。渐进式更新通过重要性采样PPO能够逐渐、小心地改进策略而不是一次性做出巨大的改变。这样的逐步改进有助于算法稳定地学习和适应新策略。 KL散度 防止过度探索KL散度用于确保新策略不会偏离旧策略太远。这个约束防止了算法在探索新策略时过度激进从而避免了可能导致性能下降的大幅度策略变动。维持学习的稳定性通过限制新旧策略之间的差异KL散度有助于保持学习过程的稳定性。这种稳定性对于复杂的学习任务特别重要因为它减少了学习过程中的不确定性和波动。 重要性采样 你正在玩一个跳舞游戏。 在这个游戏里你有一系列的舞蹈动作可以选择。 刚开始时你只会一些基础的动作这是你的“旧策略”。 现在你学会了一些新的、酷炫的舞蹈动作这是你的“新策略”。 在这个游戏里你想要知道这些新动作是否真的比旧的好。 但是你不能一次就完全改变你的舞蹈风格因为这样你可能会跳得很差。 所以你需要一种方法来慢慢地、安全地加入新动作。 使用重要性采样你可以基于旧动作的经验来估计新动作的效果。 比如如果新动作只是在旧动作的基础上做了一些小改动比如多举了一下手你可以推测这个新动作会有类似的效果。 通过比较你可以决定哪些新动作真的相似值得加入到你的舞蹈里同时确保你的整体舞蹈还是很流畅。 不仅链接了新旧动作还是渐进式更新。 在这个过程中你不需要每次都完全重新学习动作。 相反你只是在旧动作的基础上做一些小的调整。 这样你可以逐渐地、稳步地改进你的动作而不是一下子完全改变。 KL散度 你的舞蹈老师给了你一个规则虽然可以尝试新动作但是不能让你的舞蹈风格变化太大否则会失去控制可能跳得一团糟。 KL散度就像是舞蹈老师的一条规则它告诉你新舞蹈和旧舞蹈之间的差别。 如果差别太大就意味着你可能偏离了舞蹈的基本风格太远需要调整一下。 这样你就可以在尝试新动作的同时保持你的舞蹈整体风格和质量。 仅仅使用重要性采样可能会导致策略变化过大特别是在新策略与旧策略差异显著时。 KL散度提供了一种衡量策略之间差异的方法。 通过限制新旧策略之间的KL散度PPO能够保证学习过程的连续性和平滑性减少策略更新的剧烈波动。 数学公式 J P P O θ ′ ( θ ) J θ ′ ( θ ) − β K L ( θ , θ ′ ) ⏟ Regularization E ( s t , a t ) ∼ π θ ′ [ p θ ( a t ∣ s t ) p θ ′ ( a t ∣ s t ) A θ ′ ( s t , a t ) ] − β K L ( θ , θ ′ ) \begin{aligned} J_{\mathrm{PPO}}^{\theta^{\prime}}(\theta) J^{\theta^{\prime}}(\theta)-\underbrace{\beta\mathrm{KL}(\theta,\theta^{\prime})}_{\text{Regularization}} \\ \mathbb{E}_{(s_t,a_t)\sim\pi_{\theta^{\prime}}}\left[\frac{p_\theta\left(a_t\mid s_t\right)}{p_{\theta^{\prime}}\left(a_t\mid s_t\right)}A^{\theta^{\prime}}\left(s_t,a_t\right)\right]-\beta\mathrm{KL}(\theta,\theta^{\prime}) \end{aligned} JPPOθ′​(θ)​Jθ′(θ)−Regularization βKL(θ,θ′)​​E(st​,at​)∼πθ′​​[pθ′​(at​∣st​)pθ​(at​∣st​)​Aθ′(st​,at​)]−βKL(θ,θ′)​ 这个公式是近端策略优化PPO算法中的一个重要部分它包含了重要性采样和KL散度。 重要性采样 公式的这部分 p θ ( a t ∣ s t ) p θ ′ ( a t ∣ s t ) \frac{p_\theta(a_t | s_t)}{p_{\theta}(a_t | s_t)} pθ′​(at​∣st​)pθ​(at​∣st​)​表示的是重要性采样比率。这里 p θ ′ ( a t ∣ s t ) p_{\theta}(a_t | s_t) pθ′​(at​∣st​) 是旧策略即上一次更新前的策略在状态(s_t)下选择动作(a_t)的概率。 p θ ( a t ∣ s t ) p_\theta(a_t | s_t) pθ​(at​∣st​) 是新策略即当前更新的策略在相同状态下选择同一动作的概率。通过这个比率我们可以量化新旧策略之间在选择特定动作上的差异。 优势函数 A θ ′ ( s t , a t ) A^{\theta}(s_t, a_t) Aθ′(st​,at​) 公式中的 A θ ′ ( s t , a t ) A^{\theta}(s_t, a_t) Aθ′(st​,at​) 是优势函数它评估在特定状态下采取某个动作相对于平均情况的好坏。优势函数用于量化一个特定动作比平均情况要好或坏多少。 期望值 E \mathbb{E} E E ( s t , a t ) ∼ π θ ′ [ … ] \mathbb{E}_{(s_t,a_t)\sim\pi_{\theta}}[…] E(st​,at​)∼πθ′​​[…] 表示对于由旧策略 π θ ′ \pi_{\theta} πθ′​ 生成的状态和动作的期望值。这意味着我们在计算这个公式时考虑的是在旧策略下可能发生的所有状态和动作组合。 KL散度 公式中的 K L ( θ , θ ′ ) \mathrm{KL}(\theta, \theta) KL(θ,θ′) 代表KL散度它是一种衡量两个概率分布差异的方法。在这里它用来衡量新策略和旧策略之间的差异。 β \beta β是一个调节参数它控制了我们对策略变化的惩罚强度。KL散度越大意味着新旧策略差异越大。 整体公式 整个公式的第一部分 E ( s t , a t ) ∼ π θ ′ [ … ] \mathbb{E}_{(s_t,a_t)\sim\pi_{\theta}}[…] E(st​,at​)∼πθ′​​[…]计算的是在旧策略下采用新策略能带来多少优势。第二部分 − β K L ( θ , θ ′ ) -\beta\mathrm{KL}(\theta, \theta) −βKL(θ,θ′)则是在控制新策略不要偏离旧策略太远的约束。 所以这个公式基本上是在做两件事 一方面它试图找到一个新策略使得在旧策略下的表现更好另一方面它确保新策略不会与旧策略差异太大从而保持学习的稳定性。
http://www.hkea.cn/news/14489396/

相关文章:

  • 域名备案了 怎么建设网站企业建设网站的作用大不大
  • 临沂企业建站广州seo工程师
  • 用angular做的网站链接专业建设 验收 网站
  • 江西旅游 网站建设实用又有创意的产品设计
  • 重庆做网站建设公司哪家好免费咨询广东律师事务所
  • 聊城网站制作信息wordpress特定主题
  • 网站运营的工作内容网络规划设计师书籍
  • 头像设计易做图网站秦皇岛开发区
  • 网站 运营 外包 每个月多少钱免费手机网站制作app
  • 网站如何安装dedecms厦门网站建设企业
  • 定制网站建设成本网页访客升级
  • 区域推广网站济南网站建设内容设计
  • 杭州哪里可以做网站推广零基础学网页设计
  • 网站的规划与建设_按时间顺序可以分为哪几个阶段?工业和信息化部
  • 网站积分程序怎么建设上海制作网页宣传
  • 模板建网站怎么做seo怎样在网上做环保设备网站
  • 生态环境工程公司网站建设专业网站建设品牌策划方案
  • 个人信息页面设计漂亮的网站网络服务投诉平台
  • 网站建设在那里接单给个网址谢谢了
  • 建站网站建设网站设计公司网站
  • 信息无障碍 网站建设惠州做网站优化
  • 搜索不到我的网站常用seo站长工具
  • 某网站网站的设计与实现wordpress 粉丝
  • 果洛州wap网站建设公司国外设计素材网站
  • 网站开发指南网站开发与设计实训报告总结
  • 台州网站怎么推广免费推广的手段和方法
  • 上海专业高端网站建设开元棋牌网站怎么做
  • 成品网站灬1688深圳市福田区香蜜湖街道
  • 如何选择佛山网站建设1688黄页网
  • 重庆中国建设银行招聘信息网站景区外文网站建设