当前位置：首页 > news >正文

网站设计页面四川seo推广

news 2026/4/6 12:41:52

网站设计页面,四川seo推广,营销型企业网站功能,佳木斯网站设计on-policy的定义：behavior policy和target-policy相同的是on-policy，不同的是off-policy。 behavior policy：采样数据的策略，影响的是采样出来s,a的分布。 target policy：就是被不断迭代修改的策略。如果是基于深度…

on-policy的定义：behavior policy和target-policy相同的是on-policy，不同的是off-policy。

behavior policy：采样数据的策略，影响的是采样出来s,a的分布。
target policy：就是被不断迭代修改的策略。

如果是基于深度的算法，那么非常好分辨：目标函数里面一定有s和a的期望，而计算梯度的时候使用了SGD，把一个采样作为了期望的值。但是这里面还有一个隐含的限制就是采样遵循的分布必须是s,a的分布。

因此分辨是否是on-policy的，只需要看目标函数。如果目标函数中s,a的分布和策略相关的，那么一定是on-policy的，如果是策略无关的，那么一定是off-policy的。

比如DQN的目标函数：在这里插入图片描述
这里一个(s,a)对看成一个随机变量，服从均匀分布，因此分布和策略无关（至于为什么s,a是均匀分布，那个是算法自己假设的），因此采样的时候需要用到experience replay，使得不管什么策略采样得到的reward，都变成均匀分布的。

因此用了experice replay之后，随便什么策略采样，虽然采样出来s,a服从那个策略的分布，但是经过experice replay之后还是变成了均匀分布。

比如PG:
在这里插入图片描述

这里面的随机变量是s, 而s是服从stationary distribution，就是agent出现在这个state的次数形成的分布。而这个分布和策略pi是相关的，因此是on-policy的(改变策略之后，agent出现的概率也改变了)

比如DPG:

在这里插入图片描述
这里面的分布d是一个常数(这是为了计算梯度方便)，因此DPG中s,a的采样和策略无关，是off-policy的。

比如PPO:

在这里插入图片描述
就是一个期望+一个类似正则项的东西，而非常明显看出来，这个期望是服从策略theta’的，也就是说s,a分布和策略相关，因此是on-policy的。

简单说下PPO：PPO用两个网络表示策略，一个是theta’一个是theta，用theta’网络的策略采样reward，得到的reward给theta的网络梯度下降。看起来怎么用了两个策略? 其实两个策略最后慢慢收敛到一起的，是一个策略。如果是off-policy是完全和策略无关的。

http://www.hkea.cn/news/170779/

相关文章：

做程序网站需要什么代码宁波seo搜索排名优化

网站建设开发语言新冠病毒最新消息

怎么做1688网站网页制作工具有哪些

一个网站的主题和设计风格最好用的免费建站平台

网站开发主页手机优化游戏性能的软件

怎么做属于自己的域名网站网络策划方案

destoon做的网站百度商务合作联系

金山区网站制作网络营销策划书1500字

厦门网站建设制作工具熊猫关键词挖掘工具

徐州网站建设网站推广百度首页快速排名系统

在线转格式网站怎么做拼多多seo 优化软件

成都理工疫情最新消息贵港seo

网站如何防止攻击怎么自己做一个小程序

企业网站建设英文百度收录

wordpress查版本sem和seo的区别

网站设计说明书怎么写网站建设平台官网

有建网站的软件阿里云域名注册万网

站长工具排名分析怎么创建公司网站

网站建设标书四川seo哪里有

接网站开发做多少钱建一个外贸独立站大约多少钱

wordpress表单录入seo报告

python做网站显示表格星巴克seo网络推广

一个com的网站多少钱管理微信软件

蒙阴网站建设软文代写网

用python做一旅游网站南昌seo计费管理

湖北省建设厅win10优化软件哪个好

湖南企业建站系统平台软文有哪些发布平台

南通网络公司网站真正免费建站

做图骂人的图片网站网络服务

wordpress主标题副标题seo基础