当前位置：首页 > news >正文

网站开发自学网站是什么样的

news 2026/5/9 2:58:49

网站开发自学,网站是什么样的,正版全平台内容系统,南京网站制作招聘网强化学习(增强学习、再励学习、评价学习简称RL)是近年来机器学习领域最热门的方向之一#xff0c;是实现通用人工智能的重要方法之一。本章将通俗易懂地讲一下强化学习中的两个重要的模型DQN 和DDPG。马尔可夫决策过程(Markov Decison Process,MDP)包括两个对象#xff… 强化学习(增强学习、再励学习、评价学习简称RL)是近年来机器学习领域最热门的方向之一是实现通用人工智能的重要方法之一。本章将通俗易懂地讲一下强化学习中的两个重要的模型DQN 和DDPG。马尔可夫决策过程(Markov Decison Process,MDP)包括两个对象Agent 和环境。包含4个要素环境状态、智能体动作、智能体策略和奖励。Agent 从环境中获取“状态”,然后根据“策略”做出“动作”,改变了“环境”,得到了“奖励”。而希望得到的就是一个好的“策略”,在RL 中这个“策略”就是一个神经网络输入是环境状态输出是动作。分清楚回报和奖赏的区别因为强化学习的目的是最大化长期未来奖励寻找最大的G 。这容易理解如果只看重奖赏R, 用一个成语--鼠目寸光如果看重的是长期的回报那就是深谋远虑。价值函数主要有两种 (1)状态价值函数意思就是一个状态的价值是基于一定的动作选择策略的未来回报的期望。先理解含义不考虑怎么计算这个很抽象的公式。 (2)动作价值函数就是当前状态s, 情况下采取了a, 动作的未来回报的期望。 DQN DQN 是 Deep Q-learning Network的缩写一般人们称为深度Q 学习。训练集中的数据都是统一的格式。DDQN 就是 Double DQN。策略梯度(Policy Gradient,PG)就是基于策略的强化学习方法。DQN 是解决离散动作空间的算法。为什么说PG 是可以解决连续动作空间的呢?因为PG中避免了对最优动作的选取而是输出连续动作的概率分布然后进行采样。这意味着不管是多么糟糕的行为在PG中都有可能执行只是执行的概率非常的小。 DQN 是一个典型的确定性策略在策略不变的情况下只会选择价值最大的那一个动作。相同的环境重复100次决策也只会选择100次同样的动作而PG 是随机性策略因为是从概率分布中采样同样的环境重复100次决策可能会有不同的决策产生。相应地AC 算法也是随机性策略。

查看全文

http://www.hkea.cn/news/14589646/