当前位置：首页 > news >正文

网站建设排名奇艺地域合肥seo排名收费

news 2026/4/7 3:28:30

网站建设排名奇艺地域,合肥seo排名收费,网页设计代码td th,做网站技术员强化学习算法总结 (1) 1.综述强化学习是通过与环境进行交互，来实现目标的一种计算方法。 s − a 1 − r − s ′ s - a_1 - r- s s−a1−r−s′ 1.1强化学习优化目标 p o l i c y a r g m a x p o l i c y E ( a , s ) [ r e w a r d ( s , a ) ] policy ar…

强化学习算法总结 (1)

1.综述

强化学习是通过与环境进行交互，来实现目标的一种计算方法。
$s - a_1 - r- s'$

1.1强化学习优化目标

$policy= argmax_{policy} E_{(a,s)}[reward(s,a)]$

强化学习的最终目标是最大化智能体策略在和环境交互中获得的reward。通过改变策略来调整智能体和环境交互数据的分布。

1.2 平衡与探索

策略告诉我们应该采取哪些动作，同时也要对新的策略进行探索。

这里引入一个概念为懊悔值，当前动作a的收益与最优结果的差距

$\epsilon - greedy$

策略
$\epsilon \\ a_t = aegmaxQ（a）\\ else:\\ 随机策略$
但是结果来看积累的懊悔值是和和时间成正比的，因为随机拉杆的探索概率是固定的

上置信界法UCB

$a_t = argmax_\alpha [Q(A)]$

汤普森采样

2. 马尔科夫决策过程

MDP：利用当前已知的信息就可以决定未来

采样：根据状态转移矩阵生成一个状态序列 $s_1 -> s_2 -> ...-> s_n$

2.1 马尔科夫奖励过程

在决策过程中加入了奖励函数r和折扣因子，形成了马尔科夫奖励过程 $<S,P,r,\gamma>$ ,状态集合，状态转移矩阵，奖励函数，折扣因子
$G_t = R_t+ \gamma R_{t+1}... = \sum \gamma^k R_{t+k}$

价值函数
$E[G_t |S_t =s]\\我们把G_t 拆开R_t +\gamma V(s_{t+1}) 而后面的E(\gamma V(s_{t+1}|s_t =s)) 用状态转移函数表示\\V(s) = r(s) +\gamma\sum P(s'|s)V(s')$

只适用于规模比较小的马尔科夫过程计算价值函数，不然使用 MC，TD，动态规划等算法

2.2 马尔科夫决策过程

MDP;<S,A,P,r, $\gamma$ >:这里不再使用状态转移矩阵，而是状态转移函数

S:状态合集
A:动作合集
$\gamma$ :折扣因子
r(s,a)：奖励函数，收到了s和a影响
P(s’|s,a)：状态转移函数

策略： $\pi(a|s) = P(A_t = a| S_t =s)$ :表示当前状态下，采取这个策略a的概率。如果是一个随机策略，输出是关于动作的概率分布函数

状态价值函数
$V^{\pi} = E_{\pi}[G_t | S_t = s]$
当前状态下，预计未来的收益
动作价值函数
$Q^{\pi}(s,a) = E_\pi[G_t | S_t = s ,A_t =a]$
在遵循当前策略下，执行动作a的收益

$V^\pi(s) = \sum\pi(a|s) Q^\pi (s,a)$

贝尔曼期望方程

$Q^\pi (s,a) = E_\pi[R_t+\gamma Q^\pi(s',a')|S_t= s,A_t = a] \\= r(s,a) +\gamma\sum V(s') \\= r(s,a) +\gamma\sum P(s'|a,s)\sum \pi(a'|s')Q^\pi(s',a')$