当前位置：首页 > news >正文

用python做音乐网站移动互联网开发项目

news 2026/5/1 20:48:13

用python做音乐网站,移动互联网开发项目,杭州网站建设制作,泰安人力资源官网分类目录#xff1a;《深入理解强化学习》总目录通过前文的介绍#xff0c;我们现在应该已经对强化学习的基本数学概念有了一定的了解。这里我们回过头来再看看一般的有监督学习和强化学习的区别。以图片分类为例#xff0c;有监督学习#xff08;Supervised Learning《深入理解强化学习》总目录通过前文的介绍我们现在应该已经对强化学习的基本数学概念有了一定的了解。这里我们回过头来再看看一般的有监督学习和强化学习的区别。以图片分类为例有监督学习Supervised Learning假设我们有大量被标注的数据且通常假设样本空间中全体样本服从一个未知分布我们获得的每个样本都是独立地从这个分布上采样获得的即独立同分布(Independent and Identically DistributedIID比如汽车、飞机、椅子这些被标注的图片这些图片都要满足独立同分布即它们之间是没有关联关系的。假设我们训练一个分类器比如神经网络。为了分辨输入的图片中是汽车还是飞机在训练过程中需要把正确的标签信息传递给神经网络。当神经网络做出错误的预测时比如输入汽车的图片它预测出来是飞机我们就会直接告诉它该预测是错误的正确的标签应该是汽车。最后我们根据类似错误写出一个损失函数Loss Function通过反向传播Back Propagation来训练神经网络。所以在监督学习过程中有两个假设输入的数据标注的数据都应是没有关联的。因为如果输入的数据有关联学习器是不好学习的需要告诉学习器正确的标签是什么这样它可以通过正确的标签来修正自己的预测在强化学习中有监督学习的两个假设其实都不能得到满足。以雅达利Atari 游戏Breakout为例如下图所示这是一个打砖块的游戏控制木板左右移动从而把球反弹到上面来消除砖块。在玩游戏的过程中我们可以发现智能体得到的观测Observation不是独立同分布的上一帧与下一帧间其实有非常强的连续性。我们得到的数据是相关的时间序列数据不满足独立同分布。另外我们并没有立刻获得反馈游戏没有告诉我们哪个动作是正确动作。比如现在把木板往右移这只会使得球往上或者往左一点儿我们并不会得到即时的反馈。因此强化学习之所以困难是因为智能体不能得到即时的反馈然而我们依然希望智能体在这个环境中学习。如下图所示强化学习的训练数据就是一个玩游戏的过程。我们从第1步开始采取一个动作比如我们把木板往右移接到球。第2步我们又做出动作得到的训练数据是一个玩游戏的序列。比如现在是在第3步我们把这个序列放进网络希望网络可以输出一个动作即在当前的状态应该输出往右移或者往左移。这里有个问题我们没有标签来说明现在这个动作是正确还是错误的必须等到游戏结束才可能知道这个游戏可能10s后才结束。现在这个动作到底对最后游戏是否能赢有无帮助我们其实是不清楚的。这里我们就面临延迟奖励Delayed Reward的问题延迟奖励使得训练网络非常困难。对于一般的有监督学习任务我们的目标是找到一个最优的模型函数使其在训练数据集上最小化一个给定的损失函数。在训练数据独立同分布的假设下这个优化目标表示最小化模型在整个数据分布上的泛化误差Generalization Error用简要的公式可以概括为最优模型 arg ⁡ min ⁡ 模型 E ( 特征 , 标签 ) ∼ 数据分布 [ 损失函数 ( 标签 , 模型 ( 特征 ) ) ] \text{最优模型}\arg\min_{\text{模型}} E_{(\text{特征}, \text{标签})\sim \text{数据分布}}[\text{损失函数}(\text{标签}, \text{模型}(\text{特征}))] 最优模型arg模型minE(特征,标签)∼数据分布[损失函数(标签,模型(特征))] 相比之下强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。根据上面的分析策略的价值可以等价转换成奖励函数在策略的占用度量上的期望最优策略 arg ⁡ max ⁡ 策略 E ( 状态 , 动作 ) ∼ 策略占用度量 [ 奖励函数 ( 状态 , 动作 ) ] \text{最优策略}\arg\max_{\text{策略}} E_{(\text{状态}, \text{动作})\sim \text{策略占用度量}}[\text{奖励函数}(\text{状态}, \text{动作})] 最优策略arg策略maxE(状态,动作)∼策略占用度量[奖励函数(状态,动作)] 观察以上两个优化公式我们可以总结出两者的相似点和不同点有监督学习和强化学习的优化目标相似即都是在优化某个数据分布下的一个分数值的期望。二者优化的途径是不同的有监督学习直接通过优化模型对于数据特征的输出来优化目标即修改目标函数而数据分布不变强化学习则通过改变策略来调整智能体和环境交互数据的分布进而优化目标即修改数据分布而目标函数不变。综上所述一般有监督学习和强化学习的范式之间的区别为有监督学习关注寻找一个模型使其在给定数据分布下得到的损失函数的期望最小。而强化学习关注寻找一个智能体策略使其在与动态环境交互的过程中产生最优的数据分布即最大化该分布下一个给定奖励函数的期望。强化学习输入的样本是序列数据而不像监督学习里面样本都是独立的。学习器并没有告诉我们每一步正确的动作应该是什么学习器需要自己去发现哪些动作可以带来最多的奖励只能通过不停地尝试来发现最有利的动作。智能体获得自己能力的过程其实是不断地试错探索Trial-and-error Exploration的过程。探索 Exploration和利用Exploitation是强化学习里面非常核心的问题。其中探索指尝试一些新的动作这些新的动作有可能会使我们得到更多的奖励也有可能使我们“一无所有”而利用指采取已知的可以获得最多奖励的动作重复执行这个动作因为我们知道这样做可以获得一定的奖励。因此我们需要在探索和利用之间进行权衡这也是在监督学习里面没有的情况。在强化学习过程中没有非常强的监督者Supervisor只有奖励信号Reward Signal并且奖励信号是延迟的即环境会在很久以后告诉我们之前我们采取的动作到底是不是有效的。因为我们没有得到即时反馈所以智能体使用强化学习来学习就非常困难。当我们采取一个动作后如果我们使用监督学习我们就可以立刻获得一个指导比如我们现在采取了一个错误的动作正确的动作应该是什么。而在强化学习里面环境可能会告诉我们这个动作是错误的但是它并没有告诉我们正确的动作是什么。而且更困难的是它可能是在一两分钟过后告诉我们这个动作是错误的。所以这也是强化学习和监督学习不同的地方。通过与监督学习的比较我们可以总结出强化学习的一些特征强化学习会试错探索它通过探索环境来获取对环境的理解。强化学习智能体会从环境里面获得延迟的奖励。在强化学习的训练过程中时间非常重要因为我们得到的是有时间关联的数据Sequential Data 而不是独立同分布的数据。在机器学习中如果观测数据有非常强的关联会使得训练非常不稳定。这也是为什么在监督学习中我们希望数据尽量满足独立同分布这样就可以消除数据之间的相关性。智能体的动作会影响它随后得到的数据这一点是非常重要的。在训练智能体的过程中很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果在训练过程中智能体不能保持稳定就会使我们采集到的数据非常糟糕。我们通过数据来训练智能体如果数据有问题整个训练过程就会失败。所以在强化学习里面一个非常重要的问题就是怎么让智能体的动作一直稳定地提升。本文梳理了强化学习和有监督学习在范式以及思维方式上的相似点和不同点。在大多数情况下强化学习任务往往比一般的有监督学习任务更难因为一旦策略有所改变其交互产生的数据分布也会随之改变并且这样的改变是高度复杂、不可追踪的往往不能用显式的数学公式刻画。这就好像一个混沌系统我们无法得到其中一个初始设置对应的最终状态分布而一般的有监督学习任务并没有这样的混沌效应。参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022

查看全文

http://www.hkea.cn/news/14492825/