做模具做什么网站,从零开始学建设网站,批量制作图片的软件,山东恒昆建设工程有限公司网站文章目录 1 强化学习与深度学习的关系2 线性回归3 梯度下降4 逻辑回归5 全连接网络6 更高级的神经网络6.1 卷积神经网络6.2 循环神经网络6.3 transformer 将深度学习和强化学习结合起来#xff0c;利用深度学习网络强大的拟合能力通过将状态、动作等作为输入#xff0c;来估计… 文章目录 1 强化学习与深度学习的关系2 线性回归3 梯度下降4 逻辑回归5 全连接网络6 更高级的神经网络6.1 卷积神经网络6.2 循环神经网络6.3 transformer 将深度学习和强化学习结合起来利用深度学习网络强大的拟合能力通过将状态、动作等作为输入来估计对应的状态价值和动作价值等等。
1 强化学习与深度学习的关系
强化学习的问题可以拆分成两类问题即预测和控制。预测的主要目的是根据环境的状态和动作来预测状态价值和动作价值而控制的主要目的是根据状态价值和动作价值来选择动作。预测主要是告诉我们当前状态下采取什么动作比较好而控制则是按照某种方式决策。 通常在强化学习中预测和控制的部分看起来是共用一个 表或者神经网络的因此读者们可能会因为主要关注价值函数的估计而忽视掉控制这层关系控制通常在采样动作的过程中体现出来。其实在前面也提到过预测也相当于人的眼睛和大脑的视觉神经处理部分而控制相当于大脑的决策神经处理部分看似是两个独立的部分但实际上是相互依赖的预测的结果会影响到控制的决策而控制的决策也会影响到预测的结果。 深度学习就是用来提高强化学习中预测的效果的因为深度学习本身就是一个目前预测和分类效果俱佳的工具。比如 Q-learning 的 表就完全可以用神经网络来拟合。注意深度学习只是一种非常广泛的应用但并不是强化学习的必要条件也可以是一些传统的预测模型例如决策树、贝叶斯模型等等。在控制问题中也可以利用深度学习或者其他的方法来提高性能例如结合进化算法来提高强化学习的探索能力。 从训练模式上来看深度学习和强化学习尤其是结合了深度学习的深度强化学习都是基于大量的样本来对相应算法进行迭代更新并且达到最优的这个过程我们称之为训练。但与另外两者不同的是强化学习是在交互中产生样本的是一个产生样本、算法更新、再次产生样本、再次算法更新的动态循环训练过程而不是一个准备样本、算法更新的静态训练过程。
深度学习强化学习深度强化学习训练模式基于大量的样本 对算法进行迭代更新。静态训练。在交互中产生样本算法和样本动态循环训练。同深度学习。解决问题分类问题打标签序列决策问题打分数样本-模型样本 - 模型样本 - 模型输入输出之间只有前向控制输入和输出之间有前向控制和反馈回路
2 线性回归
3 梯度下降
其基本思想如下。
初始化参数选择一个初始点或参数的初始值。计算梯度在当前点计算函数的梯度即函数关于各参数的偏导数。梯度指向函数值增加最快的方向。更新参数按照负梯度方向更新参数这样可以减少函数值。这个过程在神经网络中一般是以反向传播算法来实现的。重复上述二三步骤直到梯度趋近于 0 或者达到一定迭代次数。
学习率 批量 优化器动量、Adam
4 逻辑回归
虽然逻辑回归名字中带有回归但是它是用来解决分类问题的而不是回归问题即预测问题。
5 全连接网络
全连接网络fully connected network前一层网络的所有神经元的输出都会输入到下一层的所有神经元中。也称作多层感知机multi-layer perceptronMLP是最基础的深度神经网络模型。
6 更高级的神经网络
6.1 卷积神经网络
6.2 循环神经网络
6.3 transformer