手机网站怎么解析,网站配置系统,上传文档的网站,WordPress主题2017基本大概框架
强化学习的主要角色是 智能体 #xff08;agent#xff09;和 环境,环境是智能体存在和互动的世界。智能体根据当前的环境做出action#xff0c;action影响环境。然后智能体根据新的环境再进行action。
基础用语
状态#xff08;state, s#xff09;…基本大概框架
强化学习的主要角色是 智能体 agent和 环境,环境是智能体存在和互动的世界。智能体根据当前的环境做出actionaction影响环境。然后智能体根据新的环境再进行action。
基础用语
状态state, s当前环境的一个客观描述观察observation, o当前环境的一个描述可能会漏掉部分信息策略policy决定下一步执行何种行动的规则回报reward某种状态进行某种动作产生的真值轨迹trajectory包含状态动作回报的一个链返回值return一个轨迹的所有回报的总和