当前位置: 首页 > news >正文

科技网站大全王通seo赚钱培训

科技网站大全,王通seo赚钱培训,网站的按钮怎么做,网站开发算什么费用目录 1 前言2 利用step和reset函数创建自定义环境2.1 对象描述2.2 reset函数2.3 step函数2.3 构建自定义环境3 使用匿名函数传递额外的参数4 可视化检查自定义函数的输出参考链接1 前言 本文介绍如何基于MATLAB编写step、reset函数,创建自己的强化学习环境(Environment)。 使… 目录 1 前言2 利用step和reset函数创建自定义环境2.1 对象描述2.2 reset函数2.3 step函数2.3 构建自定义环境 3 使用匿名函数传递额外的参数4 可视化检查自定义函数的输出参考链接 1 前言 本文介绍如何基于MATLAB编写step、reset函数,创建自己的强化学习环境(Environment)。 使用 rlFunctionEnv 函数,可以根据观察(observation)规范、动作(action)规范和自己创建的step、reset函数创建 MATLAB 强化学习环境,并可以在此环境中训练强化学习智能体(agent)。 对于更复杂的环境,可以使用模板类创建环境对象。 2 利用step和reset函数创建自定义环境 2.1 对象描述 以平衡车摆系统为例。 强化学习环境:小车上装有可自由转动的杆,小车沿着一条无摩擦的轨道移动。 训练目标:控制小车,使杆保持向上直立而不摔倒。 环境描述: 杆向上平衡位置为0弧度,向下悬垂位置为pi弧度。杆以-0.05至0.05弧度之间的初始角度开始直立。Agent对环境的力作用信号为-0~10 N。环境观测量为小车的位置和速度、关节角和角速度。如果杆与竖直方向的夹角大于12°,或者大车与原位置的距离大于2.4m,则episode终止,见上图绿色虚线。对杆保持直立的每一个时间步给予+ 1的奖励。当杆摔倒时,施加- 5的惩罚。环境的observation:小车位置、小车速度、杆摆角以及摆角速度。 环境的离散action:智能体可以对小车施加力值(-10或10 N)。 2.2 reset函数 reset函数设置了环境的初始状态: [InitialObservation,Info] = myResetFunction() % InitialObservation:初始观测值; % Info:从当前步传递到下一步的环境信息,如环境状态,参数等。在训练的episode开始时,train调用reset函数,并使用输出信息Info初始化自定义环境的Info属性。在一个训练步中,train提供当前Info的值作为StepFcn的第2个输入参数,然后使用StepFcn返回的第4个输出参数来更新Info的值。 Info存储车-杆环境的初始状态信息:小车位置、小车速度、杆摆角以及摆角速度。 reset函数在每次环境复位时将小车角度设置为随机值。 对于本算例,使用第二个参数存储车-杆环境的初始状态:小车的位置和速度、摆角以及摆角导数。复位函数在每次环境复位时将杆角度设置为随机值。 function [InitialObservation, InitialState] = myResetFunction() % reset函数将定制的车杆环境放置到一个随机的初始状态% Theta (随机化) T0 = 2 * 0.05 * rand() - 0.05; % Thetadot Td0 = 0; % X X0 = 0; % Xdot Xd0 = 0;% 返回初始环境状态变量作为记录信号 InitialState = [X0;Xd0;T0;Td0]; InitialObservation = InitialState;end2.3 step函数 step函数指定环境如何根据给定的动作推进到下一个状态: [NextObservation,Reward,IsDone,UpdatedInfo] = myStepFunction(Action,Info) % NextObservation:下一步的观测值 % Reward:奖励 % IsDone:是否结束 % UpdatedInfo:更新状态Info在下一个训练步中,train将上一步得到的UpdatedInfo作为step函数的输入变量Info。 step函数中定义了物理常数。另一种方法是在reset函数中定义物理常数,将Info定义为一个包含状态和参数的结构体,即使用Info来存储物理常数和环境状态。 function [NextObs,Reward,IsDone,NextState] = myStepFunction(Action,State) % 自定义step函数 % 该函数将给定的action应用到环境中,并评估一个仿真步的系统动态。% 定义环境常数。 % 重力加速度 m/s^2 Gravity = 9.8; % 车质量 CartMass = 1.0; % 杆质量 PoleMass = 0.1; % 杆长的一半 HalfPoleLength = 0.5; % 最大施加力 MaxForce = 10; % Sample time Ts = 0.02; % episode失败阈值:杆偏角极限值 AngleThreshold = 12 * pi
http://www.hkea.cn/news/14264952/

相关文章:

  • 莆田市网站建设国家免费24小时律师咨询
  • 网站后台seo优化如何做seo网络培训班
  • 无锡网站建设培训shopify建站费用
  • 商场设计网站厦门人才网597人才网
  • 建设企业网站首页网页设计与制作课程的思政目标
  • 网站建设宣传文案中国建筑集团有限公司官网校园招聘
  • 廊坊seo整站优化减肥网站源码
  • 建设网站设计专业服务企业邮箱注册申请费用
  • 网站长尾关键词优化怎么提升网站收录
  • 高端网站建设制作设计网页和网站是一样的吗
  • 高水平 专业 建设 网站做网站域名起什么作用
  • 电脑上wap网站视觉设计师前景
  • 四川省建设厅网站填报获奖国际网站建站
  • 河北省网站快速备案网站排名总是不稳定
  • 国内oa系统十大排名网站 优化 关键字
  • 哪里有免费网站空间申请最有前景的代理产品
  • 网站设计大概价格wordpress头像自定义
  • 网站建设与维护课件比较好用的网站
  • 查网站跳出率免费文档模板素材网站
  • 一个网站建设需要多少钱wordpress for ipad
  • 马尔康网站建设win7 iis配置网站 视频教程
  • 网站服务器到期查询江门网站建设junke100
  • 山东省建设备案网站审批表国内网站制作公司排名
  • 人事处网站开发文献综述哪个网站平面设计做的好
  • youshe wordpress主题织梦网站如何做seo
  • 江门网站推广多少钱网页游戏排行榜前十名2023
  • 全站flash网站seo是指
  • 木木科技 网站艰涩网站架构设计师待遇怎么样
  • 制作一个网站需要多少小时那个网站是响应式的
  • 网站建设实训分析总结完美一键优化