当前位置: 首页 > news >正文

网站建设员的薪水网站网页文案怎么写

网站建设员的薪水,网站网页文案怎么写,微信公众平台app下载安装,优秀设计作品赏析gym版本是0.26.1 CartPole-v1的详细信息#xff0c;点链接里看就行了。 修改了下动手深度强化学习对应的代码。 然后这里 J ( θ ) J(\theta) J(θ)梯度上升更新的公式是用的不严谨的#xff0c;这个和王树森书里讲的严谨公式有点区别。 代码 import gym import torch from …gym版本是0.26.1 CartPole-v1的详细信息点链接里看就行了。 修改了下动手深度强化学习对应的代码。 然后这里 J ( θ ) J(\theta) J(θ)梯度上升更新的公式是用的不严谨的这个和王树森书里讲的严谨公式有点区别。 代码 import gym import torch from torch import nn from torch.nn import functional as F import numpy as np import matplotlib.pyplot as plt from tqdm import tqdm import rl_utils # 这个要下载源码然后放到同个文件目录下,链接在上面给出了 from d2l import torch as d2l # 这个是动手深度学习的库, pip/conda install d2l 就好了class PolicyNet(nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super().__init__()self.fc1 nn.Linear(state_dim, hidden_dim)self.fc2 nn.Linear(hidden_dim, action_dim)def forward(self, X):X F.relu(self.fc1(X))return F.softmax(self.fc2(X),dim1)class REINFORCE:def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma, device):self.policy_net PolicyNet(state_dim, hidden_dim, action_dim).to(device)self.optimizer torch.optim.Adam(self.policy_net.parameters(), lr learning_rate)self.gamma gamma # 折扣因子self.device devicedef take_action(self, state): # 根据动作概率分布随机采样state torch.tensor(np.array([state]),dtypetorch.float).to(self.device)probs self.policy_net(state)action_dist torch.distributions.Categorical(probs)action action_dist.sample()return action.item()def update(self, transition_dict): # 公式用的是简化推导reward_list transition_dict[rewards]state_list transition_dict[states]action_list transition_dict[actions]G 0self.optimizer.zero_grad()for i in reversed(range(len(reward_list))): # 从最后一步算起reward reward_list[i]state torch.tensor(np.array([state_list[i]]), dtypetorch.float).to(self.device)action torch.tensor([action_list[i]]).reshape(-1,1).to(self.device)log_prob torch.log(self.policy_net(state).gather(1, action))G self.gamma * G reward loss -log_prob * G # 因为梯度更新是减的所以取个负号loss.backward()self.optimizer.step() lr 1e-3 num_episodes 1000 hidden_dim 128 gamma 0.98 device d2l.try_gpu()env_nameCartPole-v1 env gym.make(env_name) print(f_max_episode_steps:{env._max_episode_steps}) torch.manual_seed(0) state_dim env.observation_space.shape[0] action_dim env.action_space.nagent REINFORCE(state_dim, hidden_dim, action_dim, lr, gamma, device) return_list [] for i in range(10):with tqdm(totalint(num_episodes/10), descfIteration {i}) as pbar:for i_episode in range(int(num_episodes/10)):episode_return 0transition_dict {states: [], actions: [], next_states: [], rewards: [], dones: []}state env.reset()[0]done, truncated False, Falsewhile not done and not truncated : # 主要是这部分和原始的有点不同action agent.take_action(state)next_state, reward, done, truncated, info env.step(action)transition_dict[states].append(state)transition_dict[actions].append(action)transition_dict[next_states].append(next_state)transition_dict[rewards].append(reward)transition_dict[dones].append(done)state next_stateepisode_return rewardreturn_list.append(episode_return)agent.update(transition_dict)if (i_episode1) % 10 0:pbar.set_postfix({episode: %d % (num_episodes / 10 * i i_episode1), return: %.3f % np.mean(return_list[-10:])})pbar.update(1)episodes_list list(range(len(return_list))) plt.plot(episodes_list, return_list) plt.xlabel(Episodes) plt.ylabel(Returns) plt.title(fREINFORCE on {env_name}) plt.show()mv_return rl_utils.moving_average(return_list, 9) plt.plot(episodes_list, mv_return) plt.xlabel(Episodes) plt.ylabel(Returns) plt.title(fREINFORCE on {env_name}) plt.show()我是在jupyter里直接跑的结果如下所示。
http://www.hkea.cn/news/14514553/

相关文章:

  • 专业系统网站做app和做网站区别
  • 网站建设优化价格楼盘查询
  • 怎么做网站横幅深圳市做网站有哪些公司
  • ps专门做兼职的网站有哪些国家高新技术企业有什么好处
  • 君山区建设局网站网站开发劣势
  • 韩国网站的风格福田欧曼自卸车
  • 定制企业网站全国工商信息企业查询官网
  • 女性门户网站模板wordpress友链审核插件
  • 怎样会展网站建设做网站公司费用
  • 网站建设工程师职责说明网站开发php价格
  • 做网站用不用云服务器中国建设银行的网站
  • 专做特产的网站店铺logo图片免费生成软件
  • 浙江华临建设集团有限公司网站关于网站建设的申请
  • 做网站 多页面网址怎么弄重庆网站建设外包哪家好
  • 企业网站代码个人网站设计方案
  • 网站建设叫什么软件中国世界排名前200的大学名单
  • 罗庄建设局网站福建:网站建设
  • 用php做网站要用什么软件wordpress上传第二部
  • 搭建网站 网页网站建设的基本流程和步骤
  • 设计师导航网站广东移动网站
  • 网站的登录界面怎么做南京网站建设报价
  • 网站建设最简单的教程视频教程张家界网络
  • 青岛大型网站建设慈溪网站制作哪家最便宜
  • 电商网站有哪些功能模块手机软件开发培训学校
  • 网站程序是什么深圳建设网站过程
  • 湖州企业网站制作如何让百度搜到网站
  • 网站建设行业发展方向e龙岩网站
  • dede wap网站模板下载wordpress mip改造
  • 网站设计用什么做万由nas做网站
  • 做vi设计的网站app接入广告变现