当前位置: 首页 > news >正文

建网赌网站流程海口网站开发建设

建网赌网站流程,海口网站开发建设,宁波seo网络推广代理公司,广州建工设计院gym版本是0.26.1 CartPole-v1的详细信息#xff0c;点链接里看就行了。 修改了下动手深度强化学习对应的代码。 然后这里 J ( θ ) J(\theta) J(θ)梯度上升更新的公式是用的不严谨的#xff0c;这个和王树森书里讲的严谨公式有点区别。 代码 import gym import torch from …gym版本是0.26.1 CartPole-v1的详细信息点链接里看就行了。 修改了下动手深度强化学习对应的代码。 然后这里 J ( θ ) J(\theta) J(θ)梯度上升更新的公式是用的不严谨的这个和王树森书里讲的严谨公式有点区别。 代码 import gym import torch from torch import nn from torch.nn import functional as F import numpy as np import matplotlib.pyplot as plt from tqdm import tqdm import rl_utils # 这个要下载源码然后放到同个文件目录下,链接在上面给出了 from d2l import torch as d2l # 这个是动手深度学习的库, pip/conda install d2l 就好了class PolicyNet(nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super().__init__()self.fc1 nn.Linear(state_dim, hidden_dim)self.fc2 nn.Linear(hidden_dim, action_dim)def forward(self, X):X F.relu(self.fc1(X))return F.softmax(self.fc2(X),dim1)class REINFORCE:def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma, device):self.policy_net PolicyNet(state_dim, hidden_dim, action_dim).to(device)self.optimizer torch.optim.Adam(self.policy_net.parameters(), lr learning_rate)self.gamma gamma # 折扣因子self.device devicedef take_action(self, state): # 根据动作概率分布随机采样state torch.tensor(np.array([state]),dtypetorch.float).to(self.device)probs self.policy_net(state)action_dist torch.distributions.Categorical(probs)action action_dist.sample()return action.item()def update(self, transition_dict): # 公式用的是简化推导reward_list transition_dict[rewards]state_list transition_dict[states]action_list transition_dict[actions]G 0self.optimizer.zero_grad()for i in reversed(range(len(reward_list))): # 从最后一步算起reward reward_list[i]state torch.tensor(np.array([state_list[i]]), dtypetorch.float).to(self.device)action torch.tensor([action_list[i]]).reshape(-1,1).to(self.device)log_prob torch.log(self.policy_net(state).gather(1, action))G self.gamma * G reward loss -log_prob * G # 因为梯度更新是减的所以取个负号loss.backward()self.optimizer.step() lr 1e-3 num_episodes 1000 hidden_dim 128 gamma 0.98 device d2l.try_gpu()env_nameCartPole-v1 env gym.make(env_name) print(f_max_episode_steps:{env._max_episode_steps}) torch.manual_seed(0) state_dim env.observation_space.shape[0] action_dim env.action_space.nagent REINFORCE(state_dim, hidden_dim, action_dim, lr, gamma, device) return_list [] for i in range(10):with tqdm(totalint(num_episodes/10), descfIteration {i}) as pbar:for i_episode in range(int(num_episodes/10)):episode_return 0transition_dict {states: [], actions: [], next_states: [], rewards: [], dones: []}state env.reset()[0]done, truncated False, Falsewhile not done and not truncated : # 主要是这部分和原始的有点不同action agent.take_action(state)next_state, reward, done, truncated, info env.step(action)transition_dict[states].append(state)transition_dict[actions].append(action)transition_dict[next_states].append(next_state)transition_dict[rewards].append(reward)transition_dict[dones].append(done)state next_stateepisode_return rewardreturn_list.append(episode_return)agent.update(transition_dict)if (i_episode1) % 10 0:pbar.set_postfix({episode: %d % (num_episodes / 10 * i i_episode1), return: %.3f % np.mean(return_list[-10:])})pbar.update(1)episodes_list list(range(len(return_list))) plt.plot(episodes_list, return_list) plt.xlabel(Episodes) plt.ylabel(Returns) plt.title(fREINFORCE on {env_name}) plt.show()mv_return rl_utils.moving_average(return_list, 9) plt.plot(episodes_list, mv_return) plt.xlabel(Episodes) plt.ylabel(Returns) plt.title(fREINFORCE on {env_name}) plt.show()我是在jupyter里直接跑的结果如下所示。
http://www.hkea.cn/news/14256976/

相关文章:

  • 网站的建设与规划直播网站源码免费
  • 建立网站需要多少钱 索 圈湖南岚鸿网站管理教程
  • 建设部二级结构工程师注销网站整体vi设计方案
  • 网站建设app杭州济宁网站开发公司
  • wordpress 网站生成app在北京建设教育协会的网站
  • 保定网站关键词优化网站设计策划书案例
  • 网站建设明细表深圳网站建设公司推荐
  • 营销网站 app开发深圳罗湖区网站建设
  • 青岛企业建站系统模板广东建设信息网手机版
  • 关于美术馆网站建设的方案山东泰山新闻
  • 网站seo的重要性wordpress ftp服务器
  • 江苏智能网站建设流程营销技巧电影
  • 个人建什么网站最赚钱游戏网站怎么建设
  • 学习网站建设培训电子商务网络营销方式
  • 兰州优化网站网站建设报告论文百度文库
  • 做打鱼网站的代理做一个企业网站多少钱
  • 做物流网站注意什么网站的友情链接怎么做
  • 北京网站备案江西港航建设投资有限公司网站
  • 贵州网站建设设计公司wordpress主题无法创建目录
  • 公司网站建设包含的内容qq钓鱼网站建设
  • 重庆做网站怎么做自动网站建设
  • 结合七牛云做视频网站wordpress 单本
  • 免费创网站原阳网站建设哪家好
  • 建设三轮摩托车官方网站开发小型门户网站的方法 步骤
  • mysql网站数据库代码需求网站
  • 互联网行业建设网站东莞如何制作免费的网页
  • 网站建设小组实训总结网站定制公司哪家好
  • 慈溪建设银行支行网站深圳做分销网站建设
  • 根据链接获取网站名称电商网站适合做响应式布局吗
  • 网站开发目标网站门户设计