当前位置: 首页 > news >正文

营销型网站源码网站一般几年

营销型网站源码,网站一般几年,网页设计网站页面搜索的代码,怎么搭建源码网站这个是我对于我的大创项目的构思#xff0c;随着时间逐渐更新 项目概要 我们的项目平台来自挑战杯揭绑挂帅的无人机对抗项目#xff0c;但是在由于时间原因#xff0c;并未考虑强化学习#xff0c;所以现在通过大创项目来弥补遗憾 我们项目分为三部分#xff0c;分为虚…这个是我对于我的大创项目的构思随着时间逐渐更新 项目概要 我们的项目平台来自挑战杯揭绑挂帅的无人机对抗项目但是在由于时间原因并未考虑强化学习所以现在通过大创项目来弥补遗憾 我们项目分为三部分分为虚拟机态势系统和运行程序端使用主机 虚拟机内包含各种无人机信息并封装为接口供windows端控制 态势系统主要是用来显示战场的情况使得态势可视化 运行程序端编写程序进行无人机控制 启动顺序为 虚拟机-》态势系统-》运行程序端 项目学习基础 强化学习 学习马尔可夫决策决策过程MDP 学习强化学习主要算法 值迭代法策略梯度法 重点学习PPO和DDPG 如果对于强化学习公式的了解较少的可以观看b站上的课程 【强化学习的数学原理】课程从零开始到透彻理解完结_哔哩哔哩_bilibili 由于这里我们目前所使用的公式原因先学习 了解仿真平台 对于各种API的研究前期工作 理解无人机的各种参数 对于linux系统的了解前期工作 学习一些基础操作并对于其提供的虚拟机实现了解 对于强化学习接口搭建完成Gym接口封装Linux接口作为训练环境 首先利用PPO/DDPG训练单无人机基础移动边界避障上下限制 进行侦察训练导弹躲避训练 然后再加入对抗系统使得无人机与敌机进行交互 首先是蓝方设计固定策略进行训练 然后红蓝方都进行强化学习训练 目前较为适合的最终算法改进的MADDPG 基础知识 Linux 一些基础linux命令总结为linux命令 如下 linux命令-CSDN博客 然后需要查看shell脚本 这里推荐黑马程序员的课程 02.shell入门1_哔哩哔哩_bilibili 强化学习 然后是强化学习的基础知识 马尔可夫决策 基本元素 状态集State Space 记为 S表示系统可能处于的所有状态的集合。例如在一个迷宫环境中每个格子可以看作一个状态在资源分配问题中状态可以是当前资源的使用量、剩余量等的组合。 动作集Action Space 记为 A表示在每个状态下可执行的所有动作。例如在迷宫中可向上、下、左、右移动在资源分配问题中可以为“给某个任务分配多少资源”等不同策略选项。 状态转移概率Transition Probability 记为 P(s′∣s,a表示当前处于状态 s执行动作 a 之后转移到下一状态 s′ 的概率。这也是“马尔可夫”性质的来源转移只与当前状态和当前动作相关而与之前的历史状态无关。 奖励函数Reward Function 记为 R(s,a)或 R(s,a,s′)表示在状态 s 执行动作 a并转移到状态 s′时得到的即时回报。这个回报值可能是正的奖励或负的惩罚。 折扣因子Discount Factor 记为 γ取值范围通常在 [0,1] 之间。它用于平衡短期和长期收益的重要性当 γ越接近 1 时更注重长期回报当 γ越小越关注即时回报。 决策过程 观察状态 系统或智能体观察当前状态 s。 选择动作 根据一定的策略policyπ\piπ在状态 sss 下选择一个动作 aaa。策略 π\piπ 可以理解为一个函数或规则用于指定在不同状态下执行哪一个动作。 环境反馈 状态转移在环境中执行动作 aaa 后系统会随机地转移到下一个状态 s′ss′由转移概率 P(s′∣s,a)P(s \mid s,a)P(s′∣s,a) 决定。得到奖励与此同时系统给予执行该动作的即时回报 R(s,a)R(s,a)R(s,a) 或 R(s,a,s′)R(s, a, s)R(s,a,s′)。 更新决策 基于新的状态 s′ss′ 和获得的奖励智能体可以对其策略 π\piπ 进行更新或继续保持不变具体取决于使用的算法例如价值迭代、策略迭代、Q 学习、深度强化学习等。 进入下一轮决策 新的状态 s′ss′ 成为当前状态系统重复上述过程直到达到终止条件如达到目标状态、达到最大交互步数、收敛到稳定策略等 PPO DDPG  note无人机飞行是连续的动作使用 DDPG 聚焦连续动作空间使用确定性策略和 Critic-Q 网络来估计动作价值具备较高的数据利用效率但也对训练稳定性和超参数选择有更高要求。 MADDPG 多无人机对战是多智能体和DDPG的结合 集中式 Critic在训练过程中每个智能体的 Critic 都可以访问 全局信息包括所有智能体的状态和动作。这使得 Critic 在更新时对环境动态和其他智能体决策有更全面的认识缓解了环境非平稳问题。分散式 Actor在执行阶段每个智能体只基于自身的局部观测来进行决策保持灵活性与可扩展性。 初步研究 动作设置 我们使用机动号操作无人机进行对战一共执行五个状态平飞俯冲平飞加减速爬升转弯 奖励函数设置 初步设计为分为多个阶段进行分开训练分为巡航进攻躲避撤退四个策略通过条件进行状态转移 开始设计初步的奖励和惩罚函数 巡航 奖励项侦察到敌方无人机侦察到敌方无人机时的高度差 惩罚项碰撞到边界 进攻 奖励项导弹命中敌方无人机 惩罚项敌方无人机脱离我方锁定 躲避 奖励躲避敌方导弹 撤退 奖励 惩罚被敌方无人机侦测
http://www.hkea.cn/news/14286835/

相关文章:

  • 专注高端网站设计凡客陈年
  • 网站app充值记账凭证怎么做山西省住房与城乡建设部网站
  • 建设营销型网站服务网站建设与推广实训报告册
  • 网站漂浮特效网站开发用的电脑
  • 福田网站建设公司哪家性价比高什么是灰色网站
  • 恐怖音乐怎么做的视频网站高质量的邯郸网站建设
  • 网站运营阶段松江做网站
  • 做标书有哪些网站能接到名词解释搜索引擎优化
  • 帝国程序如何改网站标题引进韩国电影
  • 如何在网站做直播间网站优化月总结
  • 恺策网优 营销型网站建设品牌服务商登陆江西建设厅三类人员的网站
  • i深建官方网站电影vip网站建设步骤
  • 太原网站建设网站wordpress 媒体库 分类
  • 营销型网站备案云南建设工程有限公司
  • 各省施工备案网站wordpress目录图片不显示
  • 不收费的网站域名 去掉wordpress
  • 公司网站备案需要多久住宅设计网站推荐
  • 动漫网站建设规划书模板ie 插件 wordpress
  • 企业网站会员功能如何创建自己的微信公众号
  • 网站建设 中企动力烟台网站名字 备案
  • 百度快速收录在线提交工具网站优化及推广
  • 陕西省建设网站建立网站的费用策划
  • 网站建设内容策略有哪些搜索引擎市场份额2023
  • 浦口区网站建站wordpress如何秒开
  • 网站采集转载wordpress图标字体不显示
  • 写资料的网站有哪些内容jannah wordpress
  • 公司注册网站入口安徽合肥中国建设银行网站首页
  • 爱站网关键词查询网站wordpress设置首主导航
  • 自建英文网站软文营销网站
  • 潍坊网站制作人才招聘电影网站网页设计实训报告