当前位置: 首页 > news >正文

英文网站怎么设计全球新冠疫情最新消息

英文网站怎么设计,全球新冠疫情最新消息,免费做网站. 优帮云,公司组织架构《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》 25年2月来自华中科大和地平线的论文 现有的端到端自动驾驶(AD)算法通常遵循模仿学习(IL)范式,这面临着因果混淆…

《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》

25年2月来自华中科大和地平线的论文

        现有的端到端自动驾驶(AD)算法通常遵循模仿学习(IL)范式,这面临着因果混淆和开环差距等挑战。在这项工作中,我们建立了一个基于3DGS的闭环强化学习(RL)训练范式。通过利用3DGS技术,我们构建了真实物理世界的逼真数字复制品,使AD策略能够广泛探索状态空间,并通过大规模的试错来学习处理超出分布的场景。为了提高安全性,我们设计了专门的奖励,指导政策有效应对安全关键事件,并了解现实世界的因果关系。为了更好地与人类驾驶行为保持一致,IL作为正则化术语被纳入RL训练中。我们引入了一个闭环评估基准,由各种以前从未见过的3DGS环境组成。与基于IL的方法相比,RAD在大多数闭环度量中实现了更强的性能,特别是碰撞率降低了3倍。

 


核心问题与动机

  1. 现有方法的局限

    • 模仿学习(IL)主导:当前端到端自动驾驶(AD)主要依赖IL,但存在两大缺陷:

      • 因果混淆(Causal Confusion):IL仅学习状态-动作的相关性,难以捕捉真实因果逻辑(如误将历史轨迹作为决策依据)。

      • 开环-闭环鸿沟(Open-Loop Gap):开环训练无法模拟闭环部署中的误差累积,导致分布外(OOD)场景鲁棒性差。

    • 仿真瓶颈:传统仿真器(如CARLA)渲染效率低且真实性不足,难以支持大规模RL训练。

  2. RAD的解决方案
    提出首个基于3D高斯泼溅(3DGS) 的闭环强化学习框架,通过构建逼真的数字孪生环境,实现安全、高效的端到端AD策略训练。


关键技术创新

1. 3DGS驱动的闭环RL训练范式
  • 环境构建:从真实驾驶片段重建4305个高风险的3DGS场景(3968训练/337测试),支持实时交互与逼真渲染。

  • 优势

    • 允许策略通过大规模试错探索状态空间,学习处理OOD场景。

    • 规避实车训练的安全风险与成本问题。

2. RL与IL协同优化
  • 混合训练机制

    • RL目标:通过奖励函数增强对安全关键事件(碰撞、偏离)的敏感性。

    • IL正则化:引入IL损失作为正则项,确保驾驶行为与人类对齐,避免RL探索导致的动作不连续。

  • 三阶段训练流程

    阶段目标更新模块
    感知预训练学习地图/交通参与者表征BEV编码器、地图/Agent Head
    规划预训练IL初始化动作分布图像编码器、规划Head
    强化后训练RL+IL协同微调策略图像编码器、规划Head(其余冻结)
3. 高效动作空间设计
  • 解耦离散动作

    • 横向动作 axax(转向):61档位(-0.75m至0.75m)。

    • 纵向动作 ayay(速度):61档位(0m至15m)。

  • 简化动力学模型:假设0.5秒内匀速运动,降低动作维度,加速RL收敛。

4. 奖励函数设计
  • 四元奖励机制

    \mathcal{R} = \{r_{\text{dc}}, r_{\text{sc}}, r_{\text{pd}}, r_{\text{hd}}\}
    • 动态碰撞(rdcrdc​):与移动障碍物重叠。

    • 静态碰撞(rscrsc​):与静态障碍物(3DGS高斯模型)重叠。

    • 位置偏离(rpdrpd​):偏离专家轨迹>2.0m。

    • 航向偏离(rhdrhd​):航向角偏差>40°。

  • 提前终止:任一事件触发回合终止,避免噪声干扰。

5. 稀疏奖励优化:辅助目标函数
  • 核心思路:将稀疏奖励分解为密集的纵向/横向辅助损失,约束全动作分布。

  • 动态碰撞辅助:根据碰撞方向调整加速度(前撞减速,后撞加速)。

  • 静态碰撞/轨迹偏离辅助:根据障碍物位置或轨迹偏差调整转向。

  • 最终损失

    \mathcal{L}(\theta) = \mathcal{L}^{\text{PPO}}(\theta) + \lambda_1 \mathcal{L}_{\text{dc}} + \lambda_2 \mathcal{L}_{\text{sc}} + \lambda_3 \mathcal{L}_{\text{pd}} + \lambda_4 \mathcal{L}_{\text{hd}}


实验验证

1. 评估基准
  • 数据集:2000小时真实驾驶数据,自动标注地图/交通参与者。

  • 指标

    • 安全性:碰撞率(CR)、动态碰撞率(DCR)、静态碰撞率(SCR)。

    • 轨迹一致性:偏离率(DR)、平均偏离距离(ADD)。

    • 平滑性:纵向/横向加加速度(Jerk)。

2. 关键结果
  • RL-IL比例消融(表1):

    • 纯IL:CR=0.229(安全性差),ADD=0.238(轨迹一致性好)。

    • 纯RL:CR=0.143(安全性提升),ADD=0.345(轨迹一致性下降)。

    • 最优混合(4:1):CR=0.089(↓61%),ADD=0.257(平衡安全性与一致性)。

  • 奖励函数消融(表2):

    • 移除动态碰撞奖励 → CR升至0.238,验证其对安全性的关键作用。

  • SOTA对比(表4):

    方法CRDCRADD
    VAD [17]0.3350.2730.304
    GenAD [49]0.3410.2990.265
    RAD0.0890.0800.257
    • 结论:RAD在CR上超越IL方法3倍以上,且保持低ADD。

3. 定性分析
  • 场景对比(图5 & 附录图A1):

    • IL策略:在行人避让、无保护左转等动态场景中频繁碰撞。

    • RAD:成功处理高风险场景(如拥堵绕行、U型转弯),轨迹更平滑安全。


贡献与局限性

核心贡献
  1. 首创3DGS-RL框架:实现逼真、高效的闭环AD策略训练。

  2. RL-IL协同机制:RL解决因果性与开环鸿沟,IL保证人类行为对齐。

  3. 工程优化:解耦动作空间、密集奖励设计、辅助目标函数加速收敛。

局限性
  1. 非反应式环境:其他交通参与者按日志回放,未与ego车辆实时交互。

  2. 3DGS渲染限制:对非刚性物体(行人)、遮挡与低光场景还原不足。

  3. 计算成本:训练数千独立3DGS场景的资源消耗未量化。


未来方向

  1. 引入动态交通参与者交互机制。

  2. 提升3DGS在复杂场景的渲染质量。

  3. 扩展RL训练规模至更广泛场景。

  4. 探索轻量化3DGS部署方案。

总结:RAD通过3DGS+RL的闭环训练范式,显著提升AD策略的安全性(碰撞率↓3×)与泛化能力,为端到端自动驾驶提供了可扩展的新路径。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

http://www.hkea.cn/news/611505/

相关文章:

  • 网站根目录文件名游戏推广员是做什么的
  • 个体工商户怎么做网站西安网站seo技术
  • 报名网站制作2345网址导航官网下载安装
  • 图书购物网站开发总结百度发广告需要多少钱
  • 做网站 业务流程图站长统计性宝app
  • 长沙做网站大概多少钱万网域名注册教程
  • 成都网站建设网站产品推广计划书怎么写
  • 深圳个人网站建设大连网络推广公司哪家好
  • 建设工程教育appseo技术培训中心
  • 家教中介怎么利用网站来做的免费广告推广
  • wordpress仿制建设seo是什么平台
  • 商城网站建设分为几块seo臻系统
  • 网络营销对于个人而言有什么作用seo文章
  • 做书籍封皮的网站今日中国新闻
  • 东莞建设网站电工培训技术学校
  • 深圳聘请做网站人员成都排名seo公司
  • 网站备案之后东莞网站关键词优化公司
  • 多种专业网站建设潍坊网站排名提升
  • 网站投稿系统怎么做网站制作流程是什么
  • 交警网站建设整改百度推广怎么推广
  • 重庆网站建设哪里比较好呢网站下载
  • 网站运行速度慢的原因看b站二十四小时直播间
  • 电商网站开发服务全网营销骗局揭秘
  • 个人网站怎么做互联网营销师培训课程免费
  • 微信网站建设价格网站开发报价方案
  • wordpress utc时间慢8小时大连seo关键词排名
  • 中国建设承包商网站创建软件平台该怎么做
  • 中小企业网站建设费用海外推广服务
  • 企业名称的英文做网站名seo是怎么优化推广的
  • 手机在线建站西安seo服务公司