当前位置：首页 > news >正文

怎么查网站备案域名备案信息江苏网站备案

news 2026/4/22 18:02:58

怎么查网站备案域名备案信息,江苏网站备案,vue可以做pc端网站吗,最新国际军事新闻前言本博客内解读不少VLA模型了#xff0c;包括π0等#xff0c;且如此文的开头所说前两天又重点看了下openvla#xff0c;和cogact#xff0c;发现目前cogACT把openvla的动作预测换成了dit#xff0c;在模型架构层面上#xff0c;逼近了π0那为了进一步逼近#…前言本博客内解读不少VLA模型了包括π0等且如此文的开头所说前两天又重点看了下openvla和cogact发现目前cogACT把openvla的动作预测换成了dit在模型架构层面上逼近了π0那为了进一步逼近感觉可能会有人把cogACT中的VLM模块(dinov2sigclipllama2)换成paligemma 总之各种vlm 各种动作预测头/方法会出来很多vla 当然各种VLA我在本文的开头已经详细介绍过可以参看《GRAPE——RLAIF微调VLA模型通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)》而适用于通用机器人策略的VLA也不是随意设计的背后都有一整套的设计哲学、逻辑、方法论本文便基于RoboVLMs——其对应的论文为《Towards Generalist Robot Policies: What Matters inBuilding Vision-Language-Action Models》探讨这背后的设计哲学尽管有的设计哲学——动作空间是连续的还是离散的在之前诸多模型的效果PK上我们早已看出来但为系统起见还是也放在本文的介绍中第一部分 RoboVLMs 1.1 引言与相关工作 1.1.1 VLM骨干和结构的研究在构建通用机器人策略的其中一种途径是基于VLM微调并进行一定的架构调整来学习机器人基础模型从而最终成为VLA 而这个途径之所以广受欢迎在于VLMs在通过对网络规模数据的广泛训练中展示了学习多模态数据如文本、图像/视频的通用且鲁棒的表示的强大能力。这种能力可以激发机器人基础模型的适应以弥合高度多样化的开放世界场景和有限的机器人数据之间的差距然而大规模视觉-语言预训练在多大程度上促进通用机器人策略仍然是一个未解决的问题。此外伴随着不同类型的LLM骨干、训练数据、模型规模、架构和训练方案迅速涌现出大量多样化的不同VLMs 故哪种VLM骨干更适合机器人操作也是成功开发VLAs的一个关键问题除了不同骨架的多样性之外对于通用机器人策略包括VLA其结构更加复杂且形式多样基于现有的最流行的工作[4-π0,7-Rt-2,20-Vima,22-Openvla,24-Vision-language foundation models as effective robot imitators,34-R3m,35-Open x-embodiment,39-Octo,47-Unleashing large-scale video generative pre-training for visual robot manipulation,55-3d-vla]——这其中大部分的工作都可以在此文《GRAPE——RLAIF微调VLA模型通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)》开头的总结里看到对应的介绍链接作者提出了一种分类方法基于历史和动作信息如何在VLA中被整合动作空间是连续的还是离散的如下图图2所示考虑了4种结构形式「根据两个主要层次对VLA结构进行分类1动作空间纵轴2是否整合了历史信息横轴——比如左边是one-step 右边是historical。此外对于涉及历史的VLAs根据历史信息的组织模式将涉及历史的VLAs分为策略头和交错形式。请注意这种分类不仅考虑了从预训练的VLMs中派生的模型还包括那些虽然没有在VLMs上预训练因此不被称为VLAs但可以为将VLMs转变为VLAs提供见解的策略架构」对于历史信息建模识别出两种形式一步建模one-step modeling——见上图左侧●仅利用当前状态或观察来产生动作历史建模history modeling处理历史状态或观察的滑动窗口关于历史信息的聚合将其分为两种方法交错建模interleaved modeling▲——见上图右上角、右下角将历史观察和动作序列以交错格式整合策略头policy head ▀——见上图中间偏右上分别处理每个历史步骤并在一个独立的策略头中融合信息以进行动作预测不同的结构以不同的方式利用预训练的VLMs。因此当面临不同类型的环境和任务时它们在鲁棒性、泛化能力和数据效率方面可能具有不同的特征 1.1.2 数据的质量、多样性、跨本体数据、训练方法的研究除了VLA本身用于开发VLA的训练数据的质量和多样性同样重要。随着著名VLA的近期进展[4-π0,7-Rt-2,22-Openvla,35-Open x-embodiment,39-Octo]来自不同来源的大规模数据对于在对抗分布外任务和环境的鲁棒性和泛化方面进一步提高性能非常重要然而它们在详细的训练方法上存在很大差异一些利用额外的数据进一步预训练VLMs使表示更接近机器人操作任务[4-π0]而另一些则与领域内任务共同训练VLA[7-Rt-2,22-Openvla,35-Open x-embodiment,39-Octo] 此外通过充分预训练在多样化操作技能上期望机器人策略能以最少的示范学习新技能[13]。因此在开发高效VLA的情况下何时利用大规模跨化身数据成为一个有趣的问题为了彻底研究上述问题并找到VLA的最有效解决方案作者的研究选择了4种VLA结构、8种不同骨架和3种不同的训练数据方案来训练VLA模型 1.1.3 RoboVLMs使任何VLM能轻松集成到VLA中在作者的实验中他们提出了一个新的框架RoboVLMs将VLM转移到VLA并提供了一个统一、灵活、易于使用的开源框架使任何VLM能轻松集成到VLA中几乎不需要额外努力允许机器人从业者研究、比较和部署未来的VLA 此外他们还在一个自收集的真实世界机器人操作数据集上训练和评估了建成的VLA该数据集由100个操作任务和总共74K条轨迹组成具体来说他们最初选择了三个常用的VLMs——LLaVA、Flamingo和KosMos 作为骨架将它们与四种VLA结构结合起来检查动作空间、观察视野和历史聚合方法的效果对于应该如何制定VLA 通过广泛的研究和实验连续动作始终优于自回归离散动作同时结合历史背景对于提高性能和解决部分可观测性至关重要发现连续动作空间的策略头建模表现最佳后又比较了8种不同的VLMs作为骨架与策略头形式以回答哪个骨架更适合对于哪种VLM骨干更适合用于VLA 作者对8种不同的VLM骨干进行的广泛研究显示两种杰出的VLM骨干即KosMos [36]和Paligemma [3]显著优于其他骨干。这些结果强调全面的视觉-语言预训练对于实现卓越的VLA性能至关重要同时比较了不同VLA结构的泛化和数据效率对于模型架构直接与策略头集成的视觉-语言模型VLM表现优于其他形式因为一致使用即视觉-语言token应以其原始预训练格式进行处理并添加策略头以整合过去的视觉和本体感知观察以进行有效决策对于数据效率更大的VLM进一步提高效率需更少的数据即可实现更高的性能对于何时利用跨化身数据的问题虽然普遍认为使用跨体数据进行预训练或后训练能提高性能但这一观点尚未得到严格验证。他们的研究结果表明使用跨体数据进行预训练并不总能显著改善最终性能。然而在目标数据集上对跨体预训练模型进行后训练可以显著提高性能故作者比较了预训练使用Open X-Embodiment训练的VLA 微调使用目标数据集训练的VLA 后训练使用Open X-Embodiment预训练并进一步用目标数据集微调的VLA——相当于预训练微调最后为了确认具有最佳配置的VLA在真实世界中的适用性作者在真实世界机器人操作场景中训练和评估了它们展示了在 1未见的干扰物 2未见的背景 3未见的目标对象 4新技能描述方面的泛化能力此外利用相同机器人或任务的操作数据可以明显提升性能例如模块化方法利用预训练的视觉和语言模块来编码多模态输入的潜在表示 [6- Rt-1,31-What matters in language conditioned robotic imitation learning over unstructured data]而替代方法则依赖于使用多样化的机器人数据集进行直接训练 [39-Octo]。即使在VLA研究中对于架构或训练方案也没有共识 [7-Rt-2, 8-Gr-2, 22-Openvla, 24-Vision-language foundation models as effective robot imitators] 1.2 主要结果及发现利用RoboVLMs这个框架作者进行了广泛的实验以解决几个关键问题为什么更喜欢 VLA应该如何制定 VLA哪种 VLM 主干更适合 VLA应该何时利用跨实体数据集如下表 I 所示作者进一步将 4 个基本问题分为 6 个研究问题并实施 VLA 的连续实验以回答每个研究问题。使用适当的主干和结构构建的 VLA 模型可以大幅超越最新的通用机器人策略为了全面评估 VLA 的性能在这项工作中作者对所有模型进行了基准测试具体而言如下图图 3 所示选择了两个知名且广泛使用的模拟基准CALVIN[32] 和 SimplerEnv[40]以及一个现实世界的机器人操作实验来评估 VLA 模型 CALVIN[32] 是一个用于多任务桌面操作的模拟基准数据集根据不同的场景设置分为 A、B、C和 D 四个部分并提供 34 个基本任务总共包含 24K 人工远程操作演示并附有语言指令注释评估指标包括完成1 ∼5 个连续任务的成功率以及成功执行的任务平均数量简称为Avg. Len.真实机器人基准测试[8]包括超过70K的远程操作人类轨迹用于微调机器人策略涵盖105个操作任务为了评估模型在该基准测试上的性能采用[23- Gr-mg: Leveraging partially annotated data via multi-modal goal conditioned policy]中概述的方法在一个简单设置和四个具有挑战性的未见设置中测试每个模型这些设置的示例如下图图4所示总共在20个任务中评估每个VLA每个任务有5个设置每个设置有3次执行并报告每个设置的平均成功率。基准测试的详细描述见附录K和附录D。这些基准测试中包含的所有任务都由单臂机器人驱动导致7个自由度的动作——夹持器的6D姿态和一维的开/关状态。机器人观测可以从本体感受器信息、视觉观测和语言输入中获得 1.2.1 为什么偏爱VLA——是否合适构建通用策略、现实世界中的表现如何 1.2.1.1 是否合适构建通用策略关于为什么需要VLA可以先回答问题1VLA是否是构建通用机器人策略的合适选择具体来说作者展示了研究中表现最好的VLA它在CALVIN和SimplerEnv基准测试中创造了新的最先进成果以明显优势超越了所有其他机器人策略所有结果如表II和图5所示「在CALVIN基准上的模拟性能所有模型均在拆分ABCD/ABC上训练并在拆分D上评估。KosMos P.H.代表使用KosMos-2作为骨干和策略头作为架构的VLA且使用RoboVLMs框架构建最大训练5个周期——即KosMos P.H. represents the VLA utilizing KosMos-2 as backbone and policy head as architecture, built with theRoboVLMs framework, and is maximally trained for 5 epochs」从这些表格中可以看到RoboVLM大幅超越了现有的最先进通用策略并为机器人操作任务在模拟和实际实验中建立了一个强有力的基准具体来说可以轻松观察到以下事实在CALVIN 基准测试中RoboVLM模型在所有指标上都达到了最高性能并在从ABC 转移到D一个在训练分割中未见过的新场景时展示了卓越的泛化能力单个任务执行的绝对提升为12.6 %连续5 个任务的总提升为30.3 % 平均而言在零样本设置下RoboVLM可以在每次单独展开中完成5 个任务中的4.25 个超越了之前的SOTA 模型GR-11.09 个任务在SimplerEnv 中RoboVLM在WidowX Bridge 和Google Robol 环境中都实现了最高的平均性能展示了对不同设置和多样化操作任务的普遍有效性和鲁棒性此外作者还研究了视觉-语言预训练对泛化和数据效率的影响图6和表IV详细结果见附录H 在CALVIN的泛化中作者采用官方设置在ABC的分割上训练模型并在D上验证性能为了评估数据效率我们在模型规模从3B到9B和各种数据规模上进行实验10%的训练数据0.1x ABCD标准设置ABCD以及500%的训练数据5x ABCD额外的数据来自于官方发布的未标记数据集遵循Wu等人[47]中介绍的设置不同数据规模的详细结果见附录E 可以看到视觉-语言预训练对于泛化和数据效率都是至关重要的。这个观察是直观的因为对齐的视觉-语言表示提供了一个稳固的视觉理解基础使策略能够专注于学习操作技能。因此可以得出结论发现1VLA是通用机器人策略的有前途路径 1.2.1.2 VLA在现实世界的场景中的表现如何然而尽管VLA在模拟中表现良好由于模拟到现实的差距[54]VLA是否适合实际机器人应用仍然是一个未解的问题故作者提出第二个开放问题问题 2在现实世界的场景中VLA 的表现如何如上所述作者在现实世界的场景中部署了表现最佳的RoboVLM模型即基于仅解码器KosMos的模型以验证其有效性如下图图4所示作者的实验涉及20个具有多种技能的任务包括打开、关闭、按按钮、拾取和放置等任务对于每项任务我们评估五次执行包含基本设置、新技能描述、未见过的干扰因素、未见过的目标对象和未见过的背景该机器人系统用于真实实验基于一个7自由度的Kinova Gen3机械臂配备Robotiq 2F-85夹爪更多关于真实机器人的细节请参见第四节输入方面分别获取机器人头部和手腕上的两台摄像机的RGB图像头部摄像机提供工作空间的概览而夹爪摄像机则提供末端执行器与环境之间交互区域的近距离观察在真实机器人基准上微调由RoboVLMs构建的Octo-Base、OpenVLA和KosMos P.H.并比较它们的性能。结果如图7所示他们观察到由RoboVLMs构建的最佳VLAKosMos P.H.在所有评估设置中均表现最佳尤其是在简单和未见过的背景上展示了其有效性和泛化能力这与SimplerEnv和CALVIN模拟中的结果一致至于定性结果在附录K中展示包括各种设置下的成功执行和一些具有代表性的失败案例。KosMos P.H.不仅在基本设置任务如打开抽屉、拾取茄子等方面优于基线模型而且在未见过的物体、干扰物和背景上也能实现更好的性能此外如下图图8所示 KosMos P.H. 展现出自我纠正能力它能够识别末端执行器的不正确位置并纠正其未来的轨迹以成功完成任务。请注意这种能力在其他测试的基线中没有出现而这种数据不包含在训练数据集中如此可以得到发现2由RoboVLMs构建的最佳设置的VLA在实际场景中表现出强大的有效性和鲁棒性 1.2.2 如何制定VLA策略头结合历史观测和连续动作且提高泛化和数据效率 1.2.2.1 如何对机器人操作任务中的观测、状态和动作进行建模更具体地说应该如何在VLA的背景下对机器人操作任务中的观测、状态和动作进行建模为了解决这个问题作者实现了几种变体利用了各种开源VLM骨干网络如OpenFlamingo [35]、LLaVA [28]和KosMos [36-Kosmos-2: Grounding multimodal large language models to the world] 这些变体结合了不同的历史信息建模策略和动作空间如在Sec.I中讨论和分类的那样。CALVIN中各种VLA结构的性能总结在表III中根据这些结果我们得出以下关键观察连续动作很重要通过比较两种类型的动作空间连续和离散如表III所示观察到在单帧公式下连续动作空间始终优于离散动作尤其是在任务时间跨度增加时这一发现是直观的连续动作可以表示高精度的浮点值而离散动作仅限于索引动作区间。对于长时间跨度任务累积的复合错误显著降低了离散动作的性能历史观察事项如表 III 所示在相同的 VLM 结构下无论是编码器-解码器还是仅解码器将历史观察作为输入的模型始终优于一步模型在所有任务中均实现了显著更高的成功率。这种改进不受历史融合策略的影响此外增加可观察历史的长度可以提高性能尽管会带来更高的计算开销策略头改进历史融合在利用历史的公式中交错历史公式的表现不如通过额外的策略头合并历史。假设策略头保留VLM 的原始视觉-语言融合能力同时有效地整合历史信息此外交错的公式在训练和推理过程中会导致显著更高的内存和 FLOP 成本。这表明通过附加的策略头来结合历史信息对于 VLAs 是一种更有效和高效的方法发现3VLA在使用多步骤的历史观测作为输入和连续动作作为输出时其性能最佳。为了将历史与连续动作空间结合策略头结构表现更佳 1.2.2.2 不同的公式化如何影响VLAs的泛化和数据效率然而除了性能本身之外现代VLA面临的最重要挑战之一是实现对新对象和环境设置的泛化这对于在各种机器人和场景中的实际部署至关重要因此VLA应在开放世界环境中继承VLM的泛化能力同时在有额外域内训练样本可用时保持高数据效率。因此他们进一步探讨以下问题问题4不同的公式化如何影响VLAs的泛化和数据效率为了解决这个问题作者对各种VLA公式的泛化和数据效率进行了实证研究和评估旨在为训练高性能的VLA提供实用见解具体来说他们通过在不同数据规模上使用CALVIN数据集训练不同架构和公式的模型评估由RoboVLMs构建的不同VLA的泛化和数据效率如前所述他们重点比较交错和策略头公式——使用OpenFlamingo和KosMos骨干网络这些配置在所有配置中显示出强大的潜力请注意交错的公式只能与仅解码器结构配对。图9和表IV中展示的结果导致以下观察关于泛化性能图9作者的最佳模型基于KosMos骨干网络并利用策略头进行历史融合在零样本设置中仅表现出轻微的性能下降相比之下其他公式化方法则经历了显著的性能下降。这个发现强调了模型架构对泛化的显著影响这一结论在图5的结果中得到了进一步支持其中评估集中的任务与新指令配对以及在图7中他们的最佳模型在所有未见任务上大幅领先于其他模型对于数据效率他们观察到与泛化类似的趋势他们的最佳模型在训练数据缩减时始终实现最高性能并且与其他公式相比性能下降速度显著较慢此外不同规模的编码器-解码器VLA比较显示较大的模型往往更具数据效率如此得出发现4在泛化能力和数据效率方面利用策略头进行历史融合是最好的 1.2.3 哪种VLM骨干网络更适合VLAKosMos和Paligemma表现更好在大规模视觉-语言数据集上训练VLMs需要极高的资源。因此他们基于多样化选择的预训练大规模视觉-语言骨干进行VLAs它们具有不同的架构、训练数据规模、模型大小和潜在嵌入这些包括 Flamingo模型家族[1]编码器-解码器以及一系列仅解码器的VLMs包括LLaVA[28]、Qwen-VL[2]、MoonDream[44]、UForm[41]、Paligemma[3]和KosMos[36] 值得注意的是在本节中为了公平比较所有模型均使用静态图像进行训练而非同时使用静态和手持相机。尽管这种方法可能无法提供完全受控的比较但他们的广泛实验旨在提供关于不同VLM骨干对VLA影响的见解结果如表V所示揭示了以下观察 KosMos和Paligemma表现出明显更好的性能从表V可以看出这两个骨干比其他骨干有显著的优势。它们的优越性能得益于在大型视觉语言数据集上进行的充分视觉语言预训练——也从侧面解释了为何目前的vla sota模型π0选择PaliGemma作为其中的VLM结构部分的原因这一结果是直观的因为广泛的预训练促进了视觉和语言特征之间更强的对齐——这种对齐对语言条件操控任务至关重要从而也就说明了发现5VLAs从VLMs主干的“大型视觉语言数据集上进行的充分视觉语言预训练”中受益 1.2.4 应该何时利用跨实体数据集在最近的研究中利用大规模跨形态机器人操作数据集来提高VLAs的性能已成为一种主流趋势[4-π0, 7- Rt-2, 22-Openvla, 35- Open x-embodiment]。然而是否真正有帮助仍不完全清楚一个重要的问题仍然存在问题6大规模跨形态数据集如何对VLAs做出贡献为了解决这个问题作者将其分解为两个子问题从大规模跨载体数据集中获取哪些类型的数据对构建VLA最有利何时以及如何有效地利用这些数据在本节中他们进行了一系列实验以研究使用外部大规模跨实体数据集的不同策略。具体来说作者探讨了两种主要的设置预训练使用领域内操作数据和跨实体数据集对模型进行预训练。这种方法已在RT-2 [7]、OpenVLA [22] 和OCTO[39] 中进行探索 ——如下图所示该图来自此文《GRAPE——RLAIF微调VLA模型通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)》的开头后训练首先在跨实体数据集上训练VLMs然后通过领域内操作任务进行微调。这一策略已被π0 [4] 采用本节中的实验使用表现最佳的KosMos骨干网与用于历史融合的策略头作为基础模型。他们使用Open X-Embodiment (OXE) [35] 作为跨实体数据集该数据集包含了全球收集的多种机器人操作数据是最近研究中使用最广泛的[比如广泛应用于4-π0, 7- Rt-2, 22-Openvla, 39-Octo] 为了进行比较他们还评估了一个基线设置Finetune其中VLA仅在域内数据上进行训练此外对于Google Robot包括了RT Partial Finetune和RT Finetune 其中RT Partial Finetune仅涉及与评估任务相同任务类型的轨迹而RT Finetune涉及使用来自同一机器人在不同任务中的额外数据对策略进行协同微调 and RT Finetune involves co-fine tuning the policy with additional data from the same robot across different task 对于Bridge只评估Bridge Finetune它使用整个Bridge-V2数据集微调策略因为训练数据集中不包含具有相同评估任务指令的轨迹为了更全面地评估跨体数据集的影响他们还在CALVIN上进行了实验CALVIN不属于OXE。对于CALVIN他们省略了共同训练设置主要关注跨体数据集是否有利于机器人操控在分布外任务上的少样本学习因此他们在CALVIN上仅使用每个任务10条轨迹进行实验CALVIN少样本为了保持设置一致他们仅使用来自静态头顶摄像头的图像作为输入。在不同训练阶段利用跨化身的比较如图10所示从上到下该图显示了SimplerEnv-Google Robot和SimplerEnv-Bridge的评估结果。此外关于是否在CALVINfew-shot上整合跨化身预训练的比较如图11所示。可以得出以下观察结果 // 待更

查看全文

http://www.hkea.cn/news/14371085/