网站备案主体修改,免费婚恋网站设计,图案设计网站有哪些,网站建设流程图概述
论文地址#xff1a;https://arxiv.org/abs/2405.12213 在机器人学中#xff0c;通常使用针对特定机器人或任务收集的数据集来学习策略。然而#xff0c;这种方法需要为每项任务收集大量数据#xff0c;由此产生的策略只能实现有限的泛化性能。利用其他机器人和任务的…概述
论文地址https://arxiv.org/abs/2405.12213 在机器人学中通常使用针对特定机器人或任务收集的数据集来学习策略。然而这种方法需要为每项任务收集大量数据由此产生的策略只能实现有限的泛化性能。利用其他机器人和任务的经验可以获得更广泛的泛化性能并在下游任务中获得更好的性能但这需要考虑其他机器人的形态、传感器配置、任务规格和环境因此建立一个能做到这一点的通用机器人模型 被认为是非常困难的任务。是一项非常艰巨的任务。
在此背景下一些研究提出了 “机器人基础设施模型”可直接从机器人观察映射到行动。这些模型可将零射或四射泛化到新的领域和机器人从而在不同的任务、环境和机器人系统中实现视觉运动控制。例如GNM 模型可通用于不同的机器人导航场景RoboCat 模型可处理不同机器人形态下以目标为导向的任务RT-X 模型可执行以语言为导向的操作。
这些模型是向 通用机器人模型 迈出的重要一步但仍有许多工作要做。在本文中我们正在设计一个系统为下游机器人应用中的各种界面预先学习通用机器人策略。
该系统的核心是一个转换器架构可将任意输入标记通过观察或任务创建映射到输出标记转化为行动。这样就可以控制各种摄像机配置和机器人无需额外学习只需语言指令或目标图像即可。此外通过添加适当的适配器和微调还能以较小的数据集和计算成本调整新的机器人配置。
我们正在开发 Octo这是一种基于变压器的策略使用开放 X-EmbodimentX-实验数据集中的 800 000 个机器人演示进行预训练。Octo是首个能够有效微调新观察结果和行动空间的机器人控制策略也是一个完整的开源机器人控制策略包括学习管道、模型检查点和数据。虽然 Octo 的各个组件变压器主干、扩散头等已在之前的工作中讨论过但将这些组件集成到一个强大的通用机器人策略中是独一无二的新技术。 通过对九个机器人的广泛实验本文提出的系统在单臂和双臂操纵任务中提供了最先进的多机器人控制性能并可作为一种有效的初始化工具用于具有新观测和行动空间的未知设置。本文还仔细研究了 GRP 预学习过程中设计决策的影响以评估数据分布、模型架构和策略制定的选择如何影响预学习 GRP 的质量。评估结果证明了规模和灵活性的实用性。
请注意本文公开了训练、使用、重现和微调 Octo 模型所需的所有资源提供了 2700 万和 9300 万参数的预训练 Octo 模型检查点支持多个 RGB 相机输入、语言和目标图像任务规范。它提供了一组可用于支持语言和目标图像任务规范的模型。此外还提供了在新领域中微调这些模型的脚本、预训练管道、优化数据加载器、多模态输入的转换器实现以及监控训练进度的工具。
Octo 模型设计
论文开发了 Octo 模型这是一种开源的通用机器人策略可通过微调适应新的机器人和任务。论文还介绍了关键设计决策、学习目标、训练数据集和基础设施。
Octo 模型的设计注重灵活性和可扩展性。它是一个通用的可扩展模型支持各种机器人、传感器配置和动作并可在大量数据上进行训练。特别是它采用自然语言指令、目标图像、观察历史和扩散解码来支持多模态行动预测Octo 可以有效地适应新的行动空间以及具有不同摄像头和传感器组合的机器人。这种设计使 Octo 成为一种灵活多变的机器人策略可用于各种机器人应用和研究项目。
Octo 的核心在于基于转换器的策略它由三个主要部分组成首先是输入标记器它将语言指令、目标和观察序列转换为标记下图左其次是转换器主干它处理标记并将其转换成所需的输出动作第三是读出头它生成所需的输出动作。第三部分是读出头负责生成所需的输出操作。 任务定义如语言指令或目标图像和观察结果如手腕或第三方摄像头数据流通过特定模式的标记器转换为通用标记格式。语言输入经过标记化处理并通过预先训练的转换器生成嵌入语言的标记序列。图像观察结果和目标会通过浅层卷积堆栈并分割成一系列扁平化的斑块。
统一标记序列由变换器处理。这与之前基于观察和行动序列学习基于转换器的策略的工作相似Octo 转换器的注意模式是逐块屏蔽的因此观察标记只与同一时间步或更早的标记相连而任务标记则只与更早的标记相连。只关注任务标记。这种模块化设计允许在微调过程中添加或删除观察和任务。
读出标记类似于 BERT 的 [CLS] 标记是前一个观测序列的紧凑向量嵌入。一个实现扩散过程的轻量级 行动头 被应用于读出标记的嵌入。这个 动作头 会预测几个连续的 “动作块”。
这种设计允许在下游微调期间将新任务、观察输入或行动输出头灵活添加到模型中。通过保留转换器的预训练权重只需添加新的位置嵌入、新的轻量级编码器或新的头部参数就能适应添加新任务、观察结果或损失函数的要求。
这种灵活性是 Octo 成为通用模型的重要因素。在微调过程中调整 Octo 的输入和输出的能力是机器人界的一个多功能工具因为在预训练过程中不可能涵盖所有的机器人传感器和动作配置。以往将标准变压器骨架或视觉编码器与 MLP 输出头融合在一起的模型设计会固定模型预期输入的类型和顺序而 Octo 的观察和任务切换则不需要重新初始化模型的大部分内容。
这样Octo 模型就能在各种机器人应用中展示其作为灵活多变的机器人策略的能力。
Open XEmbodiment Dataset 中的 25 个不同数据集用于训练 Octo 模型。该数据集收集了各种机器人训练数据。它包含来自不同机器人结构和场景的各种任务的演示数据。这些数据集不仅在机器人类型上存在差异而且在传感器类型和标签例如有无腕部摄像头或有无口头指令上也存在差异。 在创建训练数据集时我们首先排除了不包含图像流或使用 delta 末端执行器控制的数据集。我们还排除了重复性过高、分辨率过低或过于偏重特定任务的数据集。剩下的数据集被分为 多样性较高 和 多样性较低 的数据集多样性较高 数据集的权重在训练过程中会加倍。重复次数较多的数据集的权重也会降低以确保混合物不会出现偏差。最后对缺失的摄像机通道进行零填充以统一机械手的动作空间。值得注意的是虽然使用这种方法获得的训练数据集非常有效但作者认为今后需要对数据集的质量进行更详细的分析。
本文研究了两种变体使用 ViT-S 型变压器主干网的 Octo-Small以及使用 ViT-B 型变压器主干网的 Octo-Base。
试验
在此我们对 Octo 模型的性能进行了实验分析以评估其作为通用机器人基本模型的能力。评估要点如下。
Octo 能否控制多种机器人形态并解决语言和目标任务Octo 权重是否适合针对新任务和机器人进行数据高效的微调 它们比从头开始学习或常用的预训练模型更好吗在制定 Octo 通用机器人策略时哪些设计决策最为重要
Octo 的能力已通过四个不同机构的九个机器人学习设置进行了评估如下图所示。与预训练数据相匹配的机器人设置用于测试语言和目标图像任务的零点控制能力。在这些设置中所有机器人都使用三角洲末端执行器控制动作观察空间为 RGB 图像。 此外还将评估 Octo 针对新环境和新任务进行数据高效微调的能力。这包括新的观测如 伯克利插入 中的力矩输入、新的动作空间如 伯克利拾取 中的关节位置控制和新的机器人形态如 伯克利可乐 “和 “伯克利双臂”。双臂”。每个微调设置使用大约 100 个 Indomain 演示在 NVIDIA A5000 GPU 上进行微调的时间不到 5 个小时。评估任务测试 Octo 与各种对象交互如 “WidowX BridgeV2”、解决长期任务如 “斯坦福咖啡”和执行精密操作如 “伯克利插入”的能力。
Octo 在零镜头控制多个机器人的能力与 RT-1-X 进行了比较RT-1-X 是公开可用的最佳通用机器人策略与 Octo 一样RT-1-X 也是在 Open X-Embodiment 机器人数据集上预先训练的与 Octo 一样RT-1-X 被设计用于在零镜头控制中控制多个机器人。控制多个机器人。此外Octo 的零次射击能力与 RT-2-X 的零次射击能力进行了比较RT-2-X 是一个拥有 55 亿个参数的视觉语言模型RT-2-X 在 Open X-Embodiment 数据集上进行了微调并生成机器人动作RT-1-X 和 RT-2-X 模型是在更为复杂的开放 X-Embodiment 数据集上训练的。-X 模型是在更有限的 350,000 集子集上训练的而 Octo 的子集为 800,000 集。此外Octo 作为用于数据高效微调的策略初始化的性能还与两种流行方法进行了比较在目标领域演示中从头开始学习和使用预训练的视觉表征。
在微调过程中我们发现从头开始学习大型变压器架构会导致小数据集的早期过度拟合。相反通过使用标准策略架构从头开始学习我们取得了更好的结果。该架构结合了具有 FiLM 语言调节功能的 ResNet 视觉编码器和在扩散目标上训练的小型变换器-动作解码器参数为 2800 万与 RT-1 类似。该架构被用作从零开始的基线“ResNet变换器划痕”。按照 Majumdar 等人的方法将 ViT-B 视觉编码器初始化为 VC-1 权重使用以自我为中心的视频和在 ImageNet 上预先训练好的最先进的视觉表征并结合 MLP 动作解码器。整个模型经过训练可使用 MSE 损失预测专家动作。
下图比较了 Octo、RT-1-X 和 RT-2-X 的零点操作能力。评估从预先训练的数据集中选取了几项任务进行例如拾放、用抹布擦桌子和开关抽屉。每个机器人都从相应的 OXE 数据集中选择了两个口头任务每个任务在不同的初始条件下进行了 10 次试验。所选任务是预训练数据的 “非分布”但需要对新的物体位置、照明条件、背景和干扰物体进行泛化。 在预学习环境中所有方法都能很好地完成任务但 Octo 的平均成功率比 RT-1-X 3500 万参数高出 29%。性能相当。此外RT-1-X 和 RT-2-X 只支持口头指令而 Octo 还支持目标图像。使用目标图像评估 WidowX 任务的成功率比使用口头指令评估的成功率高 25%。这可能是由于目标图像提供了更多关于任务完成情况的信息。BridgeV2 领域对数据集中的设置以及新环境、场景和技能的零拍摄能力进行了详细分析。结果表明Octo 模型对新物体的成功率很高而对新场景和新行为如翻转和精确插入的成功率则略低。
在新领域进行数据高效微调的结果如下表所示微调 Octo 比从头开始训练或使用预训练的 VC-1 权重能产生更好的策略。在所有设置中Octo 的平均性能比次优基线高出 52%这表明 Octo 作为默认设置更胜一筹。 Octo 还支持新的观测如 伯克利插入 中的力矩输入、新的动作空间如 伯克利拾取 中的关节位置控制和新的机器人形态如 伯克利可乐 “和 “伯克利双臂”。双臂”也是可能的。这证明 Octo 具有超越单一摄像头输入和末端执行器位置控制的灵活性适用于广泛的单臂和双臂机器人操纵问题。
总结
Octo 是一种基于变压器的大规模策略已在迄今为止最大的机器人操作数据集800 000 个机器人轨迹上进行了预训练。论文表明Octo 能以零点的方式解决各种任务而且 Octo 的构造性设计允许根据新的输入和操作空间进行微调使其成为解决各种机器人控制问题的灵活初始设置。此外还发布了训练和微调代码以及辅助大型机器人数据集学习的工具。
尽管 Octo 在零点测试和微调评估中表现出很高的性能但目前的模型也存在一些不足。这些缺陷主要是由训练数据的特点造成的。首先当前的 Octo 模型在处理腕式摄像机信息方面很吃力。通常情况下仅使用第三方摄像头时的微调结果要好于结合腕部摄像头时的微调结果。此外基于语言指令的策略和基于目标的策略在性能上也存在明显差异。在这种情况下可能是由于训练数据中缺乏相应的模式。只有 27% 的数据包含腕式摄像头信息56% 的数据包含语言注释。
扩大用于训练 Octo 的数据是一个自然的改进方向Open X-Embodiment 数据集由最佳机器人演示组成因此当前的模型是通过模仿来学习的。未来的研究应考虑从次优或在线交互数据中学习并设定不同的目标。此外尽管 Octo 目前只在单臂和双臂机械手上进行了训练和评估但将其扩展到更多具有导航和移动操作功能的机器人集上仍有很大潜力。
Octo 代表着向构建通用机器人策略迈出了一步该策略可在各种机器人设置下按原样运行但要改进该模型仍有许多工作要做。Octo 为研究人员和从业人员提供了访问大型机器人数据集的途径利用预先训练好的机器人模型高效地学习新任务并提供了构建通用机器人策略的简单方法该策略可用于各种机器人设置、希望这将成为未来广泛应用的一个简单起点。