当前位置: 首页 > news >正文

公司做网站比较好的平台怎么自己做网址

公司做网站比较好的平台,怎么自己做网址,最新手游2022首发排行,株洲网站建设企业23 年 11 月来自 Google Deepmind 的论文“RoboVQA: Multimodal Long-Horizon Reasoning for Robotics”。 本文提出一种可扩展、自下而上且本质多样化的数据收集方案,该方案可用于长期和中期的高级推理,与传统的狭窄自上而下的逐步收集相比&#xff0c…

23 年 11 月来自 Google Deepmind 的论文“RoboVQA: Multimodal Long-Horizon Reasoning for Robotics”。

本文提出一种可扩展、自下而上且本质多样化的数据收集方案,该方案可用于长期和中期的高级推理,与传统的狭窄自上而下的逐步收集相比,其吞吐量提高 2.2 倍。通过在 3 栋办公楼内执行任何用户请求并使用多种具身(机器人、人类、带抓取工具的人类)来收集真实数据。通过这些数据,表明在所有具身上训练的模型比仅在机器人数据上训练的模型表现更好,即使仅对机器人episodes进行评估也是如此。
其探索收集成本的经济性,发现对于固定的预算,利用更便宜的人工收集和机器人收集是有益的。本文发布一个大型且高度多样化(29,520 条唯一指令)的数据集,称为 RoboVQA,包含 829,502 个(视频,文本)对,用于以机器人为中心的视觉问答。其还展示如何通过评估具有干预机制的真实机器人实验来实现任务的完成,使其即使不完善也可以在人工监督下部署,同时还提供单一的性能指标。

本文展示一个基于数据集训练的单一视频条件模型 RoboVQA-VideoCoCa,该模型能够在广泛的现实环境中执行各种落地的高级推理任务,认知干预率比零样本视觉-语言模型 (VLM) 基线低 46%,并且能够引导真实机器人完成长远任务。与零样本模型的性能差距表明,还需要收集大量落地的数据才能用于现实世界的部署,这强调对可扩展数据收集方法的迫切需求。视频 VLM 在所有 VQA 任务中的平均错误率降低 19%,明显优于单图像 VLM。由于视频条件和数据集的多样性,该模型可以用作需要识别动作而不是状态情况下的一般视频价值函数(例如成功和可affordance),从而扩展机器人的能力和环境理解。

数据

收集和数据集:如图所示从用户请求到 VQA 任务生成的收集过程。从 3 栋办公楼和 3 个具身中的所有长期任务中收集 episodes,从而产生 238 小时的视频(10 天)、5,246 个长期 episodes 和 92,948 个中期 episodes 。平均长期 episodes 持续 102 秒,中期 episodes 平均持续 14 秒。在实验中,对自由格式文本答案的评估是由人类执行的,因此故意将验证和测试集保持在较小的规模,每个大约有 1,000 个 VQA 条目(每个来自 50 个 episodes)。虽然训练和验证/测试之间的场景可能会重叠,但 episodes 没有重叠。

请添加图片描述

任务多样性:为了确保数据集和基准不会过拟合特定环境、领域或任务,收集广泛任务的示例,而传统的收集方式 [5] 中,研究人员和工程师会以自上而下的方式提前确定一个固定的小任务列表。在此选择自下而上的方法,其中大量任务由用户和遥操作员众包。这有利于广度和更好地与来自真实用户的请求分布保持一致。这导致任务多样性高(26,798 个独特的中期指令,2,722 个独特的长期指令)。

吞吐量和成本:如图所示大部分吞吐量增益来自以连续方式收集的中期 episodes,而无需重置场景或机器人。注:事后标记过程可以通过众包并行化,如果并行执行,则不会影响吞吐量,但它仍然是收集预算中的一项成本。然而,VQA 任务是免费生成的,它利用已知的过去和未来任务序列,并根据不同的已知语义点(例如,在执行中期任务之前或之后)及时定位问题。

思维链:将高级目标分解为定义的任务,使机器人能够在执行长期规划时体现其思维过程。此外,这些任务以自然语言问题和答案的形式提供,可以看作是一系列视觉问答 (VQA) 步骤。这种表述类似于语言模型提示的思维链 [6]。同时进行的工作有[7],它表明模仿一步步的人类思维可以提高规划准确性。

模型

RoboVQA-VideoCoCa

训练一个名为 RoboVQA-VideoCoCa 的新模型,该模型源自 VideoCoCa 模型 [8],这是一个扩展 CoCa [9] 的视频-语言模型。它使用一种编码器-解码器架构,结合视频和文本模态之间的对比预训练(如 CLIP [10])和生成预训练(如 SimVLM [11])。除非另有说明,用一个 383M 参数的 VideoCoCa 基础模型,其初始检查点在图像字幕任务上进行训练,并在 RoboVQA 视频文本数据集上视觉问题方面的重要性,并发现视频条件的实质性好处。

基线

为了与微调模型进行比较,考虑以下最先进的基线,它们在视觉问答和机器人规划方面具有类似的功能。

PaLM-E [3] 是一个基于预训练的 ViT [12] 和 PaLM [2] LLM 模型构建的视觉语言模型,它将图像投影到预训练的 LLM 的标记嵌入空间中。
规划方法。尝试四种基线规划方法:其中两种使用 RoboVQA-VideoCoCa 和 PaLM-E(零样本)作为端到端规划模型。作为另外两个基线,采用 SayCan [5] 和 Grounded Decoding [13] 的方法,它们使用纯文本 LLM(PaLM [2])进行短语级或 token 级解码,由视觉 affordance 函数引导(使用 RoboVQA-VideoCoCa 作为 affordance 的视频价值函数)。

基准

VQA 基准

我们首先评估模型在各个任务上的表现,其中每个任务由一个视频片段和一个问题组成。使用精确匹配将推理结果与存储在中央数据库中先前人工评估结果进行比较,以确定视频问题对的正确/不正确。然后收集未找到匹配的推理结果供人工评估者评估。在评估过程中,向人工评估者展示与模型呈现的精确视频片段和问题。要求评估者将模型生成的答案标记为正确或不正确,在这种情况下,评估者可以提出正确答案。所有答案都添加到数据库中,并相应地标记每个答案的正确性。

带干预的规划基准

干预:如图所示,提出 3 种不同的长期规划评估。每个评估都通过干预率来衡量,将其进一步分解为高级文本域的认知和低级运动命令域的物理。然而,所有进展都可以用平均认知和物理速率的单一干预率来衡量。当物理动作是遥操作(100% 物理干预)时,这种区别很有用,可以将高级评估与低级评估分离开来。由于 RoboVQA 数据集非常广泛且多样化,需要一个可以测试整个范围的评估程序。然而,当前的低级策略往往只在非常狭窄的领域中执行,因此这种解耦能够在评估 #1 和 #2 中测试所有任务。

请添加图片描述

离线视频结果:在评估 #1 中,在来自 RoboVQA 数据集的 100 个长期 episodes(机器人和人类)上运行模型,总共有 854 个规划步。模型被赋予长期指令,需要输出中期规划,这些计划由人类评分。注:SayCan 和 Grounded Decoding 基线的推理时间很慢,这使得它们不适合在实时环境中运行(因此未在其他评估中显示)。同样,PaLM-E 562B 模型的推理时间对于实时来说太慢(30 秒),因此在这里使用较小的版本。注:尽管模型小了 30 倍,但它的性能比最先进的模型高出 46%。

http://www.hkea.cn/news/610882/

相关文章:

  • 图书购物网站开发总结百度发广告需要多少钱
  • 做网站 业务流程图站长统计性宝app
  • 长沙做网站大概多少钱万网域名注册教程
  • 成都网站建设网站产品推广计划书怎么写
  • 深圳个人网站建设大连网络推广公司哪家好
  • 建设工程教育appseo技术培训中心
  • 家教中介怎么利用网站来做的免费广告推广
  • wordpress仿制建设seo是什么平台
  • 商城网站建设分为几块seo臻系统
  • 网络营销对于个人而言有什么作用seo文章
  • 做书籍封皮的网站今日中国新闻
  • 东莞建设网站电工培训技术学校
  • 深圳聘请做网站人员成都排名seo公司
  • 网站备案之后东莞网站关键词优化公司
  • 多种专业网站建设潍坊网站排名提升
  • 网站投稿系统怎么做网站制作流程是什么
  • 交警网站建设整改百度推广怎么推广
  • 重庆网站建设哪里比较好呢网站下载
  • 网站运行速度慢的原因看b站二十四小时直播间
  • 电商网站开发服务全网营销骗局揭秘
  • 个人网站怎么做互联网营销师培训课程免费
  • 微信网站建设价格网站开发报价方案
  • wordpress utc时间慢8小时大连seo关键词排名
  • 中国建设承包商网站创建软件平台该怎么做
  • 中小企业网站建设费用海外推广服务
  • 企业名称的英文做网站名seo是怎么优化推广的
  • 手机在线建站西安seo服务公司
  • 网站开发有前途吗我也要投放广告
  • 备案 网站名称怎么写crm软件
  • 扁平式网站模板b2b网站推广优化