当前位置: 首页 > news >正文

网站怎么做微信登录界面北京地铁建设管理公司网站

网站怎么做微信登录界面,北京地铁建设管理公司网站,网站制作公司网站建设公司,网站建设国内外研究现状概述 论文地址:https://arxiv.org/pdf/2402.13217.pdf 视频是我们观察世界的生动窗口#xff0c;记录了从日常瞬间到科学探索的各种体验。在这个数字时代#xff0c;视频基础模型#xff08;ViFM#xff09;有可能分析如此海量的信息并提取新的见解。迄今为止#xff0c;…概述 论文地址:https://arxiv.org/pdf/2402.13217.pdf 视频是我们观察世界的生动窗口记录了从日常瞬间到科学探索的各种体验。在这个数字时代视频基础模型ViFM有可能分析如此海量的信息并提取新的见解。迄今为止视频理解领域的研究确实取得了长足进步但构建真正的基础视频模型娴熟地处理外观和运动问题仍是一个尚未实现的领域。 因此本文提出了创新型通用视频编码器VideoPrism旨在解决从视频分类到定位、搜索、字幕和问题解答等所有视频理解任务。通过广泛的评估包括计算机视觉数据集以及神经科学和生态学等科学学科VideoPrism 以最小的适应度展示了最先进的性能。下图是 VideoPrism 的概览。 在 VideoPrism 的开发过程中我们强调了预训练数据的重要性。理想情况下预训练数据应该是来自世界各地的具有代表性的视频样本但实际上许多视频并不附带描述内容的文本或者噪音非常大。因此VideoPrism 通过收集 3,600 万对高质量视频和字幕以及 5.82 亿个噪声视频片段充分利用了这些数据。 建模从视频和语言之间的意义对比学习开始。然后它使用纯视频数据结合全局和局部提炼、标记洗牌并通过屏蔽视频建模进一步改进。这种独特的两阶段方法是 VideoPrism 在同时关注视频外观和运动的任务中的优势所在。 通过在四大理解任务类别中进行广泛评估包括从网络视频、脚本表演到科学实验的 33 种不同基准证明了这种方法的有效性 VideoPrism 在其中 30 种基准中的表现优于现有的视频基础架构模型 (ViFM)。在其中 30 项基准测试中VideoPrism 的表现远远超过了现有的视频基础架构模型ViFM证明了其卓越的性能。结果如下图所示。 这表明 VideoPrism 具有 非常 好的概括能力。 技术 VideoPrism 采用创新的视频理解方法。其核心是一个丰富的预训练数据集包含 3600 万个片段。这些片段是从 3,600 万个视频中提取出来的并配有高质量的人工字幕。此外2.75 亿个视频中的 5.82 亿个片段包含带噪声的平行文本。这种预训练数据集在视频基础模型ViFM中是前所未有的但与图像基础模型所用的数据相比仍然较少。为了填补这一空白本文还收集了其他数据包括 ASR、元数据和通过大规模多模态模型生成的噪声文本。 值得注意的是在预训练和后续训练中都没有使用评估基准的训练集。这可以防止模型针对特定的评估基准进行过度优化。此外预训练语料库与评估基准视频是去重复的以避免数据泄露。 在模型架构方面VideoPrism 基于视觉转换器ViT但同时考虑了空间和时间因素。这确保了在输出标记序列中保留空间和时间维度以支持需要细粒度特征的下游任务VideoPrism-g 采用了拥有 10 亿个参数的 ViT-giant 网络而较小的 ViT-Base 网络则采用了更小的 ViT-Giant 网络。VideoPrism-B 采用较小的 ViT-Base 网络。 VideoPrism 采用独特的两阶段方法通过利用视频和文本对以及纯视频数据来学习纯视频数据。由于大型预训练数据集中的文本在某些视频中通常会出现噪声因此 VideoPrism 专注于纯视频数据以捕捉视频的深层含义。 第一阶段在这一阶段对比学习用于使视频编码器与文本编码器同步。这一过程根据视频-文本对的相似性得分通过最小化对称交叉熵损失从语言中引导视频编码器学习丰富的视觉语义。这一阶段产生的模型为下一阶段的学习提供了语义视频嵌入。 第2 阶段第 1 阶段中仅基于视觉文本数据的学习面临着一个问题即文本描述包含噪音而且往往只捕捉外观而非运动。第二阶段的重点是从纯视频数据中学习外观和运动信息。这里引入了一种新的标记洗牌方案以及全局和每个标记的蒸馏损失作为对遮蔽视频建模的改进。这样模型就能在保留语义知识的基础上根据遮蔽视频学习预测第一阶段的嵌入。 通过这种两阶段方法VideoPrism 正在构建一个底层视频编码器它可以更好地理解视频并捕捉外观和运动的语义。 试验 对 VideoPrism 进行了评估以证明其在各种以视频为中心的理解任务中的性能和多功能性。这些任务分为四类第一类是一般视频理解。这包括分类和时空定位第二类是零镜头视频文本检索第三类是零镜头视频字幕和质量保证第四类是用于科学研究的计算机视觉第四类是用于视频分析的视频理解。 在所有实验中VideoPrism 都被固定为视频编码器只训练特定任务所需的组件。这样就可以评估 VideoPrism 的多功能性及其独立于特定任务模型的能力。此外VideoPrism 方法在视频分析中特别有用因为视频编码的成本可以分摊到多个任务中因此很难进行昂贵的微调。 首先将其与视频理解基准 VideoGLUE 中的先进模型进行比较。评估范围包括以外观为重点的动作识别VC(A)、动作丰富的动作识别VC(M)、多标签视频分类VC(ML)、时间动作定位TAL、时间和空间动作定位STAL。这项研究使用了八个具有代表性的数据集包括 从 ViT-B 到 ViT-g随着模型大小的增加VideoPrism 的性能显著提高。这意味着 VideoPrism 在单一编码器中结合了对不同视频源的鲁棒性如外观和运动线索、空间和时间信息、网络视频和脚本性能。 然后我们使用 MSRVTT、VATEX 和 ActivityNet 这三个关键基准来评估 VideoPrism 的零镜头视频文本检索性能。零镜头视频分类任务也是对 Kinetics-400、Charades、SSv2-Temporal、SSv2-Events 和 NExT-QA 的 ATP-Hard 子集的挑战。 作为一项重要成果VideoPrism 在多项基准测试中创造了新的最佳记录并在特别具有挑战性的数据集上取得了显著改进VideoPrism-B 的表现优于现有的大型模型。此外与使用域内数据和其他模式预先训练的模型相比VideoPrism 的表现同样出色甚至更好。这些结果表明VideoPrism 在零镜头搜索和分类任务中具有强大的泛化能力。 此外MSRVTT、VATEX 和 YouCook2 等标准视频封顶数据集以及 MSRVTT-QA、MSVD-QA 和 NExT-QA 等视频质量保证基准被用于视频封顶和质量保证任务并在零镜头设置下进行性能 评估。评估。请注意这些模型并未针对字幕和质量保证任务进行专门调整。 结果如下表所示。尽管结构简单适配器参数数量有限但它仍具有竞争力在除 VATEX 之外的大多数评估中都取得了优异成绩。这表明VideoPrism 编码器在视频到语言的生成任务中具有广泛的通用能力。 现有的视频分析基准主要侧重于以人为中心的数据而 VideoPrism 的功能及其在科学应用方面的潜力则是利用科学数据集对各种视频集进行探索。分析涵盖了广泛的学科包括行为研究、行为神经科学、认知科学和生态学。本研究首次尝试将 ViFM 应用于科学数据集结果表明 ViFM 的性能与专业模型相当甚至更好。这 该分析包括在科学实验中捕获的标注了专业知识的大型视频数据集其中包括苍蝇、小鼠、黑猩猩和肯尼亚野生动物。所有这些数据集都为行为视频分类或时空动作定位进行了详细注释。其中CRIM13 数据集分析的是笼子侧面和上方视角的视频。 结果表明使用共享的冻结编码器可以获得等同于或优于专用于个别任务的特定领域模型的性能。尤其是在基本模型中VideoPrism 的表现优于专家模型。此外扩展模型可大幅提高所有数据集的性能。这些结果表明ViFMs 有潜力在多个领域显著加速视频分析。 总结 本文介绍的 VideoPrism 是一种基本的视频编码器可在视频理解领域实现最先进的技术。它专注于数据和建模方法建立了自己的大型预训练数据集和有效提取视频外观和运动信息的预训练策略。与其他模型相比它在各种基准测试中取得了最佳性能并显示出极高的泛化能力。 视频理解技术的进步有可能加速从科学研究到教育、机器人、医疗保健和内容推荐等领域的发展。这些技术有望促进科学发现、丰富学习体验、增强安保和安全并实现反应更灵敏的互动系统。 然而在现实世界中使用这些模型之前还必须采取措施防止潜在的偏见和滥用。当务之急是减少算法偏差、保护隐私并遵守负责任的研究规范。论文指出必须继续在社区内推动关于这些新发展的公开讨论以便以负责任的方式从这项技术中获益。
http://www.hkea.cn/news/14555947/

相关文章:

  • 大淘客网站是怎么做的网站素材免费下载
  • 大连网站推广工具创建网站
  • 电脑维修网站模板下载网站设计 侵权
  • 世纪兴网站建设保定百度推广排名
  • 网站平台建设做好公司宣传wordpress内页链接可打开首页错误
  • 杭州市住房和城乡建设厅网站做网站 杭州
  • 自己做的网站 kindle唐河网站制作
  • 做分销商城网站的网站开发所得税
  • wordpress如何本地安装插件拼多多标题优化软件
  • 平面设计可以做网站办公室设计报价
  • 网站建设需要提供哪些信息阿里云电影网站建设教程
  • 营销型网站托管如何做企业网站推广产品
  • 导航网站备案微网站建设方向
  • 导购网站开发 源码宝塔 wordpress
  • 酒店微信网站建设网络营销外包团队哪些好
  • 建设项目竣工验收网站wordpress视屏播放器
  • 账号注册网站mvc5网站开发用户注册
  • 随县住房和城乡建设局网站页面设计怎么写
  • 哪些网站是营销型网站及原因做kegg的网站
  • 公司网站建设计划书网页制作策划路程怎么写
  • 个人网站 模版 后台管理系统长沙网站建设qq交流群
  • 创办一个网站多少钱网站开发信息平台项目总结
  • 郑州做网站加密的公司资讯网站模板带会员投稿功能
  • wordpress数据库文件导入福永网站优化
  • 东莞做营销型网站的推广公司好做吗
  • 网站推广员工作咋样wordpress 调用用户名
  • 企业网站实名认证怎么做wordpress安装工信部备案
  • centos做网站服务器建设部网站人员查询
  • 哪里有建设网站中的视频下载wordpress售后退货插件
  • 网站类的知识360建筑网app下载