当前位置: 首页 > news >正文

网站目录文件夹中信建设有限责任公司陶杨

网站目录文件夹,中信建设有限责任公司陶杨,uc投放广告网站要自己做吗,优化什么#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息 标题: Number it: Temporal Grou… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息 标题: Number it: Temporal Grounding Videos like Flipping Manga 作者: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang arXiv: https://arxiv.org/abs/2411.10332 摘要 视频大型语言模型Vid-LLMs在理解视频内容以进行问答对话方面取得了显著进展。 然而它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难这些任务被称为视频时间定位VTG。 为了解决这一差距我们引入了数字提示NumPro这是一种新颖的方法它通过为每个视频帧添加独特的数字标识符使Vid-LLMs能够将视觉理解与时间定位相结合。 将视频视为一系列编号的帧图像NumPro将VTG转化为一个直观的过程按顺序翻阅漫画分镜。 这使得Vid-LLMs能够“阅读”事件时间线准确地将视觉内容与相应的时序信息联系起来。 我们的实验表明NumPro显著提高了顶级Vid-LLMs的VTG性能而无需额外的计算成本。 此外在NumPro增强的数据集上进行微调为VTG定义了新的最先进水平在关键帧检索的mIoU上超越了之前的最优方法高达6.9%在突出检测的mAP上提高了8.5%。代码将在https://github.com/yongliang-wu/NumPro上提供。 主要贡献 我们引入了NumPro这是一种新颖的方法通过在视频帧上叠加帧号增强了视频大型语言模型Vid-LLMs的视频时间定位VTG能力使时间定位变得与翻阅漫画时跟随编号面板一样直观。通过实验研究我们发现了一种合适的NumPro设计字体大小、颜色和位置确保模型的高可检测性同时最小程度地干扰原始视频内容。我们在无训练和微调场景下对标准VTG基准和指标进行了彻底的NumPro评估证明了其在各种模型和数据集上的有效性。 Number-Prompt 方法 我们的数字提示NumPro方法提供了一种简单而有效的解决方案以增强现有视频大型语言模型Vid-LLMs的视频时间基础VTG能力无论是在无训练还是微调设置下。 Attention Analysis 当前视频语言模型将视频处理为一系列帧。视频的视觉表示可以视为每个单独帧的拼接表示将离散帧的信息汇总为全面的视频级别。这允许视频语言模型通过将帧图像的视觉表示与语言查询的文本表示对齐来理解视频。 为了探索视频时间定位VTG的挑战我们分析了帧图像token表示和查询语言token之间的注意力图然后评估了相关视频帧的时间描述。以Qwen2-VL-7B为案例研究我们突出了VTG对视频语言模型Vid-LLMs的挑战虽然Vid-LLMs可以理解视频中正在发生的事件但它们难以将这种理解转化为描述事件开始和结束时间的文本描述。 具体来说我们以视频和语言查询作为输入从Qwen2-VL-7B的最终多头自注意力层中提取注意力分数。对于视频序列中的每一帧我们聚合所有对应该帧的视觉token在所有注意力头中的注意力分数。 如图2所示注意力图揭示了事件文本查询与目标视频片段之间的强相关性。这表明Qwen2-VL-7B能够有效地聚焦于与查询相关的帧这与模型在其他内容相关的视频理解任务中的出色表现一致。然而模型在表述正确的时间边界方面存在困难并产生了诸如“从200到599”这样的令人惊讶的幻觉。这一观察强调了需要机制来弥合空间特征对齐与Vid-LLMs的时间推理之间的差距这是我们NumPro方法旨在解决的问题。 NumPro and NumPro-FT 我们的方法编号提示NumPro使VidLLMs能够直接将特定视觉内容与其时间信息关联起来将时间定位转化为视觉对齐任务。如图3所示NumPro在无训练和微调场景下均能运行。 在无训练设置中每个视频帧都标有相应的帧号。通过利用VidLLMs内置的光学字符识别OCR功能我们使它们能够通过与视觉内容相关的帧号“读取”时间线。为了阐明添加的数字对Vid-LLMs的目的我们在每个事件查询前添加一条简单的指令“每个帧上的红色数字代表帧号。”这种方法允许Vid-LLMs通过直接将帧号与语言查询相联系准确识别帧级边界。 为了提高性能NumPro-FT在NumPro增强的数据集上微调VidLLMs。这一阶段将训练数据中的帧数与时间跨度对齐将时间定位能力嵌入到模型的学得表示中。在微调过程中我们冻结视觉编码器仅微调视觉投影器和LLM组件。为了减少参数数量和训练开销我们应用低秩自适应LoRA来调整LLM。我们的训练目标是最大化通过自回归语言模型生成正确答案token A \mathbf{A} A 的可能性 P ( A ∣ V , T instruct ) ∏ j 1 L P θ ( A j ∣ V , X instruct , A j ) P(\mathbf{A} \mid V, T_{\text{instruct}}) \prod_{j1}^{L} P_\theta(A_j \mid V, X_{\text{instruct}}, \mathbf{A}_{j}) P(A∣V,Tinstruct​)j1∏L​Pθ​(Aj​∣V,Xinstruct​,Aj​) 其中 V V V 代表输入视频 θ \theta θ 表示可训练参数 T instruct T_{\text{instruct}} Tinstruct​ 表示文本指令 L L L 表示答案序列 A \mathbf{A} A 的长度 A j \mathbf{A}_{j} Aj​ 包含所有在当前token A j \mathbf{A}_{j} Aj​ 之前的答案token。 Design of Numerical Prompt 一个有效的NumPro设计必须确保 数字易于模型识别对视觉内容的干扰最小。 先前的研究表明视觉提示的出现和位置可以影响模型的注意力。 鉴于所有Vid-LLMs都在336 × 336的固定分辨率下运行我们通过评估三个因素来优化NumPro字体大小、颜色和帧编号的放置位置。 为了确定有效的NumPro设计我们使用两个主要指标数字准确性评估模型识别叠加数字的能力字幕准确性衡量添加数字后原始字幕与帧内容的一致性。平衡这两个指标我们可以选择数字清晰可辨且不会干扰主要视频内容的NumPro配置。 为了使设计选择在各种模型和数据集上具有鲁棒性我们在MSCOCO数据集的子集上进行了基于CLIP的实验分别计算了数字准确率和字幕准确率。 我们使用CLIP ViT-B/32模型生成视觉和文本表示因为许多Vid-LLMs都使用CLIP风格的视觉编码器这使得我们的发现能够很好地推广到Vid-LLMs。 COCO图像-字幕对作为视频帧的代理避免了直接VTG测试的高成本和有限的可扩展性。 具体来说我们从MSCOCO中随机选择了1,000个不同的图像-字幕对并在各种配置下将“0”到“99”的数字叠加到图像上。 如图4所示我们首先从CLIP视觉和文本编码器中获取表示并计算它们之间的中间相似度分数即数字和标题相似度。使用添加的数字和原始标题作为真实情况我们选择具有最高相似度分数的文本数字和标题作为预测以计算数字和标题准确率。平衡这些准确率的配置对NumPro设计最优。 如图5所示我们的研究结果指出增大字体大小可以提高数字准确性但会降低标题准确性这表明中等字体大小40或60是最优的。在颜色选择方面标题准确性在不同颜色下相对稳定。红色在数字准确性方面表现出最佳性能而黑色效果最差。这一发现也与先前的研究一致。 此外将文本置于图像中心会因与关键视觉元素重叠而显著降低标题准确性而将数字置于右下角则能在标题和数字准确性之间提供最佳平衡。最后我们为最终的NumPro设计选择了40号的字体大小、红色和右下角的位置。这一设计搜索使NumPro能够更好地利用Vid-LLMs固有的OCR和视觉语言对齐能力以增强视频时间定位。 在实践中基于CLIP的设计提供的是近似而非确定的指导对Vid-LLMs进行VTG数据集的进一步测试可能产生额外的模型特定见解。 实验 总结 本文提出了一种名为Number-PromptNumPro的简单而高效的视觉提示旨在无需努力地增强视频大型语言模型Vid-LLMs的视频时间定位VTG能力。 通过在视频内容上叠加帧数NumPro利用Vid-LLMs固有的光学字符识别OCR和视觉-语言对齐能力使它们能够准确地将事件映射到特定的时序边界。 通过基于COCO启发式算法的系统设计并在VTG基准测试中得到验证我们证明了NumPro在支持细粒度时序理解的同时还能保持一般视频理解。 通过广泛的评估我们证明了NumPro在无训练和微调设置下均能持续达到最先进的性能使其能够适应性地集成到闭源和开源的Vid-LLMs中。 NumProFT进一步提升了时间定位性能在VTG任务中建立了新的SOTA。 此外对一般视频-QA的微小影响表明NumPro可以在保持稳健视频理解的同时增强VTG。
http://www.hkea.cn/news/14280233/

相关文章:

  • 招商网站设计钢结构
  • 做纺织外贸哪个贸易网站好企业网站营销的实现方式解读
  • 北京网站设计网站设计公司海口免费建站
  • 岳阳网站建设解决方案wordpress调用搜索结果
  • 网站加alt属性对优化有影响吗长春专业网站制作公司
  • 专做化妆品网站唯品会网站建设方案
  • 李连杰做的功夫网站黄骅港汽车站客车时刻表
  • 旅游信息管理网站开发文件WordPress页面增加底部栏
  • 阿里云电影网站建设教程e福州是哪个公司开发
  • 搞一个卖东西的网站怎么做网站定制设计方案
  • 网站开发质保金关键词优化软件排行
  • 中山网站的优化云南网直播
  • 扬中网站哪家做的好网站怎么做才算精致
  • 哪家公司做跳转网站qq推广群
  • 网站开发的图标织梦网站后台密码
  • 免费微网站制作教程视频做58网站怎么赚钱吗
  • 昆山做轮胎网站投票网站开发的背景和意义
  • 网站开发最后五个阶段方案模板网站
  • 建设银行给税对账在什么网站杭州行业网页设计公司
  • 微信群网站有哪些天津网站建设设计开发公司
  • 就业服务工作站建设规范鞍山一地发布最新通知
  • 网站首页源码十大美妆电商平台
  • 蚌埠北京网站建设网站流量多少
  • 做航模的网站信阳企业网站开发
  • jsp网站开发存在的问题js特效网站展示
  • 全球访问量最大的网站排名怎么建网站手机版
  • 以网络营销为导向的网站建设应注意什么问题seo快速排名软件方案
  • 湛江优化网站排名电脑系统重装wordpress
  • 中山手机网站建设dw是什么软件
  • 专业建站提供商wordpress机械免费主题