当前位置：首页 > news >正文

如何给网站添加关键词云南网络推广服务

news 2026/4/6 17:36:10

如何给网站添加关键词,云南网络推广服务,山东济宁网站建设,网站建设优劣的评价标准🍎个人主页：小嗷犬的个人主页 🍊个人网站：小嗷犬的技术小站 🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。基本信息标题: X-Former: Unifying Contr…

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs
作者: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2407.13851

基本信息

摘要

近期在多模态大型语言模型（MLLMs）方面的进步，通过将视觉感知能力整合到大型语言模型（LLMs）中，已经彻底改变了视觉-语言理解领域。

该领域的流行趋势涉及使用来自视觉-语言对比学习（CL）的视觉编码器，擅长捕捉整体表示，但在捕捉详细局部模式方面存在困难。

在本工作中，我们通过结合通过掩码图像建模（MIM）获得的高频和详细视觉表示与由CL捕获的语义丰富的低频表示，来增强MLLMs的视觉表示。为了实现这一目标，我们引入了X-Former，这是一个轻量级的Transformer模块，通过创新交互机制利用CL和MIM的互补优势。

具体来说，X-Former首先从两个冻结的视觉编码器，即基于CL的CLIP-ViT和基于MIM的MAEViT，启动视觉-语言表示学习和多模态到多模态生成学习。它进一步从冻结的LLM启动视觉到语言的生成学习，以确保X-Former的视觉特征可以被LLM解释。

为了证明我们方法的有效性，我们在需要详细视觉理解的任务上对其性能进行了评估。广泛的评估表明，X-Former在涉及GQA数据集中结构和语义类别的视觉推理任务中表现出色。对细粒度视觉感知基准的评估进一步证实了其在视觉理解方面的优越能力。

主要贡献

提出利用CL和MIM中的视觉编码器，从冻结的图像编码器中捕捉全局和局部视觉表示，以提升视觉语言理解能力。
提出具有双重交叉注意力的X-Former，用于通过图像-文本对启动多模态到多模态的生成学习，完全无需使用精心挑选或视觉指令数据。

方法

预备知识

CLIP-ViT与MAE-ViT的训练目标使得其关注点有所不同。CLIP-ViT更多关注低频信号和全局视觉表示，而MAE-ViT在理解详细视觉特征方面更加出色。

原生的Q-Former仅采用CLIP-ViT特征，尽管其在VQA和图像描述等下游任务上表现出色，但在详细视觉特征理解方面遇到了挑战。

将CLIP-ViT特征与MAE-ViT特征融合

BLIP2、BLIP2+Concatenation、BLIP2+Early Cross-Attention以及我们的方法在VQAv2（a）、GQA（b）和OKVQA（c）数据集上的性能比较

如何融合CLIP-ViT特征和MAE-ViT特征成为了本文的研究重点。

X-Former

Pre-Training

X-Former Pre-Training

CLIP-ViT: pre-trained ViT-G model from EVA-CLIP
MAE-ViT: pre-trained ViT-H model

X-Former通过优化重建、ITC、ITM和ITG损失来学习提取局部和全局表示。

🔥 X-Former
❄️ CLIP Image Encoder、MAE Image Encoder、MAE Image Decoder

LLM Alignment

X-Former LLM Alignment

LLM Decoder: OPT model

将X-Former的特征与冻结的LLM对齐。

🔥 X-Former、FC
❄️ CLIP Image Encoder、MAE Image Encoder、LLM Decoder

实验

主实验

VQAv2数据集上的零样本视觉问答结果

VQAv2数据集上的零样本视觉问答结果。

GQA和OKVQA数据集上零样本视觉问答结果

GQA和OKVQA数据集上零样本视觉问答结果。

GQA中的详细比较

GQA中的详细比较。

MLLMs在物体计数（OC）和多类识别（MCI）任务上的零样本细粒度视觉感知评估

MLLMs在物体计数（OC）和多类识别（MCI）任务上的零样本细粒度视觉感知评估。

COCO与NoCaps上的无微调结果零样本图像描述结果

COCO与NoCaps上的无微调结果零样本图像描述结果。

消融实验

消融实验

Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。

总结

在这篇论文中，我们介绍了X-Former，这是一种新型架构，旨在通过整合预训练的MAE和CLIP视觉编码器来增强多模态语言模型（MLLMs）的视觉表示。

我们的动机源于以下几点观察：

现有的MLLMs主要依赖于CLIP-ViT，但往往无法捕捉到细粒度的视觉信号；
我们的实证研究表明，简单地将CLIP-ViT和MAE-ViT相结合并不一定能带来性能提升；
MLLMs的有效性高度依赖于大规模图像-文本对进行预训练和精心策划的指令调整数据集进行微调。

X-Former通过双重交叉注意力机制有效地整合了CLIP-ViT和MAE-ViT，同时保持计算需求可控。我们的方法即插即用，可以应用于其他模型。

我们的实验结果明确表明，X-Former在各种需要稳健视觉理解的视觉推理任务中超越了BLIP-2。值得注意的是，这些优越的结果仅使用了十分之一的图像-文本对数据集，且无需任何指令调整数据集。

http://www.hkea.cn/news/828911/

相关文章：

做网站的上海公司有哪些情感链接

梧州做网站建设数字营销公司

加强新闻网站建设建议seo高手培训

安丘网站建设制作怎样制作网页设计

食品网站建设优化案例热门职业培训班

龙华新区做网站大地seo视频

网站彩票投注员做啥的真正免费的网站建站平台运营

wordpress 中文注册鸡西seo

佛山企业如何建网站seo的内容怎么优化

在什么网站上做自媒体windows优化大师是自带的吗

装修公司的网站怎么做第三方营销平台有哪些

百度公司做网站吗手机网页链接制作

武汉移动网站制作今天新闻最新消息

酒泉建设厅网站百度seo刷排名软件

天津个人网站建设yandex引擎

网站改版建设有哪些内容网络营销策划方案怎么做

网站建设拾金手指下拉seo的实现方式

北京宣传片湖南seo优化哪家好

下载app 的网站如何做黑帽seo排名技术

个人是否做众筹网站哪里可以免费推广广告

外贸网站该怎么做青岛百度推广优化怎么做的

网站建设中网页代码优化关键词排名公司

网站标题优化怎么做泉州百度首页优化

学习网站建设的是什么专业优化网站排名公司

固定ip做网站西安网站建设推广

做响应式网站好不好软文发布门户网站

重庆做网站建设的公司哪家好最基本的网站设计

长春网站制作wang网站营销软文

discuz 网站搬家市场营销的策划方案

做婚礼网站的公司简介seo网站关键词优化软件