网站死链排查,网络营销网站 功能,wordpress添加新php页面,网站开发实训心得体会文章目录 一. VLMs 的重要性与挑战#xff1a;连接视觉与语言的桥梁 #x1f309;二. VLMs 的核心训练范式#xff1a;四种主流策略 #x1f5fa;️1. 对比训练 (Contrastive Training)#xff1a;拉近正例#xff0c;推远负例 ⚖️2. 掩码方法 (Masking)#xff1a;重构… 文章目录 一. VLMs 的重要性与挑战连接视觉与语言的桥梁 二. VLMs 的核心训练范式四种主流策略 ️1. 对比训练 (Contrastive Training)拉近正例推远负例 ⚖️2. 掩码方法 (Masking)重构缺失信息学习上下文关联 3. 生成式 VLMs (Generative VLMs)直接生成文本或图像 4. 利用预训练模型的 VLMs (VLMs Leveraging Pre-trained Models)站在巨人肩膀上 三. 部分模型详解3.1 BLIP23.1.1 模型结构3.1.2 模型训练 3.2 LLaVA3.2.1 训练数据3.2.2 模型训练3.2.3 LLaVA的贡献 3.3 MiniGPT-43.3.1 Adapter结构3.3.2 模型训练 3.4 QwenVL3.4.1 输入输出格式3.4.2 Adapter结构3.4.3 模型训练 3.5 InternVL-v1.53.5.1 动态长宽比3.5.2 超大VIT, Pixel Shuffle及模型结构3.5.3 训练数据集3.5.4 InternVL-v1.5的贡献 3.6 Qwen2VL3.6.1 动态分辨率3.6.2 统一的多模态Rope位置embedding3.6.3 训练过程 四. VLM 训练实践指南 1. 训练数据高质量数据是成功的基石 2. 软件工具与硬件资源高效训练的保障 ⚙️3. 模型选择根据任务和资源选择合适的模型 4. 提升定基 (Grounding)解决幻觉提升理解 5. 提升对富含文本的图像的理解OCR 与场景文本理解 6. 参数高效型微调 (Parameter-Efficient Fine-Tuning, PEFT)轻量级微调策略 7. 实现负责任的 VLM 评估全面、多维度的性能度量 8. 将 VLMs 扩展用于视频动态视觉信息处理 五. 结论与未来展望VLM 的无限可能 ✨参考文献 近年来人工智能 (AI) 领域经历了爆炸式发展深度学习作为核心驱动力在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均取得了里程碑式的突破 为了进一步拓展 AI 的能力边界研究人员开始积极探索如何融合视觉和语言两大模态构建能够理解、生成并跨越图像和文本的模型。视觉语言模型 (Vision-Language Models, VLMs) 正是在这一背景下应运而生它致力于弥合视觉与语言之间的语义鸿沟赋予机器如同人类一般的多模态感知和认知能力。✨ 本文旨在对 VLMs 进行深入的技术解析内容涵盖其重要性与挑战、核心训练范式、代表性模型详解、训练实践指南以及未来发展趋势展望。希望能够为读者提供一份全面而详实的 VLM 技术解读助力大家深入理解并快速入门这一前沿领域。
一. VLMs 的重要性与挑战连接视觉与语言的桥梁
VLMs 的出现不仅是 CV 和 NLP 领域的交叉融合更是 AI 技术发展的重要里程碑它极大地拓展了 AI 的应用场景赋予机器更强大的感知和交互能力
图像描述生成 (Image Captioning): VLMs 能够自动生成图像的自然语言描述帮助机器“看懂”图像内容应用于智能相册管理、辅助内容创作等领域。️✍️
视觉问答 (Visual Question Answering, VQA): VLMs 能够根据图像内容回答用户提出的自然语言问题实现更智能的人机交互应用于智能客服、教育辅助等领域。 ️❓️
跨模态检索 (Cross-modal Retrieval): VLMs 能够实现图像和文本之间的相互检索例如通过文本描述检索相关图像或通过图像检索相关文本应用于图像搜索引擎、多媒体内容管理等领域。 ↔️ ️
图像编辑 (Image Editing): 基于文本指令的图像编辑 VLMs 允许用户通过自然语言指令修改图像内容例如“将天空变成蓝色”、“添加一只猫”应用于创意设计、图像处理等领域。 ️ ✏️ ✨
机器人控制 (Robotics Control): VLMs 可以作为机器人的视觉感知和语言理解模块使机器人能够理解人类的自然语言指令并根据视觉信息执行复杂任务应用于智能家居、工业自动化等领域。 ️ ️
然而VLMs 的发展并非一帆风顺仍然面临着诸多挑战
跨模态语义鸿沟: 如何有效对齐和融合视觉和语言两种异构模态的信息学习它们之间复杂的语义关联 (例如空间关系、属性、动作、因果关系等)是 VLMs 的核心挑战之一。
组合泛化能力 (Compositional Generalization): VLMs 在处理涉及组合推理的任务时例如理解复杂场景、处理否定描述、进行计数等仍然面临挑战需要提升模型的组合泛化能力。
“幻觉”问题 (Hallucination): VLMs 有时会生成与图像内容不符或不真实的文本描述或图像即产生“幻觉”降低了模型的可靠性和可信度。
鲁棒性与泛化性: VLMs 在面对分布外数据 (Out-of-Distribution, OOD) 或对抗性攻击时性能可能会显著下降需要提升模型的鲁棒性和泛化性。 ️
训练数据与计算资源: 训练高性能 VLMs 通常需要海量标注数据和强大的计算资源这限制了研究的普及和应用如何降低训练成本、提高数据效率是亟待解决的问题。
模型评估标准: 如何建立全面、客观、可信的 VLM 性能评估标准特别是在跨模态理解、生成质量、伦理道德等方面仍然是一个开放性研究问题。
二. VLMs 的核心训练范式四种主流策略 ️
基于 Transformer 架构的 VLMs其训练范式可归纳为以下四种主流策略 (如图所示)
1. 对比训练 (Contrastive Training)拉近正例推远负例 ⚖️
核心思想: 借鉴能量模型 (Energy-Based Model, EBM) 的思想通过构建正负样本对训练模型学习将正样本对 (例如图像及其对应的文本描述) 的表示在特征空间中拉近同时将负样本对 (例如图像与不相关的文本描述) 的表示推远。目标是使模型能够区分相似和不相似的视觉-语言对。
能量模型视角: 对比训练可以从能量模型的视角解释。模型参数为 θ 的模型Eθ被训练为对观测变量赋予低能量而对未观测变量赋予高能量。目标分布中的数据应具有低能量而其他数据点应具有高能量。⚡
损失函数NCE 与 InfoNCE:
噪声对比估计 (Noise Contrastive Estimation, NCE): 将对比学习问题转化为二分类问题模型需要区分来自真实数据分布的样本 (正样本) 和来自噪声分布的样本 (负样本)。损失函数通常采用交叉熵损失。SigLIP 模型使用了基于二元交叉熵的原始 NCE 损失。 ➕➖
InfoNCE (Information Noise Contrastive Estimation): 扩展了 NCE利用模型表示空间中计算的距离度量 (例如余弦相似度)模型学习预测在表示空间中最接近的一对示例 (正样本对)并为所有其他负样本对分配较低的概率。CLIP 模型使用了 InfoNCE 损失。InfoNCE 的主要缺点是依赖于小批量大小通常需要大批量才能有效。
SimCLR: 一种自监督学习方法使用 InfoNCE 损失。正样本对定义为同一图像的不同数据增强版本负样本对来自同一批次的其他图像。 ️↔️️
代表模型:
CLIP (Contrastive Language–Image Pre-training): 由 OpenAI 提出是对比训练的里程碑式工作。CLIP 将视觉和语言编码到共享的表示空间通过对比损失训练视觉和文本编码器将图像及其标题的表示映射到相似的嵌入向量。原始 CLIP 模型在 4 亿图像-文本对上训练展现出强大的零样本分类迁移能力甚至在鲁棒性基准上超越了监督 ResNet 模型。
SigLIP: 与 CLIP 相似但使用原始 NCE 损失在小批量上零样本性能更优。
Llip (Latent language image pretraining): 考虑到一张图像可能对应多个不同的标题Llip 通过交叉注意力模块将图像编码与目标标题关联提升了表示的表达性并改善了零样本分类和检索性能。
2. 掩码方法 (Masking)重构缺失信息学习上下文关联
核心思想: 借鉴 NLP 中 BERT 的掩码语言模型 (MLM) 思想将掩码技术应用于视觉和语言模态通过模型重构被掩码部分的能力学习模态内和跨模态的上下文关联。掩码方法可视为一种去噪自编码器其中噪声具有空间结构。
掩码方式:
掩码图像建模 (Masked Image Modeling, MIM): 随机掩盖图像的部分区域 (图像块)模型需要根据未掩码的区域重建被掩码的区域。代表模型包括 MAE (Masked Autoencoders) 和 I-JEPA (Image-based Joint-Embedding Predictive Architecture)。 ️ ➡️ ️
掩码语言建模 (Masked Language Modeling, MLM): 随机掩盖文本中的部分词语模型需要根据未掩码的词语和图像信息重建被掩码的词语。BERT 在训练期间使用了 MLM。 ➡️
Transformer 架构的适用性: Transformer 架构的 token 化输入方式使得掩码操作更加容易实现随机丢弃特定输入 token 成为可能。 ⚙️
代表模型:
FLAVA (Foundational Language And Vision Alignment): 由 Facebook (Meta) 提出是基于掩码方法的代表性 VLM。FLAVA 架构包含图像编码器 (ViT)、文本编码器 (Transformer) 和多模态编码器 (Transformer) 三个核心组件。采用综合训练方案结合了多模态和单模态掩码建模损失以及对比目标在 7000 万图像-文本对数据集上预训练在 35 个不同任务上实现了 SOTA 性能。FLAVA 使用了预训练的视觉编码器 (dVAE)。
MaskVLM: 为了降低对预训练视觉编码器的依赖MaskVLM 直接在像素和文本 token 空间应用掩码。其关键创新在于利用模态间的信息流动文本重建任务接收图像编码器的信息反之亦然。
3. 生成式 VLMs (Generative VLMs)直接生成文本或图像
核心思想: 与前两种范式主要操作潜在表示不同生成式 VLMs 直接训练模型生成文本描述或图像。
生成任务类型:
图像描述生成 (Image Captioning): 模型学习生成图像的文本描述例如 CoCa 模型。 ️ ➡️
文本到图像生成 (Text-to-Image Generation): 模型根据文本 prompt 生成图像例如 Stable Diffusion, Imagen, Parti 等模型。 ➡️ ️
多模态生成 (Multimodal Generation): 模型可以同时生成文本和图像例如 Chameleon 和 CM3leon 模型。 ️ ➡️ ️
训练成本: 生成式 VLMs 的训练成本通常最高因为需要学习复杂的生成模型。
代表模型:
CoCa (Contrastive Captioner): 由 Google 提出在 CLIP 的对比损失基础上增加了生成损失。CoCa 采用多模态文本解码器接收图像编码器和单模态文本解码器的输出生成图像描述。CoCa 通过简单地将注释图像标签视为文本从头开始进行预训练预训练数据集包括 ALIGN (18 亿图像) 和 JFT-3B (内部数据集29500 个类别标签)。 ✨
Chameleon 和 CM3leon: 多模态生成模型CM3leon 由 Google 提出用于文本到图像和图像到文本生成。CM3leon 借鉴了图像 tokenizer 和文本 tokenizer 技术将图像和文本编码为离散 token 序列然后使用仅解码器的 Transformer 模型进行训练。CM3leon 经历了检索增强预训练和监督微调 (SFT) 两个阶段。Chameleon 是 CM3leon 的扩展由 Esser 等人提出是一个混合模态基础模型系列能够生成和推理交错的文本和图像内容序列支持图像、文本和代码等多种模态。Chameleon 从一开始就被设计为混合模态采用统一架构在所有模态的混合数据上进行端到端训练使用了 query-key 规范化和修订的层规范化位置等架构创新以及监督微调方法。
Stable Diffusion, Imagen, Parti: 文本到图像生成模型虽然主要用于生成任务但也可以用于解决视觉语言理解任务。这些模型可以用于生成分类任务通过贝叶斯定理和条件概率估计进行分类。生成分类器在组合推理任务 (如 Winoground) 上表现优于判别方法具有更强的形状偏差并更好地与人类判断一致且可以在测试时进行领域自适应。扩散模型进行似然估计需要计算变分下界推理成本较高。
4. 利用预训练模型的 VLMs (VLMs Leveraging Pre-trained Models)站在巨人肩膀上
核心思想: 充分利用现有的预训练大型语言模型 (LLMs) (例如 Llama, GPT) 和/或视觉提取器 (例如 CLIP的视觉编码器)避免从头开始训练整个 VLM从而显著降低训练成本和资源需求。
优势: 可以复用 LLMs 强大的语言理解和生成能力只需学习视觉模态到语言模态的映射计算资源需求低开发效率高。开源 LLMs 的普及也为此类方法提供了便利。
方法: 通常采用“冻结”预训练 LLM 的参数仅训练视觉编码器和一个轻量级的映射网络 (例如线性投影层或交叉注意力模块)将视觉特征映射到 LLM 的输入空间。
代表模型:
Frozen: 由 DeepMind 提出是第一个利用预训练 LLM 的 VLM 模型。Frozen 使用冻结的 LLM (7B 参数 Transformer在 C4 数据集上预训练)训练视觉编码器 (NF-ResNet-50) 和线性映射网络在 Conceptual Captions 数据集上通过文本生成目标进行训练。Frozen 展示了快速适应新任务、快速访问通用知识以及快速绑定视觉和语言元素的能力是多模态 LLM 的重要先驱工作。
MiniGPT 系列 (MiniGPT-4, MiniGPT-5, MiniGPT-v2): 由 Zhu 等人提出MiniGPT-4 使用预训练的视觉编码器 (BLIP-2 中的 ViT) 和冻结的 LLM (Vicuna)仅训练一个线性投影层训练成本极低 (仅需 4 个 A100 GPU 约 10 小时)。MiniGPT-5 扩展到可以交替生成文本和图像使用生成 token 和冻结的 Stable Diffusion 2.1 模型生成图像。MiniGPT-v2 提出通过统一接口执行各种视觉语言任务并通过任务标识符区分不同任务。 ⚡
Qwen-VL 和 Qwen-VL-Chat: 由阿里云提出与 MiniGPT-4 类似使用预训练 LLM (Qwen-7B) 和视觉编码器 (ViT-bigG)以及单层交叉注意力模块进行视觉表示到 LLM 输入空间的映射。 ☁️
BLIP-2 (Bootstrapping Language-Image Pre-training): 由 Salesforce 提出利用预训练的冻结模型包括视觉编码器 (例如 CLIP) 和大型语言模型 (例如 OPT)。BLIP-2 训练一个小型 Q-Former 模块 (约 100-200M 参数)通过交叉注意力机制将图像嵌入映射到 LLM 的输入空间。Q-Former 接受固定数量的查询向量通过交叉注意力与图像嵌入交互并通过线性层投影到 LLM 输入空间。
三. 部分模型详解 3.1 BLIP2
3.1.1 模型结构
Blip2的Adapter使用Query-Transformer(Q-Former) 全连接层(Fully Connected)的结构。
主旨思想将img和prompt同时输入到Transformer中同时利用Cross Attention 将vision emb 与可学习的序列长度较短的learnable querys进行交互。最后将交互后的learnable querys作为视觉特征输入到大模型从而达到降低视觉特征序列长度的目的。利用这样一个类似BottleNeck的结构提升学习效果减小视觉特征的seq len这样能在有限的资源下加快大模型的训练。
Q-Former来自多模态模型Blip是一个魔改的Transformer其输入部分增加了可学习的输入(learnable querys)。learnable querys和img emb通过cross attn进行交互最后网络把模型输出的learnable query作为图像特征喂给大模型。作者试图使用Q-Former实现图像的压缩感知即缩短表示图像emb序列长度的同时尽可能保留对生成文字有用的图像信息。最后 Fully Connect 模块用于讲Q-Former输出的维度对齐到大模型的维度。
3.1.2 模型训练
模型训练分为两个阶段分别是 图片表示学习(Vision-Language Representation Learning from a Frozen Image Encoder)和图生文预训练(vision-to-language generative pre-training)。训练数据为图文对。
图片表示学习训练Q-Former的图像表示能力
图片表示学习只训练Adapter中的Q-Former结构训练目的是将Image-Encoder输出的视觉特征进行压缩感知提取最能生成文字的视觉特征。其仅用到了Image Encoder 和 Q-Former且并未使用LLM。为了节省显存进行图片表示学习时Image Encoder的参数不做更新。
在这里除了Q-Former外还引入了额外的权重用于处理文字(图右上绿色部分)训练时Q-Former加载的是Bert的权重(cross attn随机初始化)。
其具体有三个训练任务使用的训练数据集为一系列图文对(文字是图片的一个描述)每个训练任务的attn-mask均不同。
图文对比学习(Image-Text Contrastive Learning, ITC)该任务输入图像(img emb)和一段文字(prompt emb)在经过img_encoder和Q-Former后我们使用一个emb表示图像用另一个emb表示文字。输入的文字会额外带一个[CLS]token, 文字的emb即用[CLS] token 对应的emb。图像的emb是从vis emb 的多个query中与text emb相似度最高的query作为图像的emb。在计算loss时使用图四最右侧的attn mask 能保证图像和文字的emb生成互不干扰。正样本为图文对负样本将文字换为数据集中随机的某段文字。我们希望正样本的图像emb和文字emb尽可能相似负样本的图像emb和文字emb尽可能远离。 基于图像的文字生成(Image-Grounded Text Generation, ITG)该任务使用图像生成对应的文字描述使用图四中间的attn mask在文字能看到图片的同时保证文字部分使用 transformer decoder的causal attn mask。 图文匹配(Image-Text Matching, ITM)该任务类似ITC但与ITC不同的是该任务不再要求对齐图像和文字的表示而是直接做一个分类任务判断图像和文字是否是一对。attn mask使用图四左边的attn mask保证图像和文字互相之间都可以看到。
图生文预训练(训练整个多模态大模型的Image-Caption能力)
图生文是为了将Q-Former学习到的视觉特征与大模型相结合利用大模型的生成能力更好的完成VQA任务。
大模型分为两种分别是Decoder only类型的大模型和Encoder-Decoder类型的大模型。Blip2分别尝试与这两种大模型相结合。对于Decoder Only形式的大模型输入为图片输出为图文对的文字对于Encoder-Decoder类的大模型文字会被拆分成前缀和后缀输入为图片和前缀输出为后缀。为了节省显存并加速训练该训练阶段图像Encoder和LLM的权重均不做更新。
Blip2通过尝试Blip中模态融合的方式通过冻住大模型权重和两阶段预训练的方法将视觉特征与大模型对齐借助大模型的生成能力利用有限的资源提升了视觉VAQ任务的效果。
3.2 LLaVA
Blip2的出现表示这种将视觉模态经过一个Adapter对齐到大模型输入的架构是可行的。于是研究者开始考虑除了繁琐的Q-Former对齐方式外是否存在更简单的方式来对齐图像特征LLaVA使用单个线性连接层完成了视觉模态与大模型的结合。除此之外LLaVA还首次实现了多模态大模型的多轮对话能力。
3.2.1 训练数据
在LLaVA产生的时代开源的图像大模型训练数据几乎都是图文对(img, caption)其中文字是图片内容的一个描述。几乎没有开源的 instruction-tuning 数据集。为了让多模态大模型更好的与人类进行对话。LLaVA利用图文对创建了两个数据集简单的对话数据集(低质量数据量大标注成本低)复杂的对话数据集(高质量数据量小标注成本高)。
图文对——简单的对话数据
作者利用ChatGPT生成如下的问题并将caption作为问题的答案。
这些生成的问题就是换着法子问请描述一下这个图像这样就生成了如下格式的训练数据 img, question for caption, caption。这些训练数据较为简单只能用于单轮对话且缺少多样性但生成成本较低。
图文对——更复杂的对话数据
为了使用ChatGPT生成带图片的多轮对话数据作者使用目标检测将图片变成chat-gpt可以读懂的图片描述。
基于这些图片描述作者使用ChatGPT生成了三类训练数据
基于图片进行多轮对话给出图片的详细描述基于图片的复杂逻辑推理
3.2.2 模型训练
对于多轮对话训练数据{img, [(Q1,A1), …, (QT, AT)]}作者将其转换为如下序列。
在计算损失时只计算AI部分的损失这样就将多轮对话数据和单轮对话数据统一了起来(统一成sequence)方便用于模型训练。模型训练分为两个阶段分别为”图像特征对齐预训练“和”模型对话/读图能力训练“。
图像特征对齐预训练
该阶段只训练线性链接层使用相对较为简单易学的训练数据将Adapter生成的图像特征与LLM的input Embedding对齐让模型拥有初步的读图能力。
训练数据利用上述的数据构造方法 和 595K图文对 生成的 简单对话数据 使用各种不同的问法 问该图片描述了什么东西可学习参数LLM和Vision Encoder均不训练只训练线性链接层训练目的让模型拥有初步的读图能力
模型对话/读图能力训练
该阶段训练Adapter和LLM对参数使用较难学习的多轮对话和科学问答数据让模型具有对话能力。
训练数据利用上述的数据构造方法生产的158K复杂对话数据 Since QA banchmark中的训练数据可学习参数Vision Encoder不训练训练线性链接层和LLM训练目的让模型拥有基于图片进行多轮对话和逻辑推理的能力
3.2.3 LLaVA的贡献
模型结构上LLaVA仅用简单的线性链接层就完成了视觉模型与LLM的结合结合方法简单但有效训练数据上LLaVA给出了一种使用ChatGPT造训练数据的方法。虽然类似的方法在语言大模型的训练中较为常见但该文是在多模态大模型上的首次尝试训练方法上作者先采用了大量的易学数据训练少量参数让模型学会认图再用少量难学的数据训练大量参数让模型学会基于图像的多轮对话和逻辑推理能力
3.3 MiniGPT-4
MiniGPT4同样是为了将多轮对话逻辑推理等能力融入到多模态大模型中与LLaVA不同的是该文提出的Adapter架构参数量较小模型收敛较快只需4块A100训练1天。
3.3.1 Adapter结构
Mini-GPT4沿用了Blip2的Adapter结构和Blip2的预训练权重。其将图片获取到的img emb通过Q-Former(虚线部分)将seq_len变为指定的长度后通过全连接层(蓝色部分)对齐到大模型的模型。
训练MiniGPT-4的过程中Vision Encoder、LLM和Q-Former的权重全部被冻住只有全连接层(蓝色部分)参与训练。这也是MiniGPT-4训练速度较快的根源所在。
3.3.2 模型训练
MiniGPT-4的视觉部分来自Blip2(下图虚线框)LLM部分来自LLaMA(与Blip2不同)因此采用了两阶段的训练方式第一阶段使用大量数据将视觉模型与LLM进行对齐第二阶段使用少量、多样的数据提升模型的理解图片能力。
MiniGPT-4的模型结构其中Q-Former和FFN为Adapter。图中虚线框来自Blip2的模型权重LLM来自LLaMA的模型权重。模型训练时只训练图中橙色部分其他权重均固定不变。
特征对齐训练
训练任务图生文输入图片LLM需要生成该图片的一个描述。训练数据LAION, SBU, Conceptual Caption共三个图文对数据集每条数据是一张图片和该图片对应的一段描述。训练设置训练20k stepbatchsize256训练数据约5M4卡A100(80G) * 10小时。
训练完成后模型输出效果较为一般会输出只言片语或者与图片完全不相关的内容。
图像理解训练
Mini-GPT4和LLaVA是同时期的作品因此Mini-GPT4训练时仍然没有指令微调数据集。为此论文作者提出了如下造训练数据的方法。 1.从Conceptual Caption中筛选出5k的图片利用Prompt和第一阶段训练过的模型输出图像的详细描述。 2.使用ChatGPT对这些详细描述进行改写改写为通畅流利的描述 3.手动去掉ChatGPT中多余的输出如”改写后的描述为“ 该过程使用这5K条高质量数据继续训练模型在Batch_Size 12单卡A100上训练了7分钟。
3.4 QwenVL
QWenVL除了在中文数据上表现较好之外还能处理多图多轮对话任务输出图像中物体的位置(以文字格式给出检测框)在TextVQAOCRVAQ等多个任务上均取得了SOTA的效果。该文提出来 能力增强训练阶段并在该阶段利用多种训练任务让模型拥有了OCR、目标检测等多个能力。
3.4.1 输入输出格式
之前的多模态大模型通常是基于单个图片做多轮对话且不能给出图中某个物体的具体位置。QwenVL更改了模型的输入输出格式并用标记语言(类似html)和Tokenizer来适配多图多轮对话和目标检测任务。Assistant后面为语言模型需要生成的内容其他内容均为Prompt。
对多图的处理
QwenVL的Tokenizer在接受Prompt的时候会自动识别Prompt中表示图像地址的部分然后将该地址pad到固定长度256。在模型进行forward的时候会识别图片地址的位置并通过Image Encoder和Adapter将图片转为长度为256的序列(aligned img emb)并将该序列替换掉Prompt中的图片地址。
对目标检测任务的适配
QwenVL还能给出图中物品的类别和坐标表示方法为类别(min_x,min_y),(max_x,max_y),QwenVL用特定格式的输出表示检测框位置和被检测物体的类别其坐标直接使用Token表示坐标是将图片进行等比例缩放直到最长边为1000后图片上的坐标。这种使用Token表示坐标的方式非常反直觉但确实能Work。
3.4.2 Adapter结构
QwenVL使用FC层和单层Cross Attention作为视觉模态的Adapter。 与之前介绍的Adapter不同Qwen先使用FC层将图像特征的维度对齐到大模型再使用Cross Attention将图像特征的长度变为指定的长度其先使用FC再使用Cross Attention的做法可能是为了增加Adapter的参数量。
除此之外QwenVL的Adapter还在图像的位置信息上做了一点调整。之前的多模态大模型使用的视觉Encoder通常是将图像的patch按从上到下从左到右的顺序排序成一个序列并按照序列的顺序给图像加入位置信息emb(1D位置emb)。除此之外此前介绍的多模态大模型并未关注图像emb的位置信息。
除了来自视觉模型的1D位置embQwenVL还在Adapter中的cross attn中加入了2D位置emb。其具体做法是将2D位置emb加到cross attn中的Key上2D位置emb表示该patch是图像分块后的第几行和第几列是通过分别计算行、列的1D位置emb再concat到一起得到的其中行、列的1D位置emb来自sin位置emb。显然的加入的2D位置emb对于不同长宽比的图片会更加友好虽然QwenVL输入的图片有着固定的大小但这可能是为后续的QwenVL-Plus/QwenVL-Max打下的基础。
3.4.3 模型训练
与LLaVAMini-GPT4不同QwenVL的训练被分为三个阶段分别是特征对齐训练能力增强训练和指令跟随训练不同阶段的模型可训练参数也各不相同。
特征对齐训练
特征对齐训练是使用大量的图文对数据(img-caption)将视觉Encoder对齐到LLM上去让LLM能看到图片上的信息。其特点是数据量大文字内容小(seq_len较小256图像 512LLM)训练速度快(因为seq_len小所以训练速度相对较快)。QWenVL从各种开源数据集中收集了1.4B的数据其中77.3%为英文数据22.7%为中文数据具体数据来源见下表。
训练时图像被缩放至224*224的大小batch_size 为30720训练了50K步训练时Vision Encoder和Adapter的权重有更新。其输入输出格式如下 User: Picture 1tiger.jpg Assistant:5只老虎在大草原上捕猎
其训练过程中的LossImg Caption指标和DocVQA指标见下图
Filckr img-caption数据集上的评价文本相似性的指标(CIDEr)右边是在VQAv2数据集上DocVQA的准确率。和Mini-GPT4类似仅仅训练Img-Caption任务即可提升VQA的准确率。其能力可能来自冻住的LLM有一定的推理能力。
能力增强训练
在将Image Encoder对齐到大模型后QwenVL将输入的图像大小从224 * 224 调整到 448 * 448并使用了7个不同的训练任务来增强模型的能力。模型的全部参数均参与训练训练的seq_len为2048。 Captioning User: lion.jpg Assistant: 4只狮子在草原上捕食 训练数据LAION-en zh, DataComp, Coyo, CC12M 3M, SBU, COCO, 自有数据共19.7M 训练任务输入图片给出图片的一个描述 VQA User:human.jpg图上的人穿什么颜色的衣服 Assistant:蓝色 训练数据GQA, VGQA, VQAv2, DVQA, OCR-VQA, DocVQA, TextVQA, ChartQA, AI2D 共3.6M 训练任务输入图片给出一个和图片有关的问题要求模型给出问题的答案 Grounding Userhuman.jpgThis(360,542),(476,705) is AssistantYellow cross country ski racing gloves 训练数据 GRIT 训练任务输入图片和图中某个物体的位置要求模型给出该物体的描述 Referring Grounding UserVG_100K_2/3.jpgthe ear on a giraffe AssistantYellow cross country ski racing gloves 训练数据GRIT, Visual Genome, RefCOCO, RefCOCO, RefCOCOg共8.7M 训练任务输入图片和图中某个物体的位置要求模型给出该物体的描述 Grounded Cap Usercoyo700m/1.jpgGenerate the caption in English with grounding: Assistant Beautiful shot of bees(661,612),(833,812)(120,555),(265,770) gathering nectars from an apricot flower(224,13),(399,313) 训练数据GRIT, Visual Genome, RefCOCO, RefCOCO, RefCOCOg共8.7M 训练任务描述图片内容并在描述时给出物体的位置 OCR User:synthdog/1.jpgOCR with grounding: Assistant: It is managed (568,121), (625,131), (624,182), (567,172)… 训练数据SynthDoG-en zh, Common Crawl pdf HTML共24.8M 训练任务识别图中的文字 Pure-text Autoregression 训练数据自建数据集共7.8M 训练任务保证MLM的效果不退化
该阶段主要是通过7个不同的训练任务训练模型的读图能力逻辑推理能力(VQA)识别物体位置的能力(Grounding)和OCR能力。
指令跟随训练
该阶段主要是让模型拥有聊天的能力模型开放Adapter和LLM的参数用于训练。QWenVL使用了基于LLM生成多模态的对话数据并保证对话内容和图像内容相关指令微调数据量为359K论文中并未具体给出数据生成的方法。数据集的格式如下:
im_startuser Picture 1: vg/VG_100K_2/649.jpgWhat is the sign in the picture?im_end im_startassistant The sign is a road closure with an orange rhombus.im_end im_startuser How is the weather in the picture?im_end im_startassistant The shape of the road closure sign is an orange rhombus.im_end
3.5 InternVL-v1.5
QwenVL以数据和训练任务为中心通过暴力堆叠数据和设计多种训练任务QwenVL可以较好的理解图像内容甚至能给出图中某些物体的坐标。但受限于448*448的图像分辨率QwenVL的OCR能力较差。如果将Mini-GPT4LlavaBlip2QwenVL当做多模态大模型发展的第一阶段则可以认为InternVL-v1.5将多模态大模型带入了第二阶段。
模型上internVL-v1.5首次将ImageEncoder(VIT)的参数量扩展到了6B将图像的视觉特征扩展到了1.7k将图像的分辨率提升到7个448 * 448的patch并引入了动态长宽比。数据上InternVL-v1.5不仅收集了大量自然场景数据还收集了大量文档数据进一步提升算法的OCR能力。
3.5.1 动态长宽比
此前多模态大模型通常是将图像resize到固定的长宽比(448 x 448 或 1344 x1344)再送入VIT获取图像特征这种做法会造成两个问题 1.对于极端长宽比的图片失真严重 2.若固定一个较大的长宽比比如1344*1344则VIT会产生超长的序列长度消耗大量算力 为了解决这两个问题InternVl-v1.5引入了动态长宽比。 如图动态长宽比的实现分为以下4个步骤
1.预设最大patch数量max_patches图像会被分为多个448x448的patch但会保证patch数不超过max_patch 2.根据最大patch数量给出能够适配的长宽比长 * 宽 max_patch - 1 3.根据原图分辨率和原图长宽比给出最匹配的长宽比并将图片resize并分为多个448 x448的patch 4.最后将原图resize到448x448放在patch的后面就得到了图像经过动态长宽比后的图片 5.这些小图分别经过VIT后会得到max_patch个1024长度的序列将这些序列拼接起来即可得到图像序列
这样做的好处是 1.可以处理较为极端长宽比的图像避免了因resize导致的图像变形 2.大分辨率图对应的序列长度较长小分辨率图对应的序列长度较小 3.将图片切成了多个448x448的小片过VIT采用了分块的思想解决了大分辨率图像计算量大的问题。
3.5.2 超大VIT, Pixel Shuffle及模型结构
此前多模态大模型的VIT模型通常是OpenAI训练的CILP模型的VIT参数量约为200M。由于大模型证明了模型参数量的重要性InternVL-V1.5将VIT的参数量提升至6B从而提升模型效果。其使用的VIT模型输入为448x448的图像该模型会将图像切分成32x32个14x14的patch最后会输出长度为32x321024长度的序列。
由于动态长宽比的引入VIT最多会接受max_patch个448x448的图片若不做任何处理img_emb的序列长度会达到max_patchx1024。如此长的img_emb送入大模型会导致显存占用高计算慢的问题。该文引入了PixelShuffle算法将单张图片的序列长度从1024降低至256。如图3PixelShuffle会将VIT输出的(1024,hidden_dim)的序列reshape为(32,32,hidden_dim)的特征图, 然后每个2x2为一个基础单元按图3个方式进行变换进而得到(16, 16, hidden_dimx4)的特征图。最后将特征图进行flatten得到(256, hidden_dimx4)的序列。
3.5.3 训练数据集
为了提升模型的通用能力和OCR能力InternVL-V1.5收集了海量开源数据集用于模型预训练和finetune。第一阶段预训练仅训练VIT和MLP部分预训练数据集主要是基础能力的训练包括图像的简单描述目标检测和OCR能力。第二阶段finetune则包含各种复杂任务包括图像详细描述表格理解图像问答等。两阶段的序列长度均为4096并将max_patches设置为7。除此之外为了提升模型的中文场景理解能力和中文OCR能力在构建数据集时InternVL-V1.5将大量英文数据集利用LLM翻译成了中文如将img-caption数据集的英文caption转为中文caption并使用PaddleOCR和Wukong数据集生成了Wukong-ocr数据集。
3.5.4 InternVL-v1.5的贡献
相较于之前的工作InternVL-v1.5的主要贡献在于将大VIT、长img_emb和动态长宽比引入了多模态大模型并扩充了训练数据集。
对于富文本图片其包含的信息量较大此前使用的小VIT短img_emb可能无法承载如此多的信息大VIT长img_emb让internVL-V1.5拥有了理解富文本图片的潜力 扩充的训练数据集让internVL-V1.5拥有了理解富文本图片的能力 动态长宽比的引入则让模型更好的处理极端长宽比的图片如宣传海报并且避免了图像resize导致的形变问题
3.6 Qwen2VL
Qwen2VL相较与InternVL-v1.5其包含以下几个改进:
Qwen2VL的模型架构的特殊性主要体现在动态分辨率和位置embedding上。
3.6.1 动态分辨率
InternVL系列的图像转序列(img_emb)模块会将图像分为多个448*448的patch即图像的长宽会被resize到448的倍数该方法虽然能支持动态长宽比但实际应用时该图像分patch机制更多考虑的是长宽比而非分辨率。
而Qwen2VL的图像转序列不仅考虑了长宽比还考虑了分辨率对img_emb序列长度的影响, 极大程度上提升了模型的infer效率。其实现动态分辨率的具体做法分为图像预处理和VIT两个部分。
图像预处理部分以512x512的图像为例该图像会被resize成504x504然后被分为 36x36个patch每个patch的大小均为14x14x3随后channel维度进行重复得到 36x36个patch每个patch的大小均为14x14x3x2最后会对图像进行flatten操作得到(36x36, 14x14x3x2) 1296, 1176的序列。
视觉部分以512x512的图像为例其预处理后的序列会先过一个3D卷积将其变为1296, 1280其作用相当于过了一个FFN模型中使用的3D卷积是为了将图片与视频相统一。该序列过完VIT后即得到1296, 1280的img_emb。由于图像最开始被resize到长宽均能被28整除因此此时得到的seq_len一定能被4整除。为了压缩图像序列减少大模型的资源消耗视觉部分将img_emb reshape为(1296/43245120)的大小并使用FFN将hidden维度数与大模型对齐。
3.6.2 统一的多模态Rope位置embedding
为了将视频图像和文本将统一该文提出了一个统一的位置embeddingMultimodal Rotary Position Embedding。对于每个token其有三个 position_id分别是 temporal position_ids(时间id在纯文本中表示原始的位置id在图片或视频中表示时间位置id)height position_ids和width position_ids(宽高id在纯文本中宽高id与时间id一致在视频和图片中表示图片的宽高)。以下是一个position_id的例子。 input_ids: [V V V V V V V V V V V V T T T T T], here V is for vision. vision temporal position_ids: [0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2] vision height position_ids: [0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1] vision width position_ids: [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1] text temporal position_ids: [3, 4, 5, 6, 7] text height position_ids: [3, 4, 5, 6, 7] text width position_ids: [3, 4, 5, 6, 7]
temporal position_ids: [0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 4, 5, 6, 7] height position_ids: [0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 3, 4, 5, 6, 7] width position_ids: [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 3, 4, 5, 6, 7]
在过完vision_token之后text_token的时间id起始值为 之前三种id的最大值 1。这种设计有几点好处:
保证后续pos id比前序pos id大多模态他模型的图像token的长度通常为1k-2k但分patch后的图像宽高通常在100以内。该方法可以减小position_id的值。从而使模型能用更小的pos_id适配更长的序列长度。
在基于多模态position_id应用到qk的hidden_states时Qwen2VL先分别生成时间高度和宽度的rope位置编码分别分配给时间、高度和宽度。此处有一个细节我们知道rope编码在低维和高维的角度不同。
因此在生成单个token的最终位置emb时Qwen2VL使用图4所示的方法合成位置emb保证时间宽度高度这三个维度都均有高维区域和低维区域。
3.6.3 训练过程
Qwen2VL的训练经过了三个不同的阶段每个阶段的训练目标可训练参数和训练数据集简介见下表
相较于之前的工作Qwen2VL的主要贡献在于将更精细的动态图像预处理方式和统一的多模态位置编码引入了多模态大模型。
Qwen2VL仅要求图像的宽高能被28整除该方式能处理更多样的长宽比。且能根据图像分辨率分配img_emb的token数量资源消耗更加合理。统一的多模态位置emb(M-Rope)统一了图像视频和文本。对比实验证明了该编码方式能提升模型效果。
四. VLM 训练实践指南
这部分内容提供了 VLM 训练的实践指南涵盖数据准备、软件工具、模型选择、训练技巧和优化策略等多个方面。 ️
1. 训练数据高质量数据是成功的基石 数据质量 vs. 数据规模: 高质量的训练数据比单纯追求数据规模更重要。DataComp 基准研究表明数据剪枝 (data pruning) 是提高 VLM 性能的关键步骤。 数据剪枝 (Data Pruning) 方法: 启发式方法 (Heuristics): 基于规则或经验过滤掉低质量或噪声数据对。 Bootstrapping 方法: 使用预训练的 VLM 模型评估图像-文本对的多模态对齐程度并移除对齐程度较低的数据对实现数据自 清洗。 ✨ 多样化与平衡 (Diversity and Balance): 确保训练数据集的多样性 (覆盖不同场景、风格、主题) 和类别平衡避免模型学习偏见。 数据增强 (Data Augmentation): 采用图像增强 (例如随机裁剪、旋转、颜色变换) 和文本增强 (例如同义词替换、回译) 等技术增加数据的多样性和模型的鲁棒性。 ➕ 交错式数据整编 (Interleaved Data Curation): 将不同来源、不同质量、不同类型的数据进行有效组合和混合可能有助于提升模型的泛化能力和鲁棒性。 多模态数据质量评估: 建立客观的多模态数据质量评估指标和方法例如图像清晰度、文本流畅度、图像-文本相关性等。 人类专业知识与数据标注: 高质量的人工标注数据 (例如边界框标注、属性标注、关系标注) 对于提升模型的定位能力、细粒度理解能力和对齐能力至关重要尤其是在指令微调和 RLHF 等场景下。
2. 软件工具与硬件资源高效训练的保障 ⚙️ 公共软件库 (Public Software Libraries): 利用现有的深度学习框架 (例如 PyTorch, TensorFlow) 和 VLM 相关库 (例如 Hugging Face Transformers, PyTorch Image Models - timm) 可以显著加速 VLM 的开发和训练进程降低开发门槛。 GPU 资源需求 (GPU Requirements): 训练大规模 VLMs 需要大量的 GPU 资源具体数量取决于模型大小、数据集规模、训练时长和 batch size 等因素。例如训练 CLIP 模型可能需要数百甚至上千张 GPU 运行数天甚至数周。 训练加速技巧 (Training Speed-up Techniques): 混合精度训练 (Mixed Precision Training): 使用半精度浮点数 (FP16) 替代单精度浮点数 (FP32) 进行训练可以显著降低显 存占用和计算时间提升训练速度。 梯度累积 (Gradient Accumulation): 在显存受限的情况下可以通过梯度累积来模拟更大的 batch size提升训练效果。 分布式训练 (Distributed Training): 利用多 GPU 或多机并行计算加速大规模模型的训练过程。 超参数调优 (Hyperparameter Tuning): 学习率 (Learning Rate)、Batch Size、Weight Decay、Dropout Rate 等超参数对 VLM 的性能至关重要需要进行精细的调优常用的调优方法包括网格搜索 (Grid Search)、随机搜索 (Random Search)、贝叶斯优化 (Bayesian Optimization) 等。 ️
3. 模型选择根据任务和资源选择合适的模型
对比模型 (例如 CLIP, SigLIP): 适用于零样本分类、跨模态检索等任务具有强大的零样本迁移能力。 掩码模型 (例如 FLAVA, MaskVLM): 适用于视觉问答、图像分割、细粒度图像理解等任务能够学习更丰富的视觉和语言表示。 生成模型 (例如 CoCa, Stable Diffusion): 适用于图像描述生成、文本到图像生成、多模态对话等任务能够生成多样化的文本和图像内容。 基于预训练 LLM 的模型 (例如 Frozen, MiniGPT 系列, BLIP-2): 适用于资源有限的场景能够快速构建具备基本视觉语言能力的 VLM并可以利用 LLMs 强大的语言能力。 ⚡模型选择策略: 需要根据具体的任务需求、数据规模、计算资源和性能指标要求权衡不同模型的优缺点选择最合适的 VLM 架构和训练范式。 ⚖️
4. 提升定基 (Grounding)解决幻觉提升理解
定基问题: VLMs 可能无法很好地理解文本 prompt导致忽略 prompt 中的某些部分或产生幻觉。 提升定基的技巧: 使用边界框标注 (Bounding Box Annotations): 在训练数据中引入物体边界框标注帮助模型学习物体的位置、大小和属性信息提升模型对空间关系的理解能力。 否定描述 (Negative Descriptions): 在训练数据中包含否定描述 (例如 “图中没有猫”)帮助模型理解否定概念和约束条件提升模型的理解准确性。 提升对齐 (Alignment Improvement): 采用指令微调 (Instruction Tuning) 和人类反馈强化学习 (RLHF) 等技术使模型的输出更符合人类的期望和偏好提升模型的对齐水平和可靠性。
5. 提升对富含文本的图像的理解OCR 与场景文本理解
文本理解的重要性: 日常生活中的视觉信息包含大量文本例如路标、广告牌、商品标签等理解图像中的文本信息对于 VLM 至关重要。 OCR 能力 (Optical Character Recognition): VLMs 需要具备良好的光学字符识别 (OCR) 能力才能准确识别和理解图像中的文本信息。 ️场景文本理解的挑战: 图像中的文本可能存在字体多样、模糊不清、遮挡变形、方向倾斜等问题给 OCR 和场景文本理解带来挑战。此外理解文本与图像内容的关联也至关重要。 提升文本理解的方法: 细粒度的富含文本的数据指令微调 (LLaVAR): 使用包含细粒度文本描述的数据集进行微调例如 LLaVAR 模型。 ✨ 处理高分辨率图像中的细粒度文本 (Monkey): 提升模型处理高分辨率图像和细粒度文本的能力例如 Monkey 模型。 分立式场景文本识别模块与 MM-LLM (Lumos): 将场景文本识别模块 (例如专门的 OCR 模型) 与多模态大型语言模型 (MM-LLM) 解耦例如 Lumos 模型可以提升文本识别的准确性和效率。
6. 参数高效型微调 (Parameter-Efficient Fine-Tuning, PEFT)轻量级微调策略
微调挑战: 微调大规模 VLMs 的全部参数集计算成本高昂且容易过拟合。 PEFT 方法的目标: 在保持模型性能的同时仅微调少量参数降低计算成本和存储开销提高微调效率和泛化能力。 PEFT 方法分类: 基于低秩适配器 (Low-Rank Adapters, LoRa) 的方法: 在预训练模型的 Transformer 层中插入少量低秩矩阵仅训练这些低秩矩阵参数例如 LoRa 和 AdaLoRa。 ➕ 基于 Prompt 的方法 (Prompt-based Methods): 设计可学习的 Prompt引导预训练模型完成下游任务仅微调 Prompt 参数例如 Visual Prompt Tuning 和 Adapter-Prompt。 基于适配器 (Adapter-based Methods) 的方法: 在预训练模型的 Transformer 层之间插入 Adapter 模块仅训练 Adapter 模块参数例如 AdapterFusion 和 Compacter。 ⚙️ 基于映射 (Mapping-based Methods) 的方法: 学习输入特征到下游任务特定空间的映射例如 Prefix-Tuning 和 UNIPEL。 ️
7. 实现负责任的 VLM 评估全面、多维度的性能度量
VLM 评估的重要性: 客观、全面地评估 VLM 的性能是推动 VLM 研究和应用的关键环节有助于发现模型优势和不足指导模型改进方向并确保模型的可靠性和安全性。 早期评估任务: 图像描述生成 (Image Captioning) 和视觉问答 (Visual Question Answering, VQA) 是 VLM 早期常用的评估任务。 ❓文本为中心的 VQA (Text-centric VQA): 侧重于评估模型理解和阅读图像中文本的能力例如 TextVQA 和 ST-VQA 基准数据集。 零样本预测 (Zero-shot Prediction): 例如在 ImageNet 分类任务上进行零样本评估评估模型的世界知识和零样本迁移能力。 组合推理能力评估 (Compositional Reasoning Evaluation): 例如 Winoground 基准评估模型的视觉-语言组合推理能力。 偏见与幻觉评估 (Bias and Hallucination Evaluation): 评估 VLM 模型在生成内容时是否存在偏见 (例如性别偏见、种族偏见) 和幻觉问题确保模型的公平性和可靠性。 ⚖️
8. 将 VLMs 扩展用于视频动态视觉信息处理
视频 VLM 的挑战: 视频数据具有时间维度数据量更大计算复杂度更高对模型处理动态视觉信息的能力提出了更高要求。 视频 VLM 的优势: 视频 VLMs 能够理解物体的运动轨迹、动态变化和时间关系捕捉场景中的动作和事件实现更丰富的视觉信息理解。 视频 VLM 的应用: 视频文本检索 (Video-Text Retrieval)、视频问答 (Video Question Answering)、视频生成 (Video Generation)、视频行为识别 (Video Action Recognition)、视频内容分析 (Video Content Analysis) 等。 ❓视频 VLM 的发展趋势: 借鉴图像-文本模型的成功经验将预训练 LLMs 与视频编码器对齐利用视觉指令微调等技术构建更强大的视频理解和生成模型。早期的视频-文本模型更倾向于融合和时间对齐方法近年来越来越多地采用预训练 LLMs 作为骨干网络并进行视觉指令微调。
五. 结论与未来展望VLM 的无限可能 ✨
视觉语言模型 (VLMs) 作为连接视觉和语言世界的桥梁已经成为人工智能领域最受瞩目的研究方向之一。它们在图像理解、文本生成、跨模态交互等多个方面展现出强大的能力并在诸多应用领域具有巨大的潜力。 尽管 VLMs 取得了显著进展但仍面临着诸多挑战例如跨模态语义鸿沟、组合泛化能力、幻觉问题、鲁棒性与泛化性、训练成本和模型评估等。未来的研究方向将主要集中在
提升跨模态深度理解: 探索更有效的模型架构和训练方法提升 VLMs 对视觉和语言信息深层次语义关联的理解能力例如因果推理、常识推理、情感理解等。 增强组合泛化能力: 提高 VLMs 在处理复杂场景、长尾数据和分布外数据时的泛化能力提升模型的鲁棒性和可靠性。 ️缓解和消除幻觉问题: 研究更有效的模型校准、知识融合和约束生成方法降低 VLMs 产生幻觉的可能性提升生成内容的真实性和可信度。 降低训练成本和资源消耗: 探索更高效的训练算法、模型压缩和参数高效型微调技术降低 VLMs 的训练和部署成本使其更容易普及和应用。 ⬇️构建更全面和负责任的评估体系: 建立更全面、多维度、负责任的 VLM 评估指标和基准涵盖性能、鲁棒性、公平性、安全性和伦理道德等方面。 ⚖️拓展 VLM 的应用边界: 将 VLMs 应用于更广泛的领域例如科学研究、医疗健康、教育、艺术创作、虚拟现实、元宇宙等充分挖掘 VLMs 的潜力创造更大的社会价值。 视频 VLMs 的突破与创新: 在视频数据理解、视频生成、视频交互等领域取得突破推动视频 VLM 技术的快速发展和应用普及。
随着技术的不断进步和研究的深入视觉语言模型将在未来的人工智能领域扮演越来越重要的角色为人类带来更加智能、便捷和美好的生活体验。
参考文献
[1] https://zhuanlan.zhihu.com/p/700599618 [2] https://innovation64.github.io/2024/05/30/vlm/ [3] https://zhuanlan.zhihu.com/p/690339122 [4] https://mp.weixin.qq.com/s/oXsuMdwXOaKLS-pbc5tE6g [5] https://mp.weixin.qq.com/s/3XM202pXAPpjfXU4Ke9IVQ [6] https://mp.weixin.qq.com/s/Q2kLH6L87WwCc3FZrHOqUw