设计一个电子商务网站,wordpress主题怎么删除边栏,百度助手app下载,国家企业信用公示(上海)摘要
随着人工智能技术的快速发展#xff0c;多模态大模型#xff08;MLLM#xff09;已成为研究的新热点。这些模型以强大的大型语言模型#xff08;LLM#xff09;为基础#xff0c;能够处理和理解多种模态信息#xff0c;如文本、图像、视频和音频。本文综述了MLLM的…摘要
随着人工智能技术的快速发展多模态大模型MLLM已成为研究的新热点。这些模型以强大的大型语言模型LLM为基础能够处理和理解多种模态信息如文本、图像、视频和音频。本文综述了MLLM的最新进展包括其基本架构、训练策略、数据和评估方法并探讨了如何扩展MLLM以支持更细粒度的输入输出、更多模态、语言和应用场景。此外还讨论了多模态幻觉问题和一些关键技术如多模态上下文学习M-ICL和多模态链式推理M-CoT。最后文章指出了当前MLLM面临的挑战和未来研究方向。
1、引言
近年来LLM在自然语言处理NLP任务上展现出了惊人的零样本/少样本推理能力。然而这些模型在视觉方面是“盲”的因为它们只能理解离散的文本。与此同时大型视觉模型LVM在视觉感知方面表现出色但在推理方面通常落后。MLLM的出现结合了LLM和LVM的优势能够接收、推理并输出多模态信息。 2、MLLM的基本构成
MLLM通常由三个模块组成预训练的模态编码器、预训练的LLM和一个连接它们的模态接口。模态编码器将原始信息如图像或音频压缩成更紧凑的表示。预训练的LLM则负责理解和推理处理过的信号。模态接口用于对齐不同的模态。一些MLLM还包括一个生成器用于输出除文本之外的其他模态。
2.1 模态编码器
模态编码器的作用是将原始信息压缩成LLM能够理解的紧凑表示。常见的做法是使用预训练的编码器这些编码器已经在其他模态上进行了对齐。例如CLIP结合了一个通过大规模预训练在图像-文本对上语义对齐的视觉编码器。因此使用这种最初就已经预对齐的编码器与大型语言模型LLMs进行对齐预训练会更容易。 表1总结了常用的一系列图像编码器。除了普通的CLIP图像编码器之外一些研究还探索了使用其他变体。 例如MiniGPT-4采用了EVA-CLIPViT-G/14编码器该编码器使用改进的训练技术进行训练。相比之下Osprey引入了一个基于卷积的ConvNext-L编码器以利用更高分辨率和多级特征。
在选择编码器时通常会考虑诸如分辨率、参数大小和预训练语料库等因素。值得注意的是许多研究已经通过实验验证了使用更高分辨率可以实现显著的性能提升。提高输入分辨率的方法可以分为直接缩放和分块方法。
直接缩放方式将更高分辨率的图像输入到编码器中这通常涉及进一步调整编码器或替换为更高分辨率的预训练编码器。同样CogAgent使用双编码器机制其中两个编码器分别处理高分辨率和低分辨率图像。通过交叉注意力将高分辨率特征注入到低分辨率分支中。
分块方法将高分辨率图像切割成小块并重用低分辨率编码器。例如Monkey和SPHINX将大图像分割成较小的块并将子图像与降采样的高分辨率图像一起发送到图像编码器其中子图像和低分辨率图像分别捕获局部和全局特征。
2.2 预训练LLM
与从头开始训练一个大型语言模型LLM相比使用预训练的模型更为高效和实用。通过在网络语料库上的大规模预训练LLMs已经嵌入了丰富的世界知识并展现出强大的泛化和推理能力。 在表2中总结了常用的和公开可用的LLMs。值得注意的是大多数LLMs属于因果解码器类别遵循GPT-3。其中Flan-T5系列是较早在BLIP-2和InstructBLIP等工作中使用的LLMs。LLaMA系列和Vicuna家族是引起学术界广泛关注的代表性开源LLMs这两个LLMs主要在英语语料库上进行预训练因此它们在多语言支持方面受限例如中文。相比之下Qwen是一个支持中文和英文的双语LLM。
扩大LLMs的参数规模也能带来额外的收益类似于提高输入分辨率的情况。具体来说刘等人发现仅仅将LLM从70亿参数扩大到130亿参数就能在各种基准测试上带来全面的提升。此外当使用340亿参数的LLM时模型显示出了在训练期间仅使用英文多模态数据时的零样本中文能力。
也有一些工作使用较小的LLMs以便于在移动设备上部署。例如MobileVLM系列使用了缩小版的LLaMA称为MobileLLaMA 1.4B/2.7B使得在移动处理器上能够高效推理。
2.3 模态接口
由于LLM只能感知文本因此需要一个接口来建立自然语言和其他模态之间的桥梁。实践中通常在预训练的视觉编码器和LLM之间引入一个可学习的连接器。另一种方法是在专家模型的帮助下将图像翻译成语言然后将语言发送给LLM。 可学习的连接器Learnable Connector负责弥合不同模态之间的差距。具体来说该模块将信息投影到LLM能够高效理解的空间中。根据多模态信息融合的方式大致有两种实现这种接口的方法即令牌级别token-level和特征级别feature-level融合。 令牌级别Token-level融合 在这种方法中多模态信息被转换成LLM可以处理的令牌tokens这些令牌可以直接嵌入到文本序列中比如BLIP-2。例如图像或音频特征可以被转换成特定的令牌然后与文本令牌一起被送入LLM进行处理。这种方法的优点是可以直接利用LLM的序列处理能力但可能需要复杂的令牌设计和预处理步骤。 特征级别Feature-level融合 在特征级别融合中不同模态的特征被映射到一个共同的特征空间然后在这个空间中进行融合。这种方法通常涉及到将图像、音频等模态的特征向量与文本特征向量进行某种形式的组合或加权。特征级别融合的优点是可以更灵活地处理不同模态的特征但可能需要更复杂的神经网络架构来实现有效的特征交互。
这两种方法都有其优势和挑战选择哪一种方法取决于具体的应用场景、数据特性以及模型的设计。在实际应用中可能需要根据性能和效率的考量来调整和优化连接器的设计。 特征级别Feature-level融合通过插入额外的模块来实现文本特征和视觉特征之间的深度交互和融合。以下是一些具体的例子 FlamingoFlamingo模型在LLMs的固定Transformer层之间插入额外的交叉注意力层从而将语言特征与外部视觉提示相结合。Flamingo采用了感知重采样Perceiver Resampler技术和门控交叉注意力Gated Cross-Attention技术进行视觉多模态信息和LLM的融合。 CogVLMCogVLM在每个Transformer层中插入一个视觉专家模块以实现视觉和语言特征之间的双重交互和融合[75]。CogVLM模型包括四个基本组件视觉转换编码器ViT、MLP适配器、预训练的大型语言模型GPT和视觉专家模块[23]。视觉专家模块在每一层中由QKV矩阵和每一层的MLP组成QKV矩阵和MLP的形状与预训练语言模型的形状相同并从预训练的语言模型中初始化。 LLaMA-AdapterLLaMA-Adapter引入可学习的提示prompts到Transformer层中这是一种轻量级的方法使用可学习的提示和零初始化的注意力来适配LLaMA使其成为一个遵循指令的模型。 这些方法通过在预训练的视觉编码器和LLM之间引入可学习的连接器有效地实现了不同模态之间的深度融合和交互。通过这种方式模型能够更好地理解和处理多模态输入提高在多模态任务上的性能。 在参数规模方面可学习的接口通常与编码器和大型语言模型LLMs相比只占很小一部分。以Qwen-VL为例Q-Former的参数规模约为0.08亿占整个参数的不到1%而编码器和LLM分别占约19.8%1.9亿和80.2%7.7亿
3、训练策略和数据
MLLM的训练分为三个阶段预训练、指令调优和对齐调优。每个阶段都需要不同类型的数据并实现不同的目标。
3.1 预训练
预训练的主要目标是对齐不同模态并学习多模态世界知识。这通常需要大规模的文本配对数据例如图像描述数据。
3.2 指令调优
指令调优旨在教会模型更好地理解用户的指令并完成任务。这种调优方式使得LLM能够通过遵循新指令泛化到未见任务从而提高零样本性能。
3.3 对齐调优
对齐调优通常用于需要模型与特定人为偏好对齐的场景例如减少幻觉响应。目前主要有两种技术基于人类反馈的强化学习RLHF和直接偏好优化DPO。 4、评估
评估是MLLM开发的重要组成部分它为模型优化提供反馈并帮助比较不同模型的性能。MLLM的评估可以分为封闭集和开放集两种类型。
4.1 封闭集
封闭集问题是指可能的答案选项被预定义并限制在有限集合中的问题。评估通常在特定任务的数据集上进行。
4.2 开放集
与封闭集问题相比开放集问题的回答可以更加灵活MLLM在这类问题中通常扮演聊天机器人的角色。 5、MLLM的扩展
MLLM的研究在扩展其能力方面取得了显著进展从更强大的基础能力到更广泛的应用场景覆盖。
5.1 粒度支持
为了促进代理与用户之间的更好交互研究人员开发了具有更细粒度输入和输出支持的MLLM。
5.2 模态支持
增加对模态的支持是MLLM研究的趋势之一。研究人员探索了使MLLM适应支持更多模态内容的输入如3D点云。
5.3 语言支持
当前模型主要是单语的部分原因是非英语训练语料库的质量参差不齐。一些工作致力于开发多语言模型以便覆盖更广泛的用户群体。
5.4 场景/任务扩展
除了开发通用的通用助手外一些研究还专注于更具体的应用场景其中需要考虑实际条件而另一些研究则将MLLM扩展到具有特定专业知识的下游任务。 6、多模态幻觉
多模态幻觉是指MLLM生成的回答与图像内容不一致的现象。这是一个基础且重要的问题已经引起了越来越多的关注。
6.1 评估方法
评估多模态幻觉的方法包括CHAIR、POPE、MME、HaELM和FaithScore等。
6.2 缓解方法
缓解多模态幻觉的方法大致可分为三类预校正、过程中校正和后校正。 7、扩展技术
7.1 多模态上下文学习M-ICL
M-ICL是LLM的重要能力之一它允许模型从少数示例中学习并推广到新问题从而以少样本的方式解决复杂任务。
7.2 多模态链式推理M-CoT
M-CoT是将LLM的链式推理能力扩展到多模态领域。M-CoT要求模型不仅输出最终答案还输出导致答案的推理过程。
7.3 LLM辅助视觉推理
LLM辅助视觉推理系统利用预训练的LLM作为助手执行视觉推理任务。这些系统表现出强大的泛化能力、新兴能力和更好的交互性及控制性。 8、挑战和未来方向
MLLM的发展仍处于初级阶段存在许多需要改进的地方
处理长上下文的多模态信息当前的MLLM在处理长上下文的多模态信息方面存在限制这限制了具有更多多模态标记的高级模型的发展。遵循复杂指令MLLM需要升级以遵循更复杂的指令例如生成高质量的问题-答案对数据。M-ICL和M-CoT技术的改进M-ICL和M-CoT技术的研究仍处于初级阶段MLLM的相关能力较弱因此探索其背后的机制和潜在改进是有意义的。基于MLLM的具身代理的发展基于MLLM的具身代理是一个热门话题开发能够与真实世界互动的代理模型具有重要意义。安全问题与LLM类似MLLM可能容易受到精心设计的攻击可能会被误导输出有偏见或不期望的回答。因此提高模型的安全性将是一个重要的研究课题。 结论
本文综述了MLLM的现有文献并提供了其主要方向的广泛视角包括基本配方和相关扩展。此外文章强调了当前研究中需要填补的差距并指出了一些有前景的研究方向。希望本综述能为读者提供MLLM当前进展的清晰图景并激发更多的研究工作。