巧家县住房和城乡建设局网站,如何免费学校建网站,微站电池,wordpress 网页压缩人类通过如视觉、语言、听觉等多种渠道与世界互动#xff0c;每个单独的渠道在表示和传达某些概念时都有其独特的优势#xff0c;人工智能#xff08;AI#xff09;的一个核心愿景是开发一个能够有效遵循多模态视觉和语言指令的通用助手#xff0c;与人类意图一致#xf…人类通过如视觉、语言、听觉等多种渠道与世界互动每个单独的渠道在表示和传达某些概念时都有其独特的优势人工智能AI的一个核心愿景是开发一个能够有效遵循多模态视觉和语言指令的通用助手与人类意图一致可以完成各种现实世界任务。本文介绍另外一篇基于BLIP的多模态大模型LLaVALarge Language and Vision Assistant这是一个端到端训练的大型多模态模型同时首次引入仅使用语言训练的GPT-4生成多模态语言-图像通过指令调优构建通用视觉-语言模型。下面详细解读。
架构
为了有效利用预训练的LLM语言大模型与BLIP视觉大模型LLaVA使用一个简单的线性层来将图像特征映射到词嵌入空间。LLaVA模型的架构包括一个视觉编码器如CLIP的ViT-L/14一个语言模型如Vicuna以及一个Q-Former用于将视觉特征和语言指令结合起来。
模型
训练过程中分两个阶段 1预训练的视觉编码器和LLM的基础上进行特征对齐的预训练 2端到端的微调以适应生成的指令跟随数据
预训练模型初始化 ○ 基于预训练的BLIP-2模型该模型包含一个视觉编码器、一个大型语言模型LLM和一个查询变换器Query Transformer简称Q-Former。指令调优 ○ 使用机器生成的指令跟随数据LLaVA模型在多模态数据上进行指令调优以提高模型对视觉和语言指令的理解能力。数据生成 ○ 使用GPT-4生成多模态语言-图像指令跟随数据这些数据被转换成指令调优格式用于训练模型。指令感知的视觉特征提取 ○ 引入了一个指令感知的Q-Former模块该模块不仅接收图像特征还接收文本指令作为输入以便提取与给定指令相关的任务相关的视觉特征。
实验
LLaVA多模态大模型在如下几个方面都有不错的提升在Science QA dataset的数据集中比GPT-4有显著的提升。
多模态聊天能力 ○ LLaVA模型展现出了多模态聊天能力能够处理包含图像和文本的复杂对话任务。零样本性能 ○ 论文中的实验结果表明LLaVA在多个零样本任务上取得了优异的性能包括在合成多模态指令跟随数据集上与GPT-4相比的相对分数。下游任务微调 ○ 当在特定的下游任务如Science QA上进行微调时LLaVA与GPT-4的结合实现了新的最佳准确度。
小结
LLaVA模型展示了视觉指令调优的有效性在ScienceQA上微调后达到了新的最准确度并且在多模态聊天数据上微调后展现出强大的视觉聊天能力。核心贡献如下 ● 多模态指令跟随instruction-follow数据填补了视觉-语言的指令跟随数据的空白同时提供一个pipeline方式使用GPT-4将图像-文本对转化为指令跟随格式 ● 新的多模态大模型使用了视频encoder CLIP与decoder Vicuna与GPT-4级联后可以达到更高的水准 ● 构建了一个多模态的指令跟随标准评测数据集
PS相关论文《Visual Instruction Tuning》https://arxiv.org/pdf/2304.08485感兴趣的读者可以详细阅读