今科网站建设公司,iis网站域名访问,网站项目计划书范文,wordpress防止爆破BLIP-2通过冻结的指令调优LLM以理解视觉输入#xff0c;展示了在图像到文本生成中遵循指令的初步能力。然而#xff0c;由于额外的视觉输入由于输入分布和任务多样性#xff0c;构建通用视觉语言模型面临很大的挑战。因而#xff0c;在视觉领域#xff0c;指令调优技术仍未…BLIP-2通过冻结的指令调优LLM以理解视觉输入展示了在图像到文本生成中遵循指令的初步能力。然而由于额外的视觉输入由于输入分布和任务多样性构建通用视觉语言模型面临很大的挑战。因而在视觉领域指令调优技术仍未被充分探索。InstructBLIP《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》是由Salesforce Research与香港科技大学和新加坡南洋理工大学合作提出的多模态预训练模型。InstructBLIP基于预训练的BLIP-2模型进行视觉指令微调旨在构建一个通用的视觉语言模型能够处理多种视觉语言任务。实验表明在13个保留数据集上训练的InstructBLIP并分别测试结果显示在全部的数据集上都取得了最先进的零样本性能显著优于BLIP-2和更大的Flamingo模型。
主要贡献
● 对视觉语言指令调优进行了全面和系统的研究证明了InstructBLIP在视觉语言零样本泛化方面的有效性。 ● 提出了指令感知的视觉特征提取以及一种平衡采样策略以同步数据集之间的学习进度。 ● 开源了一系列使用两个LLM家族的InstructBLIP模型1FlanT5一个从T5微调的编码器-解码器LLM2Vicuna一个从LLaMA微调的仅解码器LLM。
微调中使用的相关数据集如下
模型 InstructBLIP模型的工作流程可以概括为以下几个关键步骤
预训练模型初始化 ○ InstructBLIP基于预训练的BLIP-2模型该模型包含一个图像编码器、一个大型语言模型LLM和一个查询变换器Q-Former。这些组件共同构成了模型的核心架构。指令感知的视觉特征提取 ○ InstructBLIP引入了一个指令感知的Q-Former它不仅接收图像特征还接收文本指令作为输入。这样Q-Former可以根据给定的指令从图像编码器的输出中提取与任务相关的特征。指令调优 ○ 在指令调优阶段模型在13个保留数据集上进行微调同时保持图像编码器和LLM冻结。这一过程使得模型能够学习如何根据自然语言指令执行特定的视觉语言任务。平衡采样策略 ○ 为了处理不同数据集大小的差异InstructBLIP采用了平衡采样策略确保模型不会过度拟合小数据集或在大数据集上欠拟合。零样本评估 ○ InstructBLIP在13个保留数据集上进行零样本评估以测试模型在未见任务上的泛化能力。这包括在训练期间未见过的完整任务类别。下游任务微调 ○ InstructBLIP还可以在特定的下游任务上进行微调以进一步提高性能。由于图像编码器在指令调优期间保持冻结这减少了可训练参数的数量提高了微调效率。多模态接口 ○ InstructBLIP通过统一的自然语言界面处理广泛的视觉语言任务使其成为一个通用的视觉语言模型。
实验结果
在downstreat的数据集测试InstructBLIP超过了以前的SOTAstate of the art以及BLIP-2方法。
总结
InstructBLIP模型的核心创新在于其指令感知的视觉特征提取机制和指令调优策略这使得模型能够灵活地适应不同的视觉语言任务并在零样本设置下展现出强大的泛化能力。通过这种方式InstructBLIP能够在多种视觉语言任务上实现更为先进的性能。
PS附原文https://arxiv.org/pdf/2305.06500感兴趣读者可以深入阅读。