当前位置: 首页 > news >正文

网站flash模板中国商机创业网

网站flash模板,中国商机创业网,网站开发前如何配置电脑,搜索关键词排名查询大模型学习笔记------BLIP-2模型的详解与思考 1、BLIP-2框架概述2、BLIP-2网络结构详解3、BLIP-2的几点思考 上一篇文章上文中讲解了 BLIP#xff08;Bootstrapping Language-Image Pretraining#xff09;模型的一些思考#xff0c;本文将讲述一个BLIP的升级版 BLIP-2Bootstrapping Language-Image Pretraining模型的一些思考本文将讲述一个BLIP的升级版 BLIP-2讲述BLIP-2模型的模型结构与自己的一些见解。 1、BLIP-2框架概述 BLIP-2模型的整个框架与BLIP比较来看相对抽象具体如下所示     从BLIP-2模型的整个框架爱上看BLIP-2由这么几个部分组成图像输入了图像编码器Image Encoder得到的结果与文本Text在Q-FormerBERT初始化里进行融合最后送入LLM模型进行文本的生成。 Image Encoder负责从输入图片中提取视觉特征文章中试验了CLIP 训练的 ViT-L/14和EVA-CLIP训练的 ViT-g/14。Q-Former负责弥合视觉和语言两种模态的差距Queries是训练的参数。Large Language ModelLLM负责文本生成文章中试验了decoder-based LLM 和encoder-decoder-based LLM。 从上述的网络框架可以看出BLIP-2模型的主要训练任务其实是在训练Q-Former模块。当然BLIP-2的最大创新点也是基于Q-Former模块。其次比较重要的部分就是如何将Q-Former模块输出与LLM模型进行结合。 2、BLIP-2网络结构详解 BLIP-2模型的整个框架与BLIP比较来看相对抽象但是拆开来看并不复杂。我们从Q-Former模块入手。 2.1 表征学习阶段 BLIP-2中Q-Former模块第一个阶段的训练过程可以称为表征学习阶段。具体如下所示     很显然BLIP-2延续了BLIP的思想联合优化3个具有相同输入格式和模型参数的预训练目标每个目标函数使用不同的 mask Attention 来控制注意力的交互。 2.1.1 图文匹配任务 (Image-Text Matching, ITM) ITM 是个二分类任务要求模型预测图像-文本对是正样本 (匹配) 还是负样本 (不匹配)。ITM可以更加细粒度地对齐图像和文本的表征使其互信息最大化。实现过程将Image Transformer输出的每个Query嵌入输入到一个二类线性分类器中以获得对应的logit然后将所有的logit平均再计算匹配分数。ITM 的 Attention Mask 方法如上图中绿色框中所示采用 Bi-directional Self-Attention Mask允许 Queries 和 Text 相互关注。 2.1.2 图文对比学习 (Image-Text Contrastive Learning, ITC) ITC是通过计算图像与文本的对比度来提高图文信息提取的能力。 Q-Former模块中 作者实现 ITC 的方法是计算 Queries 的输出和 Text Transformer 的 [CLS] token 输出的对比学习损失。因为有多个 Queries 的输出因此作者首先计算每个 Queries 的输出和[CLS] token 输出之间的成对相似度然后选择最高的一个作为最终的图文相似度。ITC 的 Attention Mask 方法采用上图中红色框部分采用Uni-modal Self-Attention Mask的方式不允许 Queries 和 Text 相互关注。 2.1.3 基于图像的文本生成 (Image-Grounded Text Generation, ITG) ITG 是在给定输入图像作为条件的情况下训练 Q-Former 生成文本迫使Query提取包含文本信息的视觉特征。由于 Q-Former 的架构不允许冻结的图像编码器和文本标记之间的直接交互因此生成文本所需的信息必须首先由Query提取然后通过自注意力层传递给文本标记。Queries 应该具备提取捕获了所有文本信息的视觉特征的能力。     ITG采用Multi-modal Causal Self-Attention Mask来控制Query和Text的交互Query可以相互关注但不能关注Text标记每个Text标记都可以处理所有Query及其前面的Text标记。这里将 [CLS] 标记替换为新的 [DEC] 标记作为第一个文本标记来指示解码任务。 2.2 生成学习阶段 在生成预训练的阶段作者把 Q-Former 和冻结参数的 LLM 连接起来以利用 LLM 的文本生成能力。图像的表征和 Queries 输入 Q-Former后得到 Queries 的输出 经过一个全连接层与 Text token 的维度对齐之后输入给 LLM Decoder或是LLM Encoder。其中 Queries 的输出就蕴含了视觉信息。整个Q-Former从本质上就是增强模型理图像和文本之间的交互的表现能力输出作为LLM模型的Soft Visual Prompt。 BLIP-2试验了两种类型的 LLM分别是基于纯 Decoder 架构的和基于 Encoder-Decoder 架构的。对于基于纯 Decoder 架构的模型黄色框部分使用语言建模目标函数进行训练。冻结参数的 LLM 的任务是根据 Q-Former 提供的视觉表征来生成文本。对于基于 Encoder-Decoder 架构的模型红色框部分把文本分成两段前缀文本与Queries 的输出作为LLM中Encoder的输入Decoder输出后缀文本。 BLIP-2中的视觉模型使用CLIP训练的 ViT-L/14和EVA-CLIP训练的 ViT-g/14LLM模型采用的是OPT纯Decoder 架构和FlanT5Encoder-Decoder 架构。 3、BLIP-2的几点思考 1Q-Former 的主要作用 Q-Former经过预训练后可以提取包含语言信息的视觉表示因此它可以有效地充当信息瓶颈将最有用的信息提供给 LLM同时删除不相关的视觉信息减轻了 LLM 学习视觉语言对齐的负担。 2BLIP与BLIP-2 在图文信息融合方面有哪些不同的思路 BLIP主要是通过视觉-文本编码器中的Cross Attention直接进行图像与文本的融合BLIP-2分为两步第一步是Queries与文本通过Self Attention进行特征融合将融合的结果与图像进行Cross Attention的特征融合。 我们可以认为BLIP是图像与文本的强制性融合而BLIP-2通过可学习的Queries作为“润滑剂”间接完成图像与文本的融合。 3BLIP-2 如何节约计算成本 其实这个问题非常容易理解。BLIP-2在训练模型过程中使用已经预训练好的图像编码器与LLM模型借助现成的冻结参数的预训练视觉模型和大型语言模型进行模型的训练。这个方法大大降低了训练的成本。
http://www.hkea.cn/news/14301321/

相关文章:

  • 用ae做模板下载网站吉林网络公司哪家好
  • 网站 数据库 sql 导入数据库深圳特区建设
  • python 网站开发书籍网站建设技术 教材
  • 房产网站建设方案网站导航栏不显示
  • 找别人做的网站怎样修改南皮网站建设价格
  • 杭州营销策划公司排名基础建站如何提升和优化
  • 展馆设计网站美团网网站建设分析
  • 企业网站建设需求分析微信小程序注册后怎么登录
  • 营销网站中最重要的部分是中国会议营销网站
  • 在建设银行网站上还贷深圳网站开发培训价格
  • 王晴儿网站建设方案广州软件开发招聘
  • 微网站自己可以做么团购网站营销方案
  • 建设电子商务网站流程图江山市住房和城乡建设局网站
  • 成都哪里做网站好logo库官网
  • seo网络贸易网站推广劳务分包网
  • 网站视觉设计规范wordpress 模板 中文
  • 漯河网站建设网站建设国内十大咨询公司排名
  • 网站建设如何创业电子商务网站规划书范文
  • 做招聘网站做服务器多少钱建一个漫画网站
  • 高校校园网站建设与运行2022中国企业排行榜
  • 潍坊程序设计网站建设公司二级目录 wordpress 伪静态
  • 网站如何做排名网站开发用什么语言写
  • 自己开网站能赚钱吗做挂件的网站
  • 如何做一名网站编辑wordpress导航站模板
  • 女性做网站百度seo价格查询系统
  • 浅谈企业网站建设的目标网络服务商都有哪些公司
  • 北京网页制作公司电话网站优化方案教程
  • 西安网站制作有限公司网站建设远程工作
  • 金融企业网站整站源码网站建设英文怎么说
  • 做造价在那个网站比较好可信网站友链怎么做