当前位置: 首页 > news >正文

网站专题页优化vi设计公司 北京

网站专题页优化,vi设计公司 北京,提高工作效率的方法有哪些,做网站跳转文章目录 MaPLe: Multi-modal Prompt Learning 多模式提示学习文章介绍动机MaPLe:Multi-modal Prompt Learning 模型结构1、Deep Language Prompting 深度语言提示2、Deep Vision Prompting 深度视觉提示3、Vision Language Prompt Coupling 视觉语言提示耦合提示耦合过程 实验… 文章目录 MaPLe: Multi-modal Prompt Learning 多模式提示学习文章介绍动机MaPLe:Multi-modal Prompt Learning 模型结构1、Deep Language Prompting 深度语言提示2、Deep Vision Prompting 深度视觉提示3、Vision Language Prompt Coupling 视觉语言提示耦合提示耦合过程 实验1、通过V-L prompts prompting CLIP2、基类到新类的泛化3、跨数据集评估4、域泛化5、消融实验 总结 MaPLe: Multi-modal Prompt Learning 多模式提示学习 文章介绍 这篇文章于2023年发表在CVPRConference on Computer Vision and Pattern Recognition作者是Muhammad Uzair KhattakHanoona RasheedMuhammad MaazSalman KhanFahad Shahbaz Khan。研究发现Clip的问题在单个分支语言或视觉中使用prompt来调整表示是次优的它不能在下游任务上灵活地动态调整两个表示空间。作者提出了针对视觉和语言分支的多模态提示学习(MaPLe)以改善视觉和语言表征之间的一致性。与CoCoOp方法相比更好。 动机 作者认为Clip中只有文本编码器学习prompt不足以对图像编码器所需的适应进行建模因此着手基于多模态提示学习MaPLe来充分微调文本和图像编码器表示。 MaPLe:Multi-modal Prompt Learning 模型结构 这是第一个用于微调CLIP的多模式提示方法。多模态提示是在视觉和语言分支的多个转换块中学习的以逐步学习两种模态的协同行为。提出了耦合函数将文本和图像编码器中的提示学习联系起来作为两种模式之间的桥梁允许梯度的相互传播以促进协同作用。在视觉和语言分支的前 J J J 层 J J J K K K 引入 learnable token。 text encoder文本编码器image encoder图像编码器 W i W_i Wi​word embeddings E i E_i Ei​image embeddings L i L_i Li​某层transformer V i V_i Vi​某层transformer P i P_i Pi​提示 P i P_i Pi​提示 c i c_i ci​class(CLS) tokens 1、Deep Language Prompting 深度语言提示 作者在 text encoder 的前 J J J 层各引入了 b b b 个learnable tokens : { P i ∈ R d l {P_i \in \mathbb{R}}^{d_{l}} Pi​∈Rdl​} i 1 b _{i1}^b i1b​。 输入 [ P 1 , P 2 , … , P b , W 0 ] [P_1, P_2, \ldots , P_b, W_0] [P1​,P2​,…,Pb​,W0​] 前 J J J 层提示tokens被引入到每一层 L i L_i Li​与 W i W_i Wi​ 进行连接这里的 [ ⋅ , ⋅ ] [ \cdot, \cdot] [⋅,⋅] 是指连接操作。包括第 J J J 层 [ − , W i ] L i ( [ P i − 1 , W i − 1 ] ) i 1 , 2 , … , J (1) \left[ -, W_i \right] L_i \left( \left[P_{i-1}, W_{i-1}\right] \right) \text { } i 1, 2, \ldots, J \quad \tag{1} [−,Wi​]Li​([Pi−1​,Wi−1​]) i1,2,…,J(1) 后 J J J 层没有额外的提示输入而是处理前一层的prompt通过自注意力机制和前馈神经网络来处理文本数据计算最后的文本表示 z z z 。 [ P j , W j ] L j ( [ P j − 1 , W j − 1 ] ) j J 1 , … , K (2) [P_j, W_j] L_j \left( \left[P_{j-1}, W_{j-1}\right] \right) \text { } j J 1, \ldots, K \quad \tag{2} [Pj​,Wj​]Lj​([Pj−1​,Wj−1​]) jJ1,…,K(2) z TextProj ( w N K ) (3) z \text{TextProj} \left(w_{N_K}\right) \quad \tag{3} zTextProj(wNK​​)(3) 当 J 1 J 1 J1 时提示 P P P 只应用于第一个Transformer层的输入此时深度语言提示技术退化为CoOp 。 2、Deep Vision Prompting 深度视觉提示 类似于深度语言提示在 text encoder 的前 J J J 层各引入了 b b b 个learnable tokens : { P i ~ ∈ R d v {\tilde{P_i} \in \mathbb{R}}^{d_{v}} Pi​~​∈Rdv​} i 1 b _{i1}^b i1b​。前 J J J 层 [ c i , E i ] V i ( [ c i − 1 , E i − 1 , P ~ i − 1 ] ) i 1 , 2 , … , J [c_i, E_i] V_i([c_{i-1}, E_{i-1}, \tilde{P}_{i-1}]) \quad \text { } i 1, 2, \ldots, J [ci​,Ei​]Vi​([ci−1​,Ei−1​,P~i−1​]) i1,2,…,J后 J J J 层 [ c j , E j , P ~ j ] V j ( [ c j − 1 , E j − 1 , P ~ j − 1 ] ) j J 1 , … , K [c_j, E_j, \tilde{P}_j] V_j([c_{j-1}, E_{j-1}, \tilde{P}_{j-1}]) \quad \text{ } j J 1, \ldots, K [cj​,Ej​,P~j​]Vj​([cj−1​,Ej−1​,P~j−1​]) jJ1,…,K x ImageProj ( c K ) x \text{ImageProj}(c_K) xImageProj(cK​) 3、Vision Language Prompt Coupling 视觉语言提示耦合 共享提示在两种模态之间建立联系语言提示被引入到语言分支中的J层Transformer块中而视觉提示通过视觉到语言的投影函数从语言提示中获得。 independent V-L Prompting独立V-L提示通过投影函数 F ( ⋅ ) F(\cdot) F(⋅)将语言提示 P i P_i Pi​ 映射到视觉提示 P i ~ \tilde{P_i} Pi​~​ F i F_i Fi​是一个线性层这个映射操作是一个从 d l dl dl 维到 d v dv dv 维的线性变换。 提示耦合过程 提示过程使用投影函数 F ( ⋅ ) F(\cdot) F(⋅) 在前 J J J 个transformer块中进行语言分支通过 F i F_i Fi​ 对 P i P_i Pi​ 进行映射得到了 P i ~ \tilde{P_i} Pi​~​。视觉分支通过引入了调整后的视觉提示 P i ~ \tilde{P_i} Pi​~​保持了分支之间的协同作用。 实验 1、通过V-L prompts prompting CLIP shallow MaPLe(第1行)在泛化方面提供了对CoOp和Co-CoOp的持续改进。深度语言提示(第3行)比深度视觉提示(第2行)有所改善表明在语言分支学习的提示能更好地适应CLIP。虽然单独结合上述两种方法(第4行)进一步提高了性能但它很难从语言和视觉分支中获得综合效益。MaPLe与深度提示(第4行)结合了提示在两个分支中的好处通过在语言提示上执行视觉提示的显式条件反射来强制交互。它提供了新类和基类准确度的改进导致最佳HM为78.55%。 2、基类到新类的泛化 给出了MaPLe在11个识别数据集上从基类到新类的泛化设置下的性能。与最先进的Co-CoOp相比MaPLe在所有11个数据集上的基本类和新类性能都有所提高只有Caltech101的基本类性能略有下降。与CLIP相比Co-CoOp仅在4/11数据集上有所提高平均新分类准确率从74.22%降至71.69%。MaPLe是一个强大的竞争对手它在6/11数据集上的新类别上提高了CLIP的准确性平均增益从74.22%提高到75.14%。 3、跨数据集评估 我们通过在所有1000个ImageNet类上学习多模态提示然后直接将其转移到剩余的10个数据集上来测试MaPLe的跨数据集泛化能力。MaPLe表现出有竞争力的性能平均准确率最高为66.30%。 4、域泛化 评估了ImageNet训练模型对各种域外数据集的直接可移植性并观察到与表5所示的所有现有方法相比它持续提升。 5、消融实验 Prompt Depth左深度J对语言和视觉分支深度的影响 MaPLe在深度为 9 时实现了最大性能Prompt Length右提示符长度对MaPLe的影响 随着提示符长度的增加基类上的性能一般保持不变而新类的准确率则下降。这表明过拟合本质上损害了对新类别的泛化。 Effectiveness of Multi-modal Prompting多模式提示的有效性 Prompting complexity提示复杂度 MaPLe提供了更好的推理和训练速度,MaPLe†的参数比MaPLe小约9倍MaPLe†对所有层prompt使用统一的V-L耦合函数比MaPLe少约9倍的参数但性能差异不大。 总结 大规模V-L模型例如CLIP对下游任务的适应是一个具有挑战性的问题因为大量的可调参数和有限的下游数据集大小。提示学习是一种高效且可扩展的技术可以根据新的下游任务定制V-L模型。为此目前的提示学习方法要么只考虑视觉方面的提示要么只考虑语言方面的提示。我们的工作表明对视觉和语言分支进行提示是至关重要的以使V-L模型适当地适应下游任务。此外我们提出了一种策略通过在不同的transformer阶段将视觉提示明确地限制在文本提示上来确保视觉语言模式之间的协同作用。我们的方法提高了对新类别、跨数据集迁移和具有域迁移的数据集的泛化能力。
http://www.hkea.cn/news/14306034/

相关文章:

  • 个人注册的网站可以做公司宣传用吗拌合站建站方案
  • 游戏工作室网站模板网站html地图导航代码大全
  • muse网站设计解决方案视频教程学编程官网
  • 凡科网站怎么建设个人网站台州网站策划
  • 自己做的网站别人中国临沂网站优化
  • android高级开发网站如何做seo优化
  • 丰台广州网站建设南昌专业制作网站
  • 网站搭建软件关键词seo培训
  • 湖南平台网站建设哪里好网站开发图
  • 未备案网站 赚钱免费一级域名注册教程
  • 枞阳县建设局网站提高自己网站
  • 百度网站收录提交入口郑州电商运营公司排行
  • 四川省城乡建设网站宁波模板做网站
  • 道农网站建设建材网站建设案例
  • 网站开发的分工网站域名备案要多少钱
  • 东莞建网站公司案例怎么做互联网营销推广
  • 7网站建设1做网站应该会什么
  • 如皋网站建设公司商城网站系统
  • 青岛市城阳区建设局网站网站流量钱是谁给的
  • 腾讯网站建设推广wordpress设置不显示摘要
  • 外贸 网站推广电信公司网络维护
  • 周口学做网站织梦网站安装
  • 定制网络监控方案天津seo诊断技术
  • 网站右侧二维码代码大气企业响应式网站
  • 太原网站制作哪儿好薇营销型网站结构
  • 泰安企业做网站表白网站制作生成器
  • 灰色行业做网站推广wordpress模块插件
  • 家用电脑做网站教程关键词优化seo费用
  • 简单个人网站制作流程access 网站源码
  • 策划类网站怎么网站推广