当前位置: 首页 > news >正文

京东建站模板搜狗链接提交入口

京东建站模板,搜狗链接提交入口,百度推广价格表,竞价代运营公司哪家好Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口#xff0c;而是建立了一个通用的解码范式#xff0c;该范式可以通过采用共同的#xff08;例如语义#…Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口而是建立了一个通用的解码范式该范式可以通过采用共同的例如语义但尊重自然差异例如空间掩码与序列语言来无缝连接任务从而全面显著改进不同的分割和VL工作。 输入两个查询(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks 输出两种类型像素级别和token级别。 2、X-Decoder 2.1 Formulation 图片经过image encoder 得到特征文本T经过text encoder 编码为长度为n非语义查询或者潜在查询输入X-Decoder输出 分别是像素级别masks和token级别语义. 在许多以前的统一编码器-解码器模型中图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决而且使生成预训练也难以解决。相反通过完全解耦图像和文本编码器并将输出全部用作查询X-Decoder可以从图像内监督和图像间监督中学习这对于学习更强的像素级表示和支持不同粒度的任务至关重要。 2.2 Unification of Tasks Generic Segmentation Referring Segmentation与一般分割类似只使用与潜在查询相对应的前m个解码输出。 Image-Text Retrieval Image Captioning and VQA这两个任务有两个不同Captioning遵循因果掩mask策略而VQA则不遵循。其次使用Os中的所有输出作为字幕但仅使用最后一个输出来预测VQA的答案。 之前的一系列工作探索了序列解码接口进行统一。然而在这项工作中我们提倡通过功能而不是接口来实现统一即我们最大限度地共享不同任务的共同部分同时保持单个任务的其余部分不变。 2.3 Unified Architecture 不同level的特征 在每一层先和视觉特征做交叉注意力然后潜在查询和文本查询做自注意力 其中对第一个公式所有查询和视觉特征做交叉注意力对于潜在查询使用masked cross-attention mechanism对文本查询使用全部注意力。 对第二个公式i 我们使用最后一个潜在查询来提取全局图像表示剩余的用于一般分割ii对于图像Caption每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力iii对于参考分割潜在查询与所有文本查询做注意力。 对m个潜在查询输出mask对于语义输出为潜在查询和文本查询预测输出 2.4  End-to-End Pre-training 两种类型的损失函数Semantic LossMask Loss 1Semantic Loss 三个任务对应三个损失函数 对image-text retrieval计算语言图片相对损失。最后一个有效的token feature 代表文本记作用潜在特征的表示全局图片的特征表示图片记作对minibatch  B获得B对特征对然后计算点乘得到然后计算双向交叉熵 y是class labels。 对于mask classification包括“background”在内C个类别编码为C个文本查询提取每个查询最后一个有效特征作为概念表示然后取对应前m-1个潜在查询的decoder输出计算这些输出和概念表示的点乘得到最后计算交叉熵损失。 对于image captioning提取所有词汇向量大小为VX-Decoder最后n个语义输出计算点乘得到和GT的写一个token的id  计算交叉熵。 2Mask Loss 用Hungarian matching找到和前(m − 1)个输出匹配的GT使用BCE和DICE计算损失。 3  实验 100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。 Focal-T and DaViT-B/L  as the vision encoder
http://www.hkea.cn/news/14374384/

相关文章:

  • 公司做网站需准备资料百度一下首页版
  • 中国建设建筑教育网站如何做设计师个人网站
  • php开发网站优势怎么重启网站服务器
  • c 网站开发框架2024年重大新闻简短
  • 关于单位网站建设的报告综合型网站建设
  • 彩票网站模板源码重庆市建设工程信息网官
  • 番禺网站排名优化公司淮海中路街道网站建设
  • 合作社网站建设重庆响应式网页建设公司
  • 网站建设华威公司怎么样建设公司网站大概需要多少钱?
  • 贵州省建设学校官方网站企业咨询内容有哪些
  • 佛山专业做网站的公司一起学网站培训心得
  • 网站自动识别移动终端免费电子公章印章在线制作
  • wordpress 改网站介绍阿里云 网站根目录
  • 咸阳市住房和城乡建设规划局网站网站建设服务器需要钱吗
  • 素材羊设计师服务平台seo整站排名
  • 专业制作网站价格温州设计公司排名
  • 外贸做编织袋常用网站html表白简单代码
  • 个人网站实例wordpress 重启
  • 优化网站多少钱网站建设灰色关键词
  • 网站接单济南自助建站软件
  • 网站建设功能是什么石家庄情况最新消息今天
  • 地产商网站建设中国铁建网站
  • 嘉兴做美食图片的网站常州外贸网站制作
  • 网站seo优化公司Wordpress修改主页网址
  • 西宁做网站公司哪里可以免费发布招聘信息
  • 做商城网站需要多大的服务器优秀网站设计流程
  • 10天搞定网站开发网站网站建设的原则有哪些
  • 福州有哪些制作网站公司丹东制作网站公司
  • 九年级上册信息技术做网站网站标题组合
  • 网站建设移交手续个人做电商网站需要备案吗