当前位置: 首页 > news >正文

西安建设手机网站五金网站模板

西安建设手机网站,五金网站模板,学生做网站教程,免费学编程的软件文章目录 一、背景二、方法2.1 学习 视觉-语义 空间2.2 学习开放词汇目标检测 三、效果 论文#xff1a;Open-Vocabulary Object Detection Using Captions 代码#xff1a;https://github.com/alirezazareian/ovr-cnn 出处#xff1a;CVPR2021 Oral 一、背景 目标检测数… 文章目录 一、背景二、方法2.1 学习 视觉-语义 空间2.2 学习开放词汇目标检测 三、效果 论文Open-Vocabulary Object Detection Using Captions 代码https://github.com/alirezazareian/ovr-cnn 出处CVPR2021 Oral 一、背景 目标检测数据标注很耗费人力现有的开集大型数据如 Open Images 和 MSCOCO 数据集大约包含 600 个数据类别 如果想要识别现实世界中的任何物体则需要更多的人工数据标注 但人类学习显示视觉世界中的物体很大程度上是基于语言的监督信号也可以使用几个简单的例子来泛化到其他目标上而不需要所有的目标实例。 所以在本文中作者模仿人类的能力设计了一个双阶段开集目标检测 Open-Vocabulary object DetectionOVD 首次提出了使用 image-caption pairs 来获得无限的词汇类似于人类从自然语言中学习一样然后使用部分标注实例来学习目标检测这样就能够仅仅使用有限类别的标注样本就可以了其他的就从 caption 中来学习这些样本对儿获得起来更加方便而且网络上就有很多现成的 图 2 展示了几种非常相近的任务的差别 Open-vocabulary通过语言词汇来将目标类和基础类进行关联Zero-Shot主要目标是实现从见过的类上扩展到没见过的类上Weaky Supervised 二、方法 大体框架结构如图 1 所示 要训练能检测任何目标 target vocabulary V T V_T VT​的模型需要下面的几种信息大量的 image-caption 数据集包含大量的多样的单词 V C V_C VC​较少数据量的检测数据集有基础类别框标注信息) V B V_B VB​ 图 3 展示了详细的结构 本文方法基于 Faster R-CNN在基础类别上进行训练在目标类别上进行测试 预训练为了避免在基础类别上过拟合作者在大量词汇量 V C V_C VC​ 下进行了预训练上半部分让模型能够学习到更全面的语义信息而不是只有基础类别的语义信息。即在 image-caption pairs 上通过 grounding、masked language modeling (MLM) 、 image-text matching 来训练 ResNet 和 V2L layerV2L layer 是 vision2language 模块负责将视觉特征变换到文本空间好让两个不同模态的特征能在同一空间来衡量相似性。 训练预训练后使用得到的 ResNet 和 V2L layer 来初始化 Faster R-CNN 以此来实现开放词汇目标检测ResNet 50 用于 backboneV2L layer 是会用于对每个 proposal 特征进行变换的变换之后会与类别标签的文本特征计算相似度来进行分类的训练的时候会固定 V2L layer 的使其学习到的广泛的信息能够泛化到新类 整个模型框架和 Faster RCNN 一样只是将最后的 cls head 替换成了 V2L也就是换成了一个将 visual feature 投影到 text embedding space 的投影矩阵 2.1 学习 视觉-语义 空间 本文提出了一个 Vision to LanguageV2L映射层和 CNN 一起在预训练中进行学习使用 grounding 任务和和一些辅助自监督任务来训练 CNN 和 V2L layer。 输入image-caption pairs 特征提取image 输入 visual backboneResNet50caption 输入 language backboneBERT分别提取对应的特征 特征融合将两种特征输入多模态特征融合器中来抽取多模态的 embedding 目标让每个 caption 的 word embedding 和其对应的图像区域更加接近且作者设定了一个 global grounding score 来度量其关系成对儿的 image-caption 得分要最大不成对儿的 image-caption 得分要小 负样本对儿作者使用同一个 batch 中的其他图像作为每个 caption 的negative examples也使用同一 batch 中的其他 caption 作为每个 image 的 negative examples grounding objective functions 如下 最终的 loss: 2.2 学习开放词汇目标检测 在完成 ResNet 和 V2L 的预训练后作者要把其学习到的东西迁移到 object detection 上方式就是用训练后的特征来初始化 Faster R-CNN 首先使用经过预训练的 ResNet50 的 stem 和前 3 个 block 来抽取图像特征然后使用 region proposal network 来预测目标可能出现的位置和 objectness score并且使用 NMS 和 RoI pooling 来得到每个目标框之后给每个 proposal 使用 ResNet50 的第 4 个 block 和一个 pooling来提取每个 proposal 的最终特征最终对比每个 proposal 被编码到 word space 中的特征和基础类别 k 的得分 三、效果
http://www.hkea.cn/news/14332653/

相关文章:

  • 合适做服装的国际网站a00000网站建设丽丽
  • 门窗厂家东莞网站建设南京江北新区包括哪些地方
  • 淘宝网站建设方案模板下载服务好的丹阳网站建设
  • 商业网站最佳域名没有做老千的斗牛网站
  • 广州网站推广公司wordpress易语言登录
  • 更换域名对网站的影响北京网站改版有哪些好处
  • 网站运营小结广告设计公司宣传海报
  • 滕州建网站哪家好手机网站怎么解析
  • 预约小程序模板江门排名优化公司
  • 三亚网站定制开发公司php网站后台访问统计分析
  • 59网一起做网站wordpress发布心情
  • 上海网站空间租用一级a做爰片免费网站下载
  • 网站建设是半年的持久战网站建设三网合一指的是什么
  • 昆明网站关键词优化58同城招聘 招聘网
  • 济南网站建设外包公司排名咸宁响应式网站建设价格
  • 自媒体网站建设论文重庆金山建设监理有限公司网站
  • wordpress 软件站主题免费网站网络推广
  • 泉州网站建设维护网店推广有哪些新思维
  • 仿魔客吧网站模板关于网站建设的意见
  • php网站建设的毕设报告山东有哪些网络公司
  • 推荐网站建设服务话术wordpress收起边栏
  • 做盗版网站 国外服务器密云郑州阳网站建设
  • 满山红网站建设公司o2o 电商网站 微商城 ppt
  • 山东省住房和城乡建设厅网站首页谷歌关键词排名查询工具
  • 怎样建立网站免费的dw网页制作教程字体加入超链接
  • 天津市建设与管理局网站下载知名网站建设在哪里
  • 惠州网站建设科技有限公司如何做自己网站的访问记录
  • 旅行网站的建设目录做自媒体哪家网站好
  • 海口网络平台网站开发网站建设liluokj
  • 在线玩网页游戏h5网站大全金融类网站开发