当前位置: 首页 > news >正文

做网站需要服务器还是主机宁波seo排名外包

做网站需要服务器还是主机,宁波seo排名外包,高端品牌网站建设明细报价报,最好的做网站公司来源:投稿 作者:橡皮 编辑:学姐 带你学习跨域小样本系列1-简介篇 跨域小样本系列2-常用数据集与任务设定详解(本篇) 跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解 跨域小样本系列4&#xf…

来源:投稿 作者:橡皮
编辑:学姐

带你学习跨域小样本系列1-简介篇

跨域小样本系列2-常用数据集与任务设定详解(本篇)

跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解

跨域小样本系列4:finetune方法解决CDFSL以及两篇SOTA论文讲解

跨域小样本系列5:除此之外一些奇门异路的论文讲解

引言

在上一期主要介绍了关于小样本学习的基本概念以及在不同领域其不可忽视的实际作用。当我们对一个机器学习任务的定义有了初步了解之后,下一步需要去做的就是接触任务所使用的数据集,一般分为两类:真实自定义数据集和公开数据集。

前者主要面向业界的具体落地应用,而后者主要面向学术界的state-of-the-art迭代,通常来讲在公开数据集上的算法更新速度快,自定义数据集的设定其实是根据具体任务并最大程度上追求接近公开数据集的结构。因此,在此总结了较常用的5个公开数据集,方便从学术探究角度的入门理解以及代码复现。

说明

对于小样本学习的公开数据集是否被学术界认可/是否为常用的选择依据均来自paper with code的分类任务排行榜[https://paperswithcode.com/task/few-shot-image-classification]

关于FSL数据集设置

小样本学习的目标是使用数量较少的训练集来构建准确的机器学习模型,可用数据的设定上与其他数据集也不尽相同。

1.Imagenet

Imagenet作为对深度学习领域推动力最大的图像分类数据集,同样也在小样本学习的分类任务中有着不小的贡献。基于Imagenet进行修改设定适用于小样本学习任务的数据集有:Imagenet-1K, mini-Imagenet, tiered-Imagenet。

ImageNet-1K Challenge数据集采样于ImageNet数据集,共包含1000类别。使用中通常划分为基础数据集(389个类别)和新样本数据集(611种)。

[paper]Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.

[Download] http://www.image-net.org/

Mini-ImageNet数据集是从ImageNet数据集中采样了60000张图像构成,共包含100类别,每个类别600张图像,图像的尺寸为84*84。在实际的使用中,通常选择其中80类的图像作为训练集,剩余20类的图像作为验证集。也有的文章将其分为基础集(Base Class,64种),验证集(Validation Class,16种)和新类别集(Novel Class,20种)。

[paper]Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.是由 Matching Networks for One Shot Learning [NeurIPS 2016]

[Download]https://pan.baidu.com/share/init?surl=bQTtrkEgWfs_iaVRwxPF3Q(33e7)

Tiered Imagenet数据集也是从ImageNet数据集中选取的,包含34个大类(Categories),每个大类有包含10-30个小类(Classes),每个类别有数量不等的多个图像样本,共计608个类别,779165张图像(平均每个类别包含1281张图片)。34个大类可划分为训练集(20大类),验证集(6大类)和测试集(8大类)。

[paper] Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.

[Download]https://link.zhihu.com/?target=https%3A//drive.google.com/uc%3Fexport%3Ddownload%26confirm%3D_SLS%26id%3D1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07

2.CIFAR

CIFAR数据集同样能够通过使用生成mini-ImageNet的相同标准从CIFAR-100(Krizhevsky & Hinton, 2009)中随机抽取的。 平均类间相似度很高,对目前的技术水平是个挑战。此外,32×32的有限原始分辨率使任务更加困难,同时也允许快速的原型设计。由此衍生出两种用于小样本异常检测的CIFAR数据集。

CIFAR-FS

CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集,是来自于CIFAR 100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。使用中通常划分为训练集(64种),验证集(16种)和测试集(20种),图像尺寸统一为32*32。

[paper]Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.

[Download] https://pan.baidu.com/share/init?surl=HqRUw3dmsMBInt_Fh3J_Uw (ub38)

CIFAR100

FC100数据集全称是Few-shot CIFAR100数据集,与上文的CIFAR-FS数据集类似,同样来自CIFAR100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。

但不同之处在于 FC100不是按照类别(Class)进行划分的,而是按照超类(Superclass)进行划分的。共包含20个超类(60个类别),其中训练集12个超类,验证集4个超类(20个类别),测试集4个超类(20个类别)。

[paper] Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.

[Download] https://pan.baidu.com/share/init?surl=Wnlp1-obKsMLcHITYQ1CLg (kcd6)

3.CUB 200

Caltech-UCSD Birds-200-2011(CUB-200-2011)数据集是最广泛使用的细粒度视觉分类任务的数据集。它包含了属于鸟类的200个子类别的11,788幅图像,其中5,994幅用于训练,5,794幅用于测试。每张图片都有详细的注释。

1个子类别标签,15个部位位置,312个二元属性和1个边界框。文字信息来自于Reed等人。他们通过收集细粒度的自然语言描述来扩展CUB-200-2011数据集。每张图片都收集了10个单句描述。

自然语言描述是通过Amazon Mechanical Turk(AMT)平台收集的,要求至少有10个单词,没有任何子类别和动作的信息。

4.Meta-Dataset

Meta-Dataset基准是一个大型的小样本学习基准,由不同数据分布的多个数据集组成。它并不限制小样本任务有固定的种类和数量,因此代表了一个更真实的场景。它由来自不同领域的10个数据集组成。

  • ILSVRC-2012(ImageNet数据集,由1000个类别的自然图像组成)。

  • Omniglot(手写的字符,1623个类别)

  • Aircraft(飞机图像的数据集,100个类别)

  • CUB-200-2011(鸟类的数据集,200个类别)

  • Describable Textures(不同种类的纹理图像,有43个类别)

  • Quick Draw(345个不同类别的黑白草图)

  • Fungi (一个大型的蘑菇数据集,有1500个类别)

  • VGG Flower(有102个类别的花图像数据集)。

  • Traffic Signs(德国交通标志图像,有43个类别)

  • MSCOCO(从Flickr收集的图像,80个类别)。

除了Aircraft和MSCOCO,所有的数据集都有训练、验证和测试部分(比例大致为70%、15%、15%)。Aircraft和MSCOCO数据集只保留用于测试。

[paper]Triantafillou E, Zhu T, Dumoulin V, et al. Meta-dataset: A dataset of datasets for learning to learn from few examples[J]. arXiv preprint arXiv:1903.03096, 2019.

[Download]https://github.com/google-research/meta-dataset

5.Omniglot

Omniglot数据集是为开发更像人类的学习算法而设计的。它包含来自50个不同语言的1623个不同的手写字符。这1623个字符中的每一个都是由20个不同的人通过亚马逊的Mechanical Turk在线绘制的。每张图片都与笔画数据配对,这是一个[x,y,t]坐标序列,时间(t)为毫秒。使用中通常选择1200种字符作为训练集,剩余的423种字符作为验证集,并通过旋转90°,180°和270°进行数据集扩张,每张图片通过裁剪将尺寸统一为28*28。

[paper]Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).

[Download]https://github.com/brendenlake/omniglot

以上即为五大类数据集中的8小类专门用于小样本学习算法和模型评估的公开数据集的基本介绍和下载地址。

在进入下一节学习具体的小样本算法之前,建议先阅读提出数据集的论文,先将作者对于不同数据集在小样本学习中所注重的侧重点搞清楚。

下期介绍元学习方法解决CDFSL以及两篇SOTA论文讲解

点击下方卡片关注《学姐带你玩AI》别错过!🚀🚀🚀

码字不易,欢迎大家点赞评论收藏!

http://www.hkea.cn/news/935702/

相关文章:

  • 如何建立门户网站百度可以发布广告吗
  • 网站开发毕设文献郑州网站优化顾问
  • 青海建设银行的官方网站自己制作网页的网站
  • 网站建设的图片叠加步骤过程2021年搜索引擎排名
  • 网站链接到邮箱怎么做搜索引擎推广试题
  • 十堰城市建设网站制作自己的网站
  • 传媒网站建设公司深圳百度seo优化
  • 公司需要网站 该怎么做公司推广咨询
  • 高中男女做那个视频网站seo做的好的网站
  • 网站建设 摄影服务上海seo网站排名优化公司
  • 网页设计中html代码seo博客网站
  • 怎样建设小游戏网站google关键词搜索技巧
  • 淘宝 客要推广网站怎么做全媒体广告代理
  • 那个b2b网站可以做外贸武汉全网推广
  • 深圳css3网站开发多少钱如何策划一个营销方案
  • 织梦统计网站访问量代码网络营销公司如何建立
  • 外贸营销型网站建设今日最新重大新闻
  • 个性化定制网站长春网络推广优化
  • 合肥庐阳区疫情最新消息seo优化首页
  • h5网站制作接单最新中高风险地区名单
  • 北京市住房城乡建设委网站公司怎么在网上推广
  • 网站建设首页怎样插入视频百度指数在线查询小程序
  • 青州网站制作哪家好aso优化哪家好
  • wordpress做网站优点郑州网站seo优化
  • 宝安做棋牌网站建设找哪家公司好湖南长沙疫情最新消息
  • 四川专业网站建设中国十大企业培训机构排名
  • 怎么切页面做网站灰色词首页排名接单
  • 网站右侧浮动广告代码百度推广代理公司广州
  • 固原建站公司旺道seo推广系统怎么收费
  • 适合做外链的网站海外广告联盟平台推广