龙华网站建设服务,怀来网站建设,网站加入站长统计,wordpress更好自监督表征学习方法——BYOL(Bootstrap Your Own Latent)
参考文献#xff1a;《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》
1.前言背景 学习良好的图像表示是计算机视觉中的一个关键挑战#xff0c;因为它允许对下游任务进行有效的训练。许…自监督表征学习方法——BYOL(Bootstrap Your Own Latent)
参考文献《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》
1.前言背景 学习良好的图像表示是计算机视觉中的一个关键挑战因为它允许对下游任务进行有效的训练。许多不同的训练方法被提出来学习这种表征通常依赖于视觉借口任务。 其中最先进的对比方法是通过减少同一图像的不同增强视图的表示之间的距离和增加来自不同图像的增强视图的表示负对之间的距离来训练的。这些方法需要仔细处理负对通过依赖大批量、内存库或定制的挖掘策略来检索负对。此外它们的性能严重取决于图像增强的选择。 BYOL与以往自监督学习方法在ImageNet上的性能对比 2.BYOL介绍 BYOL在不使用负对的情况下获得了比最先进的对比方法更高的性能。它迭代地引导网络的输出以作为增强表示的目标。此外BYOL对图像增强的选择比对比方法更鲁棒我们怀疑不依赖负对是其提高鲁棒性的主要原因之一。虽然以前基于引导的方法使用了伪标签、聚类索引或一些标签但我们建议直接引导表示。 特别是BYOL使用两种神经网络被称为在线网络和目标网络它们相互作用和相互学习。
原理从一个图像的增强视图开始BYOL训练其在线网络来预测目标网络对同一图像的另一个增强视图的表示。
虽然这个目标允许折叠解例如为所有的图像输出相同的向量但我们的经验表明BYOL并不收敛于这样的解。 BYOL的框架图
如图所示紫色部分为在线网络红色部分为目标网络。
在线网络由一组权值θ定义由三个阶段组成编码器、投影仪和预测器。目标网络具有与在线网络相同的架构但使用不同的权值ξ。
目标网络提供了对在线网络进行训练的回归目标其参数ξ是在线参数θ的指数移动平均值。更准确地说给定一个目标衰减率在每个训练步骤后我们执行以下更新 具体流程如下
①给定一组图像D图像x∼D采样均匀从D和两个分布的图像增强和BYOL产生两个增强视图和从x分别应用图像增强和。
②从第一个增广视图v中在线网络输出一个表示法和一个投影法。
目标网络从第二个增强视图输出和目标投影。
③然后我们输出的预测和。最后我们定义了以下标准化预测和目标预测之间的均方误差 将v输入目标网络则得到最终最小化 参数更新情况如下 为学习率。 3.实验结果
在ImageNet上做自监督训练。
①下游任务用作ImageNet识别 ②ImageNet半监督任务
③迁移学习到别的数据集 ④迁移学习到语义分割和目标检测以及深度估计
4.结论 这里介绍了一种新的图像表示的自监督学习算法BYOL。BYOL通过预测其输出的以前版本来学习它的表示而不使用负对。并且展示了BYOL在各种基准测试上取得了最先进的结果。特别是在使用ResNet-501×的ImageNet线性评估协议下BYOL实现了一种新的技术并弥补了自监督方法和的监督学习基线之间的大部分剩余差距。使用ResNet-2002×BYOL达到了79.6%的前1位精度比之前的技术水平76.8%有所提高同时少使用了30%的参数。
然而BYOL仍然依赖于特定于视觉应用程序的现有增强集。为了将BYOL推广到其他模式例如音频、视频、文本、……有必要为每种模式获得类似的合适的扩充。设计这样的增强功能可能需要大量的努力和专业知识。因此自动搜索这些增强功能将是将BYOL推广到其他模式的重要下一步。