太原seo网站建设,从入门到精通网站建设,金华seo快速排名,凯里网站开发Adversarial Cross-Modal Retrieval 对抗式跨模式检索 跨模态检索研究的核心是学习一个共同的子空间#xff0c;不同模态的数据可以直接相互比较。本文提出了一种新的对抗性跨模态检索#xff08;ACMR#xff09;方法#xff0c;它在对抗性学习的基础上寻求有效的共同子空间… Adversarial Cross-Modal Retrieval 对抗式跨模式检索 跨模态检索研究的核心是学习一个共同的子空间不同模态的数据可以直接相互比较。本文提出了一种新的对抗性跨模态检索ACMR方法它在对抗性学习的基础上寻求有效的共同子空间。对抗性学习是作为两个过程的相互作用来实现的。第一个过程一个特征映射器试图在公共子空间中生成一个模态不变的表示并混淆另一个过程即模态分类器它试图根据生成的表示来区分不同的模态。我们进一步对特征映射器施加三重约束以使具有相同语义标签的不同模态项的表示之间的差距最小化同时使语义不同的图像和文本之间的距离最大化。通过对上述情况的共同利用当这些数据被投射到共同子空间时多媒体数据的潜在跨模态语义结构得到了更好的保留。在四个广泛使用的基准数据集上的综合实验结果表明所提出的ACMR方法在学习有效的子空间表示方面具有优势并且它明显优于最先进的跨模态检索方法。
介绍
由于不同模态的特征通常具有不一致的分布和表征因此需要弥合模态差距也就是说需要找到评估不同模态项目的语义相似性的方法。弥合模态差距的一个常见方法是表征学习。其目的是找到即学习来自不同模态的数据项映射到一个共同的与模态无关的特征表示子空间中在这个子空间中可以直接评估它们之间的相似性。最近提出了各种跨模式检索方法这些方法提出了学习共同表示子空间的不同方式。例如早期的工作如基于CCA的方法和基于图的方法通过最大限度地提高跨模态成对项的相关性或项目分类的准确性来学习线性映射以生成共同表示。
随着深度神经网络DNN模型的快速发展它为单模态场景如图像分类中的有效特征表示提供了可扩展的非线性转换DNN也越来越多地被部署到跨模态检索中然后特别是在学习共同子空间时利用非线性相关性。现有的基于DNN的跨媒体检索模型通常只关注于保存耦合的跨模式项例如一个图像和一段文本的成对相似性这些项目共享语义标签并作为模型学习过程中的输入。然而对于一个模态的项目来说可能存在不止一个同一模态的语义不同的项目因此只关注成对的耦合项是远远不够的。因此以这种方式学习的共同表征不能完全保留数据中潜在的跨模态语义结构。保护这种结构需要将所有具有相同语义标签的不同模态项目的表征之间的差距最小化例如将同一主题的任何文本和任何图像联系在一起而将同一模态的语义不同的项目之间的距离最大化例如如果两个图像或两个文本不相关则将它们分开。
本文提出对抗性跨模型检索ACMR框架来解决现有的基于DNN的跨媒体检索方法的这个缺点它是围绕对抗性学习的概念建立的。如图1所示该框架的核心是两个过程之间的相互作用一个是特征映射器一个是模态分类器以极小化极大博弈的方式进行。特征映射器执行表征学习的主要任务即为共同子空间中不同模态的项目生成一个模态不变的表征。它的目的是迷惑作为对手的模态分类器。模态分类器试图根据项目的模态来区分它们并以这种方式引导特征映射器的学习。通过让模态分类器扮演对手的角色预计可以更有效地达到模态不变性同时也可以更有效地达到跨模态的项目表征分布的一致性。表征子空间对于跨模态检索来说是最优的然后通过这个过程的收敛即当模态分类器失效时就会产生。此外特征映射器的学习使其共同执行标签预测并保留数据中潜在的跨模态语义结构。通过这种方式它可以确保所学到的表征在一个模态内是有辨别力的在不同模态间是不变的。后者是通过对模态间项关系施加更多的约束来实现的而之前提出的方法只关注成对项相关性。
图1ACMR的一般流程图。它是围绕着涉及两个过程算法模块的极小化极大博弈而建立的作为 “博弈者”一个是模态分类器根据项目的模态来区分它们另一个是特征映射器产生模态不变的和有区别的表示目的是混淆模态分类器。
提出的ACMR方法在四个三个小规模和一个相对大规模基准数据集上进行了评估并使用许多现有方法作为参考。实验结果表明它在跨模式检索方面明显优于最先进的方法。
相关工作
本文的主要贡献在于跨模式检索框架的表征学习部分。表征学习有不同的方式取决于用于学习的信息类型、目标表征的类型和正在部署的学习方法。表征学习方法有两大类实值和二进制表征学习。二进制方法也被称为跨模态哈希更多的是针对检索效率目的是将不同模态的项目映射到一个共同的二进制汉明空间。由于它的重点在于效率通常需要对检索的准确性有效性做出让步。
本文提出的方法属于实值方法的范畴。在这个类别中可以区分几个子类的方法无监督的配对的基于排名的和有监督的。通过ACMR我们首次将跨模态检索的监督表征学习和对抗性学习的概念结合起来。我们的方法一方面是由于我们在大多数非监督方法中看到的缺陷特别是关于他们部署的学习过程专注于单个样本对和学习目标通常是相关损失的变体的有效性。另一方面我们的方法受到了一些基于排名的方法的启发特别是关于部署三重排名损失作为学习目标这对实现表征学习的主要目标有效即模内区别性和模间不变性。此外我们的方法受到了对抗性学习在各种应用中的有效性的启发比如学习判别图像特征或者非监督性的领域适应性来执行领域不变的特征以及跨模态项间的正则化相关损失。
所采用的方法
问题的提出
在不丧失一般性的前提下我们将重点放在双模态数据的跨模态表征学习上特别是图像和文本。
由于图像特征V和文本特征T通常具有不同的统计属性并且遵循未知的复杂的分布因此它们不能在跨模式检索中直接相互比较。为了使图像和文本直接可比我们的目标是找到一个共同的子空间。本文提出的ACMR方法的特点是我们旨在学习不同模式下更有效的转换特征。正如前面所论证的我们要求图像和文本的变换特征分布是模态不变和语义区分的同时也要更好地保留数据中潜在的跨模态相似性结构。
对抗性跨模式检索
ACMR方法的总体框架如图1所示。为简单起见我们假设已经分别从图像和文本中提取了特征V和T。图像和文本特征首先通过各自的变换这些变换在概念上受到现有的子空间学习方法的启发在我们的案例中被实现为前馈网络。考虑到图像和文本模态之间的统计属性的较大差距全连接层有丰富的参数以确保有足够的表示能力。然后在第二步中我们引入了两个过程–特征映射器和模态分类器–之间的极小化极大博弈来引导表征学习。我们对这些过程及其互动进行建模以有效地满足上述要求。
模态分类器
我们首先定义了一个具有参数θD的模态分类器D它在GAN中充当鉴别者。来自图像的映射特征被分配为标签01而来自文本的映射特征被分配为标签10。对于模态分类器来说目标是在给定未知特征映射的情况下尽可能可靠地检测物品的模态。对于分类器的实现我们使用了一个参数为θD的3层前馈神经网络。
在ACDM方法中模式分类器作为一个对手。因此我们把这个过程试图最小化的分类损失称为对抗性损失。对抗性损失Ladv现在可以正式定义为 本质上Ladv表示训练中每次迭代s使用的所有实例oii 1, …, n的模态分类的交叉熵损失。此外mi是每个实例的真实模态标签表示为独热向量而D(. ; θD )是实例oi的每项图像或文本生成的模态概率。
特征映射器
像大多数现有的工作一样相关性损失的目标仅仅是在新的表示子空间中保留各个语义耦合的跨模态项目对的相关性。正如本文前面所讨论的这并不充分因为语义匹配可能涉及两个以上的项目。此外相关性损失也不能区分同一模态的不同语义的项目。这就导致了特征表示没有足够的鉴别力并将限制跨模态检索的性能。 图2ACMR方法的基本思想说明。图像文本分别用方块和圆圈表示。 语义相关的跨模态项目用相同的颜色表示。(a)标签预测和结构保存的联合效果说明。(b)ACMR的总体思路以实现改进的、模态不变的子空间嵌入和跨模态语义结构保存。
鉴于上述情况我们建议对特征映射器进行建模它体现了将文本和图像嵌入到一个共同的子空间的模态不变的过程是两个步骤的组合标签预测和结构保存。标签预测过程使共同子空间中每个模态的映射特征表示在给定的语义标签下具有鉴别性同一模态语义不同特征不同。结构保存过程确保属于同一语义标签的特征表征在不同模态下是不变的不同模态语义相同特征相同。这两个过程的共同作用在图2(a)中得到了说明。 在这里每个圆圈代表一个图像每个矩形代表一个文本项目。此外相同颜色的圆圈和矩形属于同一语义类别。图2(b)说明了导致这种效果的过程。在本节的其余部分我们将详细描述标签预测和结构保存模块它们是子空间嵌入过程的基础。
标签预测
为了确保数据的模内识别在特征映射后得以保留我们部署了一个分类器来预测在共同子空间中映射的项目的语义标签。为此在每个子空间嵌入的神经网络之上添加了一个由softmax激活的前馈网络。这个分类器将耦合图像和文本的映射特征作为训练数据并将每个项目的语义类别的概率分布作为输出。我们使用这些概率分布来制定跨模态辨别损失具体如下。 与公式1中的模态间对抗损失类似Limd表示所有实例oii1…n的语义类别分类的交叉熵损失。这里θimd表示分类器的参数n是每个小批次中的实例数量yi是每个实例的基础事实而ˆpi是实例oi的每项图像或文本生成的概率分布。
结构保存
为了保证模态间的不变性我们的目标是最小化来自不同模态的所有语义相似项的表征之间的差距同时最大化同一模态的语义不同项目之间的距离。受基于排序的跨媒体检索方法的启发我们通过一个三联体损失项对嵌入过程进行了强制约束。
我们没有采用在整个实例空间中对三联体进行采样的昂贵方案而是在每个小批次中从已标记的实例中进行三联体采样。首先从图像和文本样本的角度来看所有来自不同模态但具有相同标签的样本被建立为耦合样本。换句话说我们建立了{(vi, t i )}i形式的耦合其中图像被选为锚而具有相同标签的文本被指定为正向匹配还有{(ti, v i )}i形式的耦合其中文本项目为锚图像为正向匹配。
其次每个耦合项对的映射表示fVVθV和fTTθT之间的所有距离都被计算出来并使用ℓ2准则进行排序。 然后我们还从具有不同语义标签的不匹配的图像-文本对中选择负面样本以构建每个语义标签li的三联体样本集{(vi, t i , t- j )}i和{(ti, v i , v- j )}i。通过这种取样方式我们可以确保非空的三联体样本集的构建与原始数据集中的样本如何被组织成小批无关。最后我们使用以下表达式计算跨图像和文本模式的模态不变性损失这些表达式分别将样本集{(vi, t j , t- k )}i和{(ti, v j , v- k )}i作为输入。 那么整体的模间不变性损失现在可以被建模为Limi, V (θV , θ T)和Limi, T~(θV , θ T)的组合。 此外下面的正则化项是为了防止学习到的参数过拟合其中F表示弗罗贝尼乌斯范数W l v, W l t代表DNN的层级参数。
特征映射器
在此基础上特征映射器的损失函数被称为嵌入损失它是由模内辨别损失和模间不变性损失与正则化的组合。 其中超参数α和β控制着两个项的贡献。
对抗性学习优化
学习最佳特征表征的过程是通过联合最小化对抗性损失和嵌入损失来进行的分别由公式1和公式8得到。由于这两个目标函数的优化目标是相反的该过程作为两个并发的子过程的极小化极大博弈运行。 这种极小化极大博弈可以使用随机梯度下降优化算法来实现如Adam。通过加入梯度反转层GRL可以有效地进行极小化极大优化GRL在前向传播时是透明的但在反向传播时它的值会乘以-1。如果在模态分类器的第一层之前加入梯度反转层就可以同时进行极小化极大优化如算法1所示。 算法1优化ACMR的伪代码
实验
我们在四个广泛使用的跨模态数据集上进行了实验。维基百科数据集NUS-WIDE-10k数据集帕斯卡尔句子数据集以及MSCOCO数据集。对于前三个数据集每个图像-文本对由一个单一的类标签连接文本模态由离散的标签组成。在最后一个数据集MSCOCO中每个图像-文本对都与多个类标签相关文本模态由句子组成。在下面的实验首先将我们提出的ACMR方法与最先进的方法进行比较以验证其有效性。然后我们进行了额外的评估以更详细地研究ACMR的性能。
实验设置
数据集和特征 表1在我们的实验中使用的四个数据集的一般统计数据其中Instances一栏中的*/*代表了训练/测试图像-文本对的数量
由于从CNN中提取的图像特征已被广泛用于图像表示我们也采用这种深度特征来表示我们实验中所有数据集的图像。具体来说采用的深度特征是由VGGNet的fc7层提取的4,096d向量。为了表示文本实例使用词包BoW向量采用TF-IDF加权方案每个数据集的维度如表1所示。此外为了能够与早期在维基百科数据集上评估的几种跨模式检索方法进行公平的比较我们还采用了公开的128d SIFT特征用于图像10d LDA特征用于文本表示。
实施细节
我们部署了由tanh函数激活的三层前馈神经网络将原始图像和文本特征非线性地映射到一个共同的子空间即V→2000→200图像模态和T→500→200文本模态。对于模态分类器我们坚持使用三个全连接层f→50→2。此外在语义分类器和模态分类器的最后一层之后加入了Softmax激活。
关于算法1的参数batch size被设置为64k被经验性地设置为5。在将λ的值固定为0.05后我们使用网格搜索来调整模型参数α和β在这两种情况下从0.01到100每步10次。α和β的分析显示在图6(a)中。对于每个数据集的α和β的最佳值得到了ACMR的最佳报告结果。此外为了与最先进的方法进行公平的比较我们不仅参考了相应论文中发表的结果而且还用提供的实现代码对其中的一些方法进行了重新评估以实现全面的评估。
评价指标
对所有实验结果的评价都是以平均精度mAP为标准这是跨模式检索研究中一个经典的性能评价标准。具体来说计算了两个不同任务的检索结果的排序列表的平均精度使用图像查询检索文本样本Img2Txt和使用文本查询检索图像Txt2Img。此外我们还展示了提出的ACMR方法和所有参考方法的精度-范围曲线其中范围由呈现给用户的排名靠前的文本/图像的数量指定从1到1000不等。
与现有方法的比较
我们首先在维基百科数据集上将我们的ACMR方法与9种最先进的方法进行比较维基百科在文献中被广泛采用为基准数据集。所比较的方法有1CCA、CCA-3V、LCFS、JRL和JFSSL它们是传统的跨模式检索方法2Multimodal-DBN、Bimodal-AE、Corr-AE和CMDN它们是基于DNN。 表2维基百科数据集上的跨模态检索性能比较。这里-表示没有相同设置的实验结果。
表2显示了我们的ACMR和使用浅层和深层特征的维基百科数据集上的比较方法的mAP。从表2中我们可以得出以下结论 1我们的ACMR明显优于传统和基于DNN的跨模式检索方法。特别是ACMR在使用浅层和深层特征时比最好的竞争者CMDN平均高出20.6%和19.2%。虽然CMDN也在一个多任务学习框架中对模间不变性和模内辨别力进行了联合建模但这一性能改进清楚地表明了对抗性学习的优势。 (2我们的ACMR优于CCA、Bimodal-AE、Corr-AE、CMDL和CMDN它们使用基于耦合样本的相关损失来模拟模态间的项目相似度。这表明在学习表征子空间时使用所提出的三重约束来利用相似和不相似的项目对的线索的优势。 (3) 我们的ACMR优于LCFS、CDLFM、LGCFL、JRL、JFSSL它们也是利用类标签信息来模拟模内区分损失。我们认为这是因为ACMR使用的是嵌入损失它共同模拟了模态间的不变性和模态内的辨别力。
Pascal Sentences数据集和NUSWIDE-10k数据集的检索结果见表3。我们可以看到与同类产品相比ACMR始终取得了最好的性能。对于NUSWIDE-10k数据集我们的ACMR在图像和文本查询检索任务中的表现分别优于同行10.6%和4.47%平均为7.34%。结果还表明在多标签情况下NUS-WIDE-10k数据集使用三重约束的好处因为之前在那里测试的方法只采用了配对相似性来保留模式间的相似性。我们的方法对Pascal Sentences数据集的改进是有限的因为该数据集是小规模的只有来自20个类别的800个图片-文本对。尽管我们利用了一些策略来缓解过拟合问题如正则化项、dropout和提前停止但仍不足以训练出一个表现优异的深度模型。 表3在Pascal句子和NUSWIDE-10k数据集上的mAP方面的跨模态检索比较
除了在mAP得分方面的评估我们还画出了精度-范围曲线来进行额外的比较。图3显示了ACMR以及CCA、LCFS、JRL、MultimodalDBN、Bimodal-AE、Corr-AE和CMDN使用浅层图像特征的曲线。精度范围的评估与图像和文本查询任务的mAP分数一致我们的ACMR明显优于其对应的任务。 图3Img2Txt和Txt2Img实验在Wiki数据集上的精度-范围曲线K范围从50到1000
MSCOCO数据集最近被用于图像-句子Img2Txt和句子-图像Txt2Img检索。我们用它来比较我们的ACMR方法和最近为上述两个任务提出的几个方法包括传统的方法CCA和基于DNN的方法如DVSA、m-RNN、m-CNN和DSPE。ACMR和参考方法的检索结果列于表4。值得注意的是表现最好的参考方法DSPE也使用了三联体约束来保留共同子空间中的模态间数据结构。这进一步加强了我们的信念即选择三联体替换成对相关损失的约束是正确的。有理由指出与DSPE相比ACMR的性能提高又是由于部署的对抗性学习框架它促进了更有效的子空间表示的学习但也是由于整合了模态间不变性和模态内识别的三重约束。 表4在MSCOCO数据集上的mAP方面的跨模态检索比较
对ACMR的进一步分析
学习对抗性表征的可视化
为了研究我们ACMR的跨模态表征的有效性我们使用t-SNE工具每种模态有1000个样本点可视化了我们在维基百科数据集上的训练模型的转换表示的分布。图4(a)和图4(b)的比较显示对抗性学习有能力最小化模态差距并使不同模态的分布一致即图4(b)中文本和图像模态的分布更好地混合在一起相互之间的区别较小。此外我们对模态内判别性建模的努力也显示出进一步提升了性能。如图4(b)和图4( c)所示所提出的模型不仅保证了来自两种模态的分布的一致性而且还有效地将样本点分离成几个语义上有区别的聚类使每个聚类中来自不同模态的样本保持良好的一致性。 图4维基百科数据集中测试数据的t-SNE可视化。红色代表视觉特征蓝色代表文本特征
对抗性学习的作用
在我们的ACMR方法中当联合优化目标函数中的嵌入损失和对抗性损失时我们部署了对抗性原则。为了进一步探索ACMR中对抗性学习的效果我们对嵌入损失和对抗性损失的值从epoch1到200取样并显示在图5中。图中显示在整个训练过程中嵌入损失几乎是单调地减少并平稳地收敛而对抗性损失先是振动在最初的10个epoch中然后稳定下来。值得注意的是当对抗性损失发生振动时mAP得分持续增加当对抗性的效果被完全利用时mAP得分保持不变。图5中的结果符合预期即我们的ACMR框架中的模态分类器作为子空间嵌入过程的方向性指导被纳入特征映射器中。如果对抗性损失的值会爆炸模态分类器将无法指导子空间嵌入的过程。与此相反如果对抗性损失被优化为零模态分类器将赢得极小化极大博弈这将意味着嵌入层无法生成模态不变的子空间表征使得跨模态检索无法进行。 图5训练过程中嵌入损失和对抗性损失的曲线在维基百科数据集上为ACMR计算
结合标签预测和结构保存的效果
我们的ACMR框架的特征映射模块是由标签预测和结构保存两个过程组合而成的。为了更详细地研究这种组合的效果我们开发并评估了ACMR的两种变体仅有Limi的ACMR和仅有Limd的ACMR。这两种情况下的优化步骤都与ACMR类似。表5显示了ACMR及其在维基百科数据集和Pascal Sentence数据集上的两种变体的性能。我们看到模内判别性和模间不变性都对最终的检索率有贡献这表明在我们的嵌入损失模型中同时优化Limi和Limd比只优化其中一个条款的效果更好。我们还看到模内判别力项对整体性能的贡献要大于模间不变性项因为在实践中不同模态之间的一致关系很难被发掘。 表5使用ACMR方法、仅有Limi的ACMR方法和仅有Limd的ACMR方法进行跨模态检索的性能
模型参数的影响
在之前的实验中我们根据经验在特征映射器的目标函数即公式8中设置了模型参数α和β。由于α和β分别控制了模内判别力和模间不变性的建模贡献这里我们把带有深度特征的维基百科数据集作为测试平台并分析了这些参数在训练期间对学习到的跨模态表征的影响。此外我们还评估了影响算法中描述的极小化极大博弈的参数k。1. 特别是我们将α、β的范围设定为{0.01, 0.1, 0, 1, 10, 100}k的范围设定为{1, 2, 3, 4, 5, 6}。
α0和β0分别代表仅有Limi的ACMR和仅有Limd的ACMR。评估是通过改变一个参数如α而固定另一个参数如β进行的。图6(a)显示了不同的α和β值下ACMR的性能。我们可以看到当α和β在[0.01, 0.1]的范围内时ACMR表现良好。此外只用Limi的ACMR和只用Limd的ACMR得到的mAP分数表明与Limi相比Limd对整体性能的贡献更大这与之前的观察结果一致如表5所示。图6(b)显示了不同k值下ACMR的性能。该图表明在实践中专门努力寻找一个合适的k值例如k4或5有助于整个优化过程。 图6使用不同的模型参数值(a)α和β(b)维基百科数据集的kACMR的跨模态检索性能
结论
本文提出了一种新的方法ACMR来学习跨模态检索中既具有判别力又具有模态不变性的表征。ACMR基于一种对抗性的学习方法在一个极小化极大博弈中涉及两个过程一个是产生模态不变和判别性表征的特征预测器另一个是试图检测一个项目的模态的模态分类器给定一个未知的特征表示。我们还引入了三联体约束以确保跨模态语义数据结构在映射到共同子空间时得到良好的保留。在四个跨模态数据集上的综合实验结果和广泛的分析表明我们的算法和方法设计选择是有效的与最先进的方法相比跨模式检索性能更优。