网站正在努力建设中,岳阳做网站的公司,锦州网页制作,苏州建筑工程有限公司zero-shot基本概念 首先通过一个例子来引入zero-shot的概念。假设我们已知驴子和马的形态特征#xff0c;又已知老虎和鬣狗都是又相间条纹的动物#xff0c;熊猫和企鹅是黑白相间的动物#xff0c;再次的基础上#xff0c;我们定义斑马是黑白条纹相间的马科动物。不看任何斑…zero-shot基本概念 首先通过一个例子来引入zero-shot的概念。假设我们已知驴子和马的形态特征又已知老虎和鬣狗都是又相间条纹的动物熊猫和企鹅是黑白相间的动物再次的基础上我们定义斑马是黑白条纹相间的马科动物。不看任何斑马的照片仅仅凭借推理在动物园一众动物中我们也能够找到斑马。 上述例子中包含了一个推理过程就是利用过去的知识已知动物的描述在脑海中推理出新对象的具体形态从而能对新对象进行辨认。如下图所示ZSL就是希望能够模仿人类的这个推理过程使得计算机具有识别新事物的能力。 如今十分火热的纯监督模型往往需要足够多的样本才能训练出足够好的模型并且用熊猫训练出来的分类器只能对熊猫进行分类其他物种都无法识别也无法进行特征的综合推理这样的模型功能还有待完善。 ZSL就是希望我们的模型能够对其从没见过的类别进行分类让机器具有推理能力实现真正的智能。其中零次Zero-shot是指对于要分类的类别对象一次也不学习。这样的能力听上去很具有吸引力那么到底是怎么实现的呢 假设我们的模型已经能够识别马老虎和熊猫了现在需要该模型也识别斑马那么我们需要像爸爸一样告诉模型怎样的对象才是斑马但是并不能直接让模型看见斑马。所以模型需要知道的信息是马的样本、老虎的样本、熊猫的样本和样本的标签以及关于前三种动物和斑马的描述。假设我们的模型已经能够识别马老虎和熊猫了现在需要该模型也识别斑马那么我们需要像爸爸一样告诉模型怎样的对象才是斑马但是并不能直接让模型看见斑马。所以模型需要知道的信息是马的样本、老虎的样本、熊猫的样本和样本的标签以及关于前三种动物和斑马的描述。以一般的图片分类问题为例 1训练集数据X1及其标签Y1,包含了模型需要学习的类别马、老虎和熊猫这里和传统的监督学习中的定义一致 2测试集数据 X2及其标签 Y2,包含了模型需要辨识的类别斑马这里和传统的监督学习中也定义一致 3训练集类别的描述 A1以及测试集类别的描述 A2我们将每一个类别 Yi,都表示成一个语义向量ai的形式而这个语义向量的每一个维度都表示一种高级的属性比如“黑白色”、“有尾巴”、“有羽毛”等等当这个类别包含这种属性时那在其维度上被设置为非零值。对于一个数据集来说语义向量的维度是固定的它包含了能够较充分描述数据集中类别的属性。 在ZSL中我们希望利用X1和Y1来训练模型而模型能够具有识别X2的能力因此模型需要知道所有类别的描述A1和A2。ZSL这样的设置其实就是上文中识别斑马的过程中已知的条件。 实际上zero-shot就可以被定义为利用训练集数据训练模型使得模型能够对测试集的对象进行分类但是训练集类别和测试集类别之间没有交集期间需要借助类别的描述来建立训练集和测试集之间的联系从而使得模型有效。
zero-shot存在的问题
领域漂移问题domain shift problem - 如上图所示斑马和猪都有尾巴因此在它的类别语义表示中“有尾巴”这一项都是非0值但是两者尾巴的视觉特征却相差很远。如果斑马是训练集而猪是测试集那么利用斑马训练出来的模型则很难正确地对猪进行分类。枢纽点问题Hubness problem 将高维向量投影到低维空间时会出现中心性问题。这样的投影减少了方差从而导致投影点聚集成中心点。解决零样本识别问题的最常用方法之一是学习从高维视觉空间到低维语义空间的投影函数。然而这会导致在语义空间中形成投影中心点而这些中心点往往更接近于数量占比大的类的语义属性向量。由于在测试时我们在语义空间中使用最近邻搜索来找到预测类别的所以 Hubness 问题势必会降低模型的性能。语义间隔semantic gap 样本的特征往往是视觉特征比如用深度网络提取到的特征而语义表示却是非视觉的这直接反应到数据上其实就是样本在特征空间中所构成的流型与语义空间中类别构成的流型是不一致的。如下图所示