网站排名优化在线培训,wordpress短信登陆,建设好网站的在线沟通功能,python h5网站开发目录
1.视觉中的Attention 2.VIT框架#xff08;图像分类#xff0c;不需要decoder#xff09;
2.1整体框架 2.2.CNN和Transformer遇到的问题
2.3.1CNN 2.3.2Transformer
2.3.3二者对比
2.4.公式理解
3TNT
参考文献 1.视觉中的Attention 对于人类而言看到一幅图可以立…目录
1.视觉中的Attention 2.VIT框架图像分类不需要decoder
2.1整体框架 2.2.CNN和Transformer遇到的问题
2.3.1CNN 2.3.2Transformer
2.3.3二者对比
2.4.公式理解
3TNT
参考文献 1.视觉中的Attention 对于人类而言看到一幅图可以立即区分背景和主体我们希望计算机也可以清楚区分背景和主体这样就可以专注在主体上提取特征。 2.VIT框架图像分类不需要decoder 2.1整体框架 如下图所示transformer框架需要输入为序列形式但图像是高维的所以首先要对图像预处理简单理解假设下图是一个30*30*3的输入将其分为9块每块大小为10*10*3再对其做一个卷积处理变成300*1。 同样图像处理也要考虑到位置编码Position Embedding有两种方式一种是直接再一维空间用1234....一种是在二维空间用1112...。一维二维对结果影响不大(仅图像分类)。但编码方式也是一个创新点。 下图框架为分类任务多加了一部分简单理解目的在于整合所有输入量最后用其进行分类 和文本处理区别在于多了一个图像的数据处理要将高维变成序列形式 最后说下下图右的框架Norm是归一化处理Multi-Head Attention是多头注意力机制MLP是全连接层。 2.2.CNN和Transformer遇到的问题 2.3.1CNN 以Resnet50为例首先回忆一下感受野的概念即当前层神经元特征图可以看到的原图的区域我们假设conv1conv6conv11conv16此时我们想做一个分类任务区分这个女生好不好看对于conv1它的感受野为红色小框显然特征过小conv4为绿色小框此时已经能看到眼睛但还是不足以做出判断conv11为黄色框此时已经能看到较多的局部特征但还不足以准确判断最后来到conv16此时足以看到整个脸可以进行判别但我们发现想要得到一个全局信息这个过程需要多层嵌套才能实现比较麻烦。 对比一下CNN通常第一层卷积用3*3的核也就是说只能看到原图3*3大小的区域可能要最后一层才能看到全局而transformer可以实现第一层就看到全局。 2.3.2Transformer transformer对于CNN需要极大数据集才能得到好的结果。 2.3.3二者对比 2.4.公式理解 E为全连接层目的是对输入数据进行预处理就是将高维图像变成序列形式假设P*P196就是图像分割的块数像上面将图分为9块的意思C256是每一块含有的向量D512目的是将256映射成512N196是位置信息编码1是因为图像分类任务要多一个输入LN是归一化处理MSA是多头自注意力机制MLP是全连接层。类似于残差链接 。可以对比流程图理解。 3TNT 假设VIT每一个patch是16*16.TNT希望这个patch更小。 基于这个思想TNT将数据预处理分为外部和内部两块外部和VIT一样内部就是对外部的信息再次细分比方说外部一个patch是16*16内部就用4*4的块进行分割下面超像素的概念就是不想按照1*1大小进行分割多选择几个像素点分割。 在实际应用中如下图所示将一个图分为4块外部VIT中是直接预处理后变成一个4维向量输入了而在TNT中假设第3块外部进行了一个内部分割然后重构后也变成一个4维向量将其加入外部的4维向量。同样内外部都做位置编码时效果最好。 从可视化角度看TNT在不同层下得到的结果更好从T-SNE看TNT更集中效果更好。 参考文献 1.【VIT算法模型源码解读】1-项目配置说明1.mp4_哔哩哔哩_bilibili