dw 如何做自适应网站,免备案空间推荐,房产网站开发公司,网页设计文员0基础招培训HTA#xff1a;自注意力 通道注意力 重叠交叉注意力#xff0c;提高细节识别、颜色表达、边缘清晰度 提出背景框架浅层特征提取深层特征提取图像重建混合注意力块#xff08;HAB#xff09;重叠交叉注意力块#xff08;OCAB#xff09;同任务预训练效果 小目标涨点YOLO… HTA自注意力 通道注意力 重叠交叉注意力提高细节识别、颜色表达、边缘清晰度 提出背景框架浅层特征提取深层特征提取图像重建混合注意力块HAB重叠交叉注意力块OCAB同任务预训练效果 小目标涨点YOLO v5 魔改YOLO v7 魔改YOLO v8 魔改YOLO v9 魔改 提出背景
论文https://arxiv.org/pdf/2205.04437.pdf
代码https://github.com/XPixelGroup/HAT
问题: 传统的基于CNN的图像SR方法虽然比早期技术有显著改进但在处理图像时仍存在限制特别是在表示能力和处理长距离依赖关系方面。 问题: CNN的方法虽然有所改进但在捕捉图片细节方面还不够好。 解决方法: 改进网络设计通过添加特殊的“块”残差块和密集块让网络更好地学习图片的特征从而生成更清晰的图片。尝试新框架除了改进传统的CNN还探索了新的网络设计比如Transformer为提升图片清晰度提供了新思路。引入对抗学习通过这种方式让网络生成的图片看起来更自然。
Transformer最初是为了处理语言问题而设计的但现在也被用来处理图片特别是在提高图片清晰度方面。 问题: 尽管Transformer在处理图片时非常有潜力但如何最大化其性能尤其是在提升图片清晰度方面还存在挑战。 解决方法: 3. 激活更多输入像素尝试让Transformer注意到更多的图片细节以生成更高质量的图片。 研究者发现虽然最新的一种叫做Swin Transformer的技术在把模糊图片变清晰即图像超分辨率方面做得很好但是它具体是怎么做到的特别是它为什么比之前的技术比如CNN更好还不是很清楚。
他们使用了一种工具LAM来分析结果发现这种新技术并没有像预期的那样使用更多的图片信息。
因此研究者想要设计一个新的网络能够更好地利用图片信息同时避免之前技术中存在的一些问题比如在图片的一些部分出现不自然的效果。
他们提出了一种新的设计叫做HAT这个设计包含几个关键部分 基本结构他们的网络设计包括三大部分提取图片的基本特征、进一步深入提取特征、最后根据这些特征重建高清图片。 之所以用这个子解法是因为这种分层的架构设计在先前的工作中已被广泛使用有效提取和利用图像特征。 注意力机制俩种注意力机制 之所以用这个混合注意力块(HAB) 是因为通过将通道注意力集成到标准Transformer块中可以提高网络对全局信息的感知能力和表示能力。 之所以用这个残差混合注意力组(RHAG)是因为它结合了混合注意力块和重叠交叉注意力块以及卷积层以增强网络对图像特征的学习和表示能力。 改进连接方式为了让网络更好地理解图片的整体信息他们引入了一种新的方法重叠交叉注意力块OCAB来改进不同部分之间的连接。 之所以用这个重叠交叉注意力块(OCAB)是为了直接建立窗口间的连接增强窗口自注意力的表示能力利用更多有用的信息进行查询。
最后为了让这个网络在处理图片时更加高效他们还采用了一种特别的训练方法在一个很大的图片集上先进行预训练然后再在特定的任务上进行微调。
这种方法可以让网络更好地学习如何提高图片清晰度。
通过这些创新的设计和训练策略产生的新网络HAT让网络能够更好地利用图片中的信息从而生成更清晰、更自然的图片。 这幅图比较了不同网络的局部属性图(LAM)结果其中包括高分辨率(HR)图像低分辨率(LR)图像以及EDSR、RCAN、SwinIR和HAT(我们的方法)网络的LAM结果。
LAM结果显示每个像素在输入低分辨率图像中的重要性尤其是在重建被盒子标记的区域时。扩散指数(DI)反映了参与的像素范围。一个更高的DI值表示使用了更广泛的像素范围。
结果表明与RCAN相比SwinIR利用的信息更少而HAT使用了最多的像素进行重建。 假设你有一张模糊的旧照片想要让它变得清晰以便更好地欣赏其中的细节比如人物的表情、背景的景物等。
你决定使用新的图像超分辨率技术HAT来处理这张照片。
下面是这项技术如何运用上述三个方法来实现这一目标的 结合自注意力和通道注意力机制 当HAT开始工作时它首先使用自注意力机制来分析照片中的每个像素并理解这些像素之间的关系。例如它会注意到人物脸部的不同区域之间的联系从而更好地重建面部特征。同时通道注意力机制帮助算法识别出照片中哪些颜色红、绿、蓝对重建图像尤为重要。这样如果背景是蓝天算法就会确保天空的蓝色看起来既自然又鲜明。 引入重叠交叉注意力模块 接下来HAT通过重叠交叉注意力模块处理照片这一步骤让算法能够更好地连接图片中紧密相邻的部分。比如在重建一座桥的图像时这项技术能够确保桥的每一部分都与相邻的水面和背景自然地融为一体避免出现不自然的分界线。 采用大规模数据同任务预训练策略 在处理你的照片之前HAT已经在成千上万的相似照片上进行了训练这些照片涵盖了各种各样的场景、颜色和细节。这种大规模的预训练让HAT学会了如何准确地从低分辨率图像中恢复出高分辨率的细节。当它开始工作在你的旧照片上时算法能够利用之前学到的知识更准确地预测每个像素的正确位置和颜色即使在原始照片中这些细节几乎不可见。
最终当HAT完成对你的模糊旧照片的处理后你会得到一张清晰、自然、细节丰富的高分辨率照片。
通过这种方式人物的面部表情、背景的景物甚至是衣物的纹理都会变得清晰可见就像是用高质量相机拍摄的新照片一样。
总结 问题在图像超分辨率中现有的 Transformer 网络只能利用输入信息的有限空间范围未能发挥自身全部潜力 通道注意力用于全局信息 解决 CNN 在处理图像时仍存在限制特别是在表示能力和处理长距离依赖关系方面。 窗口自注意力增强窗口间的信息交互减少中间特征中的阻塞伪影。 这幅图展示了在不同层级(Layer 1、Layer 2、Layer 3)的中间特征中出现的阻塞伪影。
顶部的图像显示了SwinIR在Urban100数据集中的三个图像中的中间特征而底部的图像则展示了我们的HAT网络在相同图像中的中间特征。
注意到在SwinIR的特征图中一些层出现了明显的块状伪影而在HAT的特征图中伪影较少。 重叠交叉注意力改善相邻窗口间的信息交互 Swin Transformer 中的窗口划分机制导致中间特征出现明显的阻塞伪影表明基于窗口的自注意力方法中的移动窗口机制在构建跨窗口连接时效率不高。 通过增强窗口间的信息交互可以显著减少中间特征中的阻塞伪影从而改善图像的重建质量。 通过整合不同注意力机制激活了更多的输入像素 不同的注意力机制可能会关注输入数据的不同方面。 例如有的注意力机制可能侧重于空间维度识别图像中哪些区域最重要而有的则可能侧重于通道维度确定哪些特征通道最为关键。 通过整合这些不同的注意力机制一个模型就能同时从多个角度识别和利用输入数据中的关键信息从而“激活了更多的输入像素”
框架 这幅图详细展示了HAT网络的整体架构包括浅层特征提取、深层特征提取(RHAG和HAB)和图像重建。
每个RHAG包含几个混合注意力块(HAB)、一个重叠交叉注意力块(OCAB)和一个具有残差连接的3x3卷积层。
图中也展示了OCAB和CAB的内部结构。
浅层特征提取
子特征 利用一个卷积层从低分辨率输入图像中提取浅层特征。原因 之所以使用这个子解法是因为初步提取的浅层特征可以为后续的深层特征提取提供基础信息。
深层特征提取
子特征1 使用一系列的残差混合注意力组(RHAG)进行深层特征的提取。原因1 之所以使用残差混合注意力组是因为注意力机制能够使网络更加聚焦于重要的特征信息而残差连接有助于信息的传递和学习的稳定性。子特征2 在RHAG后使用一个3x3卷积层进一步处理特征。原因2 之所以使用3x3卷积层是因为卷积操作可以在保持空间信息的同时进行特征融合和强化。
图像重建
子特征 将浅层特征和深层特征通过全局残差连接融合后通过重建模块来输出高分辨率图像。原因 之所以使用这个子解法是因为融合浅层和深层特征可以充分利用从不同层次提取的信息而重建模块如像素洗牌则负责将这些特征转换为高分辨率图像。
混合注意力块HAB
子特征 在标准Swin Transformer块中集成一个基于通道注意力的卷积块以增强网络的表征能力。原因 之所以使用混合注意力块是因为通道注意力能够强调全局信息对通道权重的影响而结合卷积操作能够帮助Transformer更好地进行视觉表征和优化。
重叠交叉注意力块OCAB
子特征 通过OCAB建立跨窗口的连接增强窗口自注意力的表征能力。原因 之所以使用重叠交叉注意力块是因为通过不同窗口大小的分区可以提取更加丰富和具有代表性的特征信息从而增强模型处理不同空间区域信息的能力。 这幅图解释了重叠交叉注意力(Overlapping Cross-Attention, OCA)层中重叠窗口分区的概念。
展示了标准窗口分区和重叠窗口分区的差异其中标准窗口分区用于计算查询(Q)而重叠窗口分区用于计算键(K)和值(V)。
同任务预训练
子特征 在大规模数据集如ImageNet上进行同任务如超分辨率的预训练然后在特定数据集上进行微调。原因 之所以采用同任务预训练策略是因为预训练能够让模型学习到更广泛和通用的知识而大规模和多样性的数据集能够显著提高预训练的有效性进一步通过微调适应特定任务的需求。
效果 小目标涨点
更新中…
YOLO v5 魔改
YOLO v7 魔改
YOLO v8 魔改
YOLO v9 魔改