当前位置：首页 > news >正文

linux php网站部署php网站开发练手项目

news 2026/5/2 8:07:24

linux php网站部署,php网站开发练手项目,手机网站推广,企业网站开发模型图摘要 https://arxiv.org/pdf/1707.01083 我们介绍了一种名为ShuffleNet的计算效率极高的卷积神经网络#xff08;CNN#xff09;架构#xff0c;该架构专为计算能力非常有限的移动设备#xff08;例如10-150 MFLOPs#xff09;而设计。新架构利用两种新操作#xff1a;逐…摘要 https://arxiv.org/pdf/1707.01083 我们介绍了一种名为ShuffleNet的计算效率极高的卷积神经网络CNN架构该架构专为计算能力非常有限的移动设备例如10-150 MFLOPs而设计。新架构利用两种新操作逐点分组卷积和通道混洗以大大降低计算成本同时保持准确性。在ImageNet分类和MS COCO目标检测上的实验表明ShuffleNet的性能优于其他结构例如在40 MFLOPs的计算预算下在ImageNet分类任务上的top-1错误率比最近的MobileNet [12]低7.8%绝对值。在基于ARM的移动设备上ShuffleNet在保持相当准确性的同时实现了比AlexNet快约 13 13 13倍的实际加速。 1. 引言构建更深、更大的卷积神经网络CNN是解决主要视觉识别任务的主要趋势[21, 9, 33, 5, 28, 24]。最准确的CNN通常有数百层和数千个通道[9,34,32,40]因此需要数十亿FLOPs的计算量。本报告研究了相反的情况在数十或数百MFLOPs的非常有限的计算预算下追求最佳准确性重点关注无人机、机器人和智能手机等常见的移动平台。注意许多现有工作[16,22, 43, 42, 38, 27]集中在修剪、压缩或低比特表示“基本”网络架构上。本文旨在探索一种专为所需计算范围设计的高效基本架构。我们注意到Xception [3]和ResNeXt [40]等最先进的基本架构在极小的网络中效率较低因为 1 × 1 1 \times 1 1×1卷积的成本很高。我们建议使用逐点分组卷积来降低 1 × 1 1 \times 1 1×1卷积的计算复杂度。为了克服分组卷积带来的副作用我们提出了一种新颖的通道混洗操作以促进信息在特征通道之间流动。基于这两种技术我们构建了一个高效的架构称为ShuffleNet。与[30, 9, 40]等流行结构相比在给定计算复杂度预算的情况下我们的ShuffleNet允许更多的特征图通道这有助于编码更多信息对极小网络的性能尤其关键。我们在具有挑战性的ImageNet分类[4, 29]和MS COCO目标检测[23]任务上评估了我们的模型。一系列受控实验表明我们的设计原则有效并且性能优于其他结构。与最先进的架构MobileNet [12]相比ShuffleNet在40 MFLOPs水平上的ImageNet top-1错误率低7.8%绝对值性能显著提高。我们还评估了在真实硬件即现成的基于ARM的计算核心上的加速情况。ShuffleNet模型在保持相当准确性的同时实现了比AlexNet [21]快约 13 \mathbf{13} 13倍的实际加速理论加速为 18 18 18倍。 2. 相关工作高效模型设计近年来深度神经网络在计算机视觉任务中取得了成功[21, 36, 28]其中模型设计起着重要作用。在嵌入式设备上运行高质量深度神经网络的需求不断增加这推动了高效模型设计的研究[8]。例如GoogLeNet [33]与简单堆叠卷积层相比以更低的复杂度增加了网络的深度。SqueezeNet [14]显著减少了参数和计算量同时保持了准确性。ResNet [9,10]利用高效的瓶颈结构取得了令人印象深刻的性能。SENet [13]引入了一个以轻微计算成本提升性能的架构单元。与我们同时最近的一项工作[46]采用强化学习和模型搜索来探索高效的模型设计。提出的移动NASNet模型与我们的ShuffleNet模型性能相当在564 MFLOPs下ImageNet分类错误率为 26.0 % 26.0 \% 26.0%对比ShuffleNet在524 MFLOPs下为 26.3 % 26.3 \% 26.3%。但[46]没有报告在极小模型例如复杂度小于150 MFLOPs上的结果也没有评估在移动设备上的实际推理时间。分组卷积分组卷积的概念最初在AlexNet [21]中引入用于在两个GPU上分布模型在ResNeXt [40]中已充分证明了其有效性。Xception [3]中提出的深度可分离卷积推广了Inception系列[34, 32]中可分离卷积的思想。最近MobileNet [12]利用深度可分离卷积在轻量级模型中取得了最先进的结果。我们的工作以一种新颖的形式推广了分组卷积和深度可分离卷积。通道混洗操作据我们所知在之前的高效模型设计工作中很少提到通道混洗操作的思想尽管卷积神经网络库cuda-convnet [20]支持“随机稀疏卷积”层这相当于先进行随机通道混洗然后接一个分组卷积层。这种“随机混洗”操作有不同的目的并且在后来很少被利用。最近另一项并行工作[41]也采用了这种思想来进行两阶段卷积。但是[41]并没有专门研究通道混洗本身的有效性及其在小型模型设计中的应用。模型加速这个方向旨在加速推理同时保持预训练模型的准确性。通过修剪网络连接[6,7]或通道[38]可以减少预训练模型中的冗余连接同时保持性能。文献中提出了量化[31, 27, 39, 45, 44]和因式分解[22,16,18,37]来减少计算中的冗余从而加快推理速度。在不修改参数的情况下通过快速傅里叶变换FFT[25,35]和其他方法[2]实现的优化卷积算法在实践中减少了时间消耗。蒸馏[11]将大型模型的知识转移到小型模型中从而使训练小型模型变得更加容易。 3. 方法 3.1. 分组卷积中的通道混洗现代卷积神经网络[30,33, 34, 32, 9,10]通常由具有相同结构的重复构建块组成。其中最先进的网络如Xception [3]和ResNeXt [40]将高效的深度可分离卷积或分组卷积引入构建块中从而在表示能力和计算成本之间取得了良好的权衡。然而我们注意到这两种设计都没有充分考虑 1 × 1 1 \times 1 1×1卷积在[12]中也称为逐点卷积这需要相当大的复杂度。例如在ResNeXt [40]中只有 3 × 3 3 \times 3 3×3层配备了分组卷积。因此在ResNeXt的每个残差单元中逐点卷积占据了93.4%的乘加运算基数 32 32 32如[40]所示。在小型网络中昂贵的逐点卷积导致满足复杂度约束的通道数量有限这可能会严重损害准确性。为了解决这个问题一个直接的解决方案是在 1 × 1 1 \times 1 1×1层上也应用通道稀疏连接例如分组卷积。通过确保每个卷积仅在其对应的输入通道组上操作分组卷积显著降低了计算成本。然而如果多个分组卷积堆叠在一起会产生一个副作用某个通道的输出仅来自输入通道的一个小部分。图1a展示了两个堆叠的分组卷积层的情况。显然某个组的输出仅与该组内的输入相关。这一特性阻碍了通道组之间的信息流动并削弱了表示能力。如果我们允许分组卷积从不同的组中获取输入数据如图1b所示则输入和输出通道将完全相关。具体来说对于前一层分组层生成的特征图我们可以首先将每个组中的通道分成几个子组然后将不同的子组作为下一层的输入。这可以通过通道混洗操作图1c高效且优雅地实现假设一个具有 g g g组的卷积层其输出有 g × n g \times n g×n个通道我们首先将输出通道维度重塑为 ( g , n ) (g, n) (g,n)然后进行转置最后将其展平作为下一层的输入。注意即使两个卷积具有不同数量的组该操作仍然有效。此外通道混洗也是可微的这意味着它可以嵌入到网络结构中进行端到端训练。通道混洗操作使得构建具有多个分组卷积层的更强大结构成为可能。在下一小节中我们将介绍一个具有通道混洗和分组卷积的高效网络单元。 3.2. ShuffleNet单元利用通道混洗操作我们提出了一种专为小型网络设计的新型ShuffleNet单元。我们从图2a中的瓶颈单元[9]的设计原则开始。它是一个残差块。在其残差分支中对于 3 × 3 3 \times 3 3×3层我们在瓶颈特征图上应用了计算经济型的 3 × 3 3 \times 3 3×3深度卷积[3]。然后我们将第一个 1 × 1 1 \times 1 1×1层替换为逐点组卷积随后进行通道混洗操作以形成ShuffleNet单元如图2b所示。第二个逐点组卷积的目的是恢复通道维度以匹配捷径路径。为了简化我们在第二个逐点层之后没有应用额外的通道混洗操作因为这样做会导致得分相当。批量归一化BN[15]和非线性的使用与[9,40]类似但不同的是我们没有按照[3]的建议在深度卷积之后使用ReLU。对于ShuffleNet以步长应用的情况我们只需进行两项修改见图2ci在捷径路径上添加一个 3 × 3 3 \times 3 3×3平均池化ii将元素逐项相加替换为通道串联这样可以以极小的额外计算成本轻松扩展通道维度。得益于具有通道混洗的逐点组卷积ShuffleNet单元中的所有组件都可以高效计算。与ResNet[9]瓶颈设计和ResNeXt[40]相比在相同设置下我们的结构复杂度更低。例如给定输入尺寸 c × h × w c \times h \times w c×h×w和瓶颈通道 m m mResNet单元需要 h w ( 2 c m 9 m 2 ) hw(2cm9m^{2}) hw(2cm9m2)FLOPsResNeXt需要 h w ( 2 c m 9 m 2 / g ) hw(2cm9m^{2}/g) hw(2cm9m2/g)FLOPs而我们的ShuffleNet单元仅需 h w ( 2 c m / g 9 m ) hw(2cm/g9m) hw(2cm/g9m)FLOPs其中 g g g表示卷积的组数。换句话说在给定计算预算的情况下ShuffleNet可以使用更宽的特征图。我们发现这对于小型网络至关重要因为小型网络通常没有足够的通道来处理信息。此外在ShuffleNet中深度卷积仅在瓶颈特征图上进行。尽管深度卷积通常具有非常低的理论复杂度但我们发现它很难在低功耗移动设备上高效实现这可能是由于与其他密集操作相比其计算/内存访问比更差。这种缺点在[3]中也有提及其中基于TensorFlow[1]提供了一个运行时库。在ShuffleNet单元中我们故意仅在瓶颈上使用深度卷积以尽可能减少开销。 3.3. 网络架构基于ShuffleNet单元我们在表1中给出了ShuffleNet的总体架构。所提出的网络主要由堆叠成三个阶段的ShuffleNet单元组成。每个阶段中的第一个构建块应用了步长2。一个阶段内的其他超参数保持不变对于下一个阶段输出通道数加倍。与[9]类似我们将每个ShuffleNet单元的瓶颈通道数设置为输出通道数的1/4。我们的目的是提供一个尽可能简单的参考设计尽管我们发现进一步的超参数调整可能会产生更好的结果。在ShuffleNet单元中组数 g g g控制逐点卷积的连接稀疏性。表1探索了不同的组数并调整了输出通道数以确保总体计算成本大致不变 ∼ 140 \sim 140 ∼140 MFLOPs。显然在给定复杂度约束下更大的组数会导致更多的输出通道因此更多的卷积滤波器这有助于编码更多信息尽管由于对应的输入通道有限这也可能导致单个卷积滤波器的性能下降。在4.1.1节中我们将研究此数字在不同计算约束下的影响。为了将网络定制为所需的复杂度我们可以简单地在通道数上应用一个缩放因子 s s s。例如我们将表1中的网络表示为“ShuffleNet 1 × 1 \times 1×”那么“ShuffleNet s × s \times s×”表示将ShuffleNet 1 × 1 \times 1×中的滤波器数量缩放 s s s倍因此总体复杂度将是ShuffleNet 1 × 1 \times 1×的 s 2 s^{2} s2倍。 4. 实验我们主要在ImageNet 2012分类数据集[29, 4]上评估我们的模型。我们遵循[40]中使用的大多数训练设置和超参数但有两个例外i我们将权重衰减设置为 4 e − 5 4 \mathrm{e}-5 4e−5而不是 1 e − 4 1 \mathrm{e}-4 1e−4并使用线性衰减的学习率策略从0.5降至0ii我们在数据预处理中使用了稍不激进的尺度增强。类似的修改也在[12]中被引用因为这类小型网络通常会出现欠拟合而不是过拟合。在4个GPU上训练一个模型进行 3 × 1 0 5 3 \times 10^{5} 3×105次迭代需要1或2天时间其批量大小设置为1024。为了基准测试我们在ImageNet验证集上比较了单裁剪的top-1性能即从 256 × 256 \times 256×输入图像中裁剪出 224 × 224 224 \times 224 224×224的中心视图并评估分类准确性。我们为所有模型使用完全相同的设置以确保公平比较。 4.1. 消融研究 ShuffleNet的核心思想在于逐点分组卷积和通道混洗操作。在本小节中我们分别对它们进行评估。 4.1.1 逐点分组卷积为了评估逐点分组卷积的重要性我们比较了具有相同复杂度的ShuffleNet模型其分组数从1到8不等。如果分组数等于1则不涉及逐点分组卷积然后ShuffleNet单元就变成了“Xception-like”[3]结构。为了更好地理解我们还将网络的宽度缩放到3种不同的复杂度并分别比较它们的分类性能。结果如表2所示。从结果中我们看到具有分组卷积 g 1 g1 g1的模型始终比没有逐点分组卷积 g 1 g1 g1的模型表现更好。较小的模型从分组中获益更多。例如对于ShuffleNet 1 × 1 \times 1×最佳条目 g 8 g8 g8比对应条目好 1.2 % 1.2\% 1.2%而对于ShuffleNet 0.5 × 0.5 \times 0.5×和 0.25 × 0.25 \times 0.25×差距分别变为 3.5 % 3.5\% 3.5%和 4.4 % 4.4\% 4.4%。注意分组卷积在给定复杂度约束下允许更多的特征图通道因此我们假设性能增益来自更宽的特征图这有助于编码更多信息。此外较小的网络涉及更薄的特征图这意味着它从放大的特征图中获益更多。表2还显示对于一些模型例如ShuffleNet 0.5 × 0.5 \times 0.5×当分组数变得相对较大例如 g 8 g8 g8时分类分数会饱和甚至下降。随着分组数的增加因此特征图更宽每个卷积滤波器的输入通道变得更少这可能会损害表示能力。有趣的是我们还注意到对于像ShuffleNet 0.25 × 0.25 \times 0.25×这样的小型模型较大的分组数往往能持续带来更好的结果这表明更宽的特征图为小型模型带来了更多好处。 4.1.2 有通道混洗与无通道混洗混洗操作的目的是使多个分组卷积层能够实现跨组信息流。表3比较了有无通道混洗的ShuffleNet结构例如分组数设置为3或8的性能。评估是在三种不同复杂度的尺度下进行的。很明显通道混洗始终能提升不同设置的分类分数。特别是当分组数相对较大例如 g 8 g8 g8时具有通道混洗的模型显著优于没有通道混洗的模型这显示了跨组信息交换的重要性。 4.2. 与其他结构单元的比较 VGG[30]、ResNet[9]、GoogleNet[33]、ResNeXt[40]和Xception[3]中最近的领先卷积单元在大模型例如 ≥ 1 \geq 1 ≥1 GFLOPs上追求了最先进的结果但并未完全探索低复杂度条件。在本节中我们调查了各种构建块并在相同复杂度约束下与ShuffleNet进行了比较。为了公平比较我们使用如表1所示的整体网络架构。我们将第2-4阶段的ShuffleNet单元替换为其他结构然后调整通道数以确保复杂度保持不变。我们探索的结构包括 VGG-like。遵循VGG网络[30]的设计原则我们使用两层 3 × 3 3 \times 3 3×3卷积作为基本构建块。与[30]不同的是我们在每个卷积之后添加了一个批量归一化层[15]以使端到端训练更容易。ResNet。我们在实验中采用了“瓶颈”设计该设计已在[9]中被证明更有效。与[9]相同瓶颈比率 1 { }^{1} 1也是1:4。Xception-like。在[3]中提出的原始结构涉及不同阶段的复杂设计或超参数我们发现这在小型模型上进行公平比较很困难。相反我们从ShuffleNet中移除了逐点分组卷积和通道混洗操作也相当于ShuffleNet中 g 1 g1 g1。派生出的结构与[3]中的“深度可分离卷积”思想相同这里称为Xception-like结构。ResNeXt。我们使用[40]中建议的基数 16 16 16和瓶颈比率 1 : 2 1:2 1:2的设置。我们还探索了其他设置例如瓶颈比率 1 : 4 1: 4 1:4并得到了类似的结果。我们使用完全相同的设置来训练这些模型。结果如表4所示。在不同的复杂度下我们的ShuffleNet模型性能远超其他大多数模型。有趣的是我们发现特征图通道数与分类准确率之间存在一种经验关系。例如在38 MFLOPs的复杂度下VGG类、ResNet、ResNeXt、Xception类和ShuffleNet模型的第4阶段见表1的输出通道数分别为50、192、192、288、576这与准确率的提升是一致的。由于ShuffleNet的高效设计在给定计算预算的情况下我们可以使用更多的通道从而通常获得更好的性能。请注意上述比较不包括GoogleNet或Inception系列[33, 34, 32]。我们发现将这类Inception结构应用于小型网络并非易事因为Inception模块的原始设计涉及过多的超参数。作为参考第一个GoogleNet版本[33]以1.5 GFLOPs的代价取得了31.3%的top-1错误率见表6。更复杂的Inception版本[34,32]更准确但复杂度也显著增加。最近Kim等人提出了一种名为PVANET[19]的轻量级网络结构它采用了Inception单元。我们重新实现的PVANET输入尺寸为 224 × 224 224 \times 224 224×224在557 MFLOPs的计算复杂度下取得了29.7%的分类错误率而我们的ShuffleNet 2x模型 g 3 g3 g3在524 MFLOPs下取得了26.3%的分类错误率见表6。 4.3 与MobileNets和其他框架的比较最近Howard等人提出了MobileNets[12]该网络主要针对移动设备的高效网络架构。MobileNet借鉴了[3]中的深度可分离卷积思想并在小型模型上取得了最先进的结果。表5比较了不同复杂度水平下的分类得分。显然对于所有复杂度我们的ShuffleNet模型都优于MobileNet。尽管我们的ShuffleNet网络是专为小型模型150 MFLOPs设计的但我们发现对于更高的计算成本它仍然优于MobileNet例如在500 MFLOPs的计算成本下ShuffleNet比MobileNet 1×的准确率高出3.1%。对于更小的网络~40 MFLOPsShuffleNet比MobileNet高出 7.8 % \mathbf{7.8\%} 7.8%。需要注意的是我们的ShuffleNet架构有50层而MobileNet只有28层。为了更好地理解我们还尝试通过删除第2-4阶段中一半的块来构建一个26层的ShuffleNet架构见表5中的“ShuffleNet 0.5 × 0.5 \times 0.5× shallow g 3 g3 g3”。结果表明较浅的模型仍然明显优于相应的MobileNet这意味着ShuffleNet的有效性主要归功于其高效的结构而不是深度。表6将我们的ShuffleNet与一些流行的模型进行了比较。结果表明在具有相似准确率的情况下ShuffleNet比其他模型更高效。例如ShuffleNet 0.5 × 0.5 \times 0.5×在理论上比具有相当分类得分的AlexNet[21]快18倍。我们将在第4.5节中评估实际运行时间。值得一提的是简单的架构设计使得ShuffleNets能够轻松配备最新的研究成果如[13, 26]。例如在[13]中作者提出了Squeeze-and-ExcitationSE块该块在大型ImageNet模型上取得了最先进的结果。我们发现SE模块与骨干ShuffleNets结合使用也有效例如将ShuffleNet 2 × 2 \times 2×的top-1错误率降低到24.7%见表5。有趣的是尽管理论复杂度增加微乎其微但我们发现在移动设备上带有SE模块的ShuffleNets通常比“原始”ShuffleNets慢25%~40%这意味着在实际加速评估中低成本架构设计至关重要。我们将在第4.5节中进行进一步讨论。 4.4 泛化能力为了评估迁移学习的泛化能力我们在MS COCO目标检测[23]任务上测试了我们的ShuffleNet模型。我们采用Faster-RCNN[28]作为检测框架并使用公开发布的Caffe代码[28, 17]进行默认设置下的训练。与[12]类似模型在COCO trainval数据集上进行训练但不包括5000张minival图像我们在minival集上进行测试。表7展示了在两个输入分辨率下训练和评估结果的比较。将复杂度相当的ShuffleNet 2 × 2 \times 2×与MobileNet524 vs. 569 MFLOPs进行比较我们的ShuffleNet 2 × 2 \times 2×在两个分辨率上都远超MobileNet我们的ShuffleNet 1 × 1 \times 1×在 600 × 600 \times 600×分辨率下也取得了与MobileNet相当的结果但复杂度降低了约4倍。我们推测这一显著增益部分归因于ShuffleNet没有使用任何复杂设计的简单架构。 4.5. 实际加速比评估最后我们在搭载ARM平台的移动设备上评估了ShuffleNet模型的实际推理速度。尽管具有较大组数例如 g 4 g4 g4或 g 8 g8 g8的ShuffleNet通常具有更好的性能但在我们当前的实现中发现其效率较低。根据经验 g 3 g3 g3通常在准确性和实际推理时间之间取得适当的平衡。如表8所示测试采用了三种输入分辨率。由于内存访问和其他开销我们发现每减少4倍的理论复杂度在我们的实现中通常只带来约2.6倍的实际加速比。然而与AlexNet [21]相比我们的ShuffleNet 0.5 × 0.5 \times 0.5×模型在可比的分类精度下仍然实现了约13倍的实际加速比理论加速比为18倍这远远快于之前的AlexNet级别的模型或加速方法如[14,16,22,42,43,38]。

查看全文

http://www.hkea.cn/news/14499117/