河南免费网站建设,登陆建设官方网站,wordpress 仿neoeaae,中国建设银行什么是网站用户名文章目录1、没有使用残差连接的网络难以训练2、loss 不下降的原因3、使用了残差连接的网络可以高效训练1、没有使用残差连接的网络难以训练
经典的 SegNet 网络结构如下#xff1a; 在使用上图所示的 SegNet 作为噪声预测网络训练扩散模型#xff08;DDPM#xff09;时 在使用上图所示的 SegNet 作为噪声预测网络训练扩散模型DDPM时遇到了 loss 无法下降的问题
可以看到loss 值快速下降到一个固定值就不再下降了。我尝试多次调整学习率依然如此。
2、loss 不下降的原因
从模型训练的本质上来看loss 值固定就表示模型参数没有变化即参数没有更新。那么参数为什么或没有更新呢
梯度下降法更新参数的原理为 所以参数没有更新的原因极有可能是梯度为0即出现了 “梯度消失” 的现象。事实上SegNet 有 20个卷积层和10个上/下采样层总共有30层。这是一个层数比较多的网络因此出现梯度消失是很正常的。
为了解决 “梯度消失” 的问题我们自然能想到使用残差连接这是解决梯度消失最有效的方法之一。
3、使用了残差连接的网络可以高效训练
下图是我在 SegNet 加了四个残差连接红色箭头的网络结构 loss 变化为 可以明显看到仅仅加了几个残差连接网络就可以顺利地训练了。