建网站哪便宜,深圳外贸公司联系电话,网站备案 英文,一个ip做网站文章目录 1. 梯度下降概念2. 梯度下降的技巧2.1 动态设置学习率2.2 Adagrad调整梯度2.3 随机梯度下降#xff08;SGD#xff09;2.4 特征缩放 3. 梯度下降理论基础 1. 梯度下降概念
梯度#xff1a;Loss 对参数在某一点的偏微分#xff0c;函数沿梯度的方向具有最大的变化… 文章目录 1. 梯度下降概念2. 梯度下降的技巧2.1 动态设置学习率2.2 Adagrad调整梯度2.3 随机梯度下降SGD2.4 特征缩放 3. 梯度下降理论基础 1. 梯度下降概念
梯度Loss 对参数在某一点的偏微分函数沿梯度的方向具有最大的变化率梯度下降从某点出发计算该点梯度以一定的学习率沿着该梯度的反方向移动直到梯度接近 0公式 w t 1 w t − η d L d w w_{t1} w_t - \eta \frac{dL}{dw} wt1wt−ηdwdL 2. 梯度下降的技巧
2.1 动态设置学习率
原理离终端越远学习率越大离终点越近学习率越小。公式 η t η t \eta_t \frac{\eta}{\sqrt{t}} ηtt η 其中t 是迭代次数。
2.2 Adagrad调整梯度 原理 梯度大的时候调正的步伐不一定要大要综合考虑到二阶导数的影响。通过参数的历史信息来调整学习率。 使用 Adagrad 方法更新参数的公式 η t σ t η ∑ i 1 t ( g i ) 2 \frac{\eta^t}{\sigma^t} \frac{\eta}{\sqrt{\sum_{i1}^{t} (g^i)^2}} σtηt∑i1t(gi)2 η w t 1 w t − η t σ t g t w^{t1} w^t - \frac{\eta^t}{\sigma^t} g^t wt1wt−σtηtgt 其中 σ t \sigma^t σt 是梯度平方的累加和即历史梯度的平方和的平方根。 总结化简后分子是一阶导数分母其实是反应二阶导数的影响
2.3 随机梯度下降SGD
概念不考虑所有样本每次随机选取某个或某些样本点来做梯度下降更新参数。作用 训练更迅速结果也不会太差。可能受到某些样本的影响导致不精确。
2.4 特征缩放
概念将不同的输入特征统一缩放到相同的范围或分布。
特征归一化
公式 x ′ x − min ( x ) max ( x ) − min ( x ) x \frac{x - \min(x)}{\max(x) - \min(x)} x′max(x)−min(x)x−min(x)将数据统一到特定的范围避免某些极端数据的影响。
特征标准化 公式 x ′ x − μ σ x \frac{x - \mu}{\sigma} x′σx−μ 其中 μ \mu μ 是特征的均值。 σ \sigma σ 是特征的标准差。 效果 数据更符合正态分布处理后的特征均值为 0标准差为 1。减少特征间方差的差异帮助加速收敛。
特征缩放的优点 未处理之前 Loss 是一个椭圆每次更新沿着等高线梯度方向走不是往圆心最低点走。如果不使用 Adagrad可能很难得到好的结果。 处理之后 Loss 是一个圆每次更新都往圆心最低点走容易训练。有助于模型训练和加快收敛速度。 3. 梯度下降理论基础
泰勒级数近似
理论 移动方向与梯度偏导方向相反时内积最小。发现附近以 $\theta $ 半径圈的最小值移动到那里。
使用前提
Loss function 必须是无限可微的。附近圈小可以忽略高次项意味着学习率要足够小。