做电影网站还是国外服务器,网站设计制作代码,学科基地网站建设,建站素材图片目录 第二门课: 改善深层神经网络#xff1a;超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第二周#xff1a;优化算法 (Optimization algorithms)2.3 指数加权平均数#xff08;Exponential… 目录 第二门课: 改善深层神经网络超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第二周优化算法 (Optimization algorithms)2.3 指数加权平均数Exponentially weighted averages 第二门课: 改善深层神经网络超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)
第二周优化算法 (Optimization algorithms)
2.3 指数加权平均数Exponentially weighted averages
我想向你展示几个优化算法它们比梯度下降法快要理解这些算法你需要用到指数加权平均在统计中也叫做指数加权移动平均我们首先讲这个然后再来讲更复杂的优化算法。 虽然现在我生活在美国实际上我生于英国伦敦。比如我这儿有去年伦敦的每日温度所以1 月 1 号温度是 40 华氏度相当于 4 摄氏度。我知道世界上大部分地区使用摄氏度但是美国使用华氏度。在 1 月 2 号是 9 摄氏度等等。在年中的时候一年 365 天年中就是 说大概 180 天的样子也就是 5 月末温度是 60 华氏度也就是 15 摄氏度等等。夏季温度转暖然后冬季降温。
你用数据作图可以得到以下结果起始日在 1 月份这里是夏季初这里是年末相当于 12 月末。这里是 1 月 1 号年中接近夏季的时候随后就是年末的数据看起来有些杂乱如果要计算趋势的话也就是温度的局部平均值或者说移动平均值。 你要做的是首先使0 0每天需要使用 0.9 的加权数之前的数值加上当日温度的0.1 倍即1 0.90 0.11所以这里是第一天的温度值。第二天又可以获得一个加权平均数0.9 乘以之前的值加上当日的温度 0.1 倍即2 0.91 0.12以此类推。第二天值加上第三日数据的 0.1如此往下。大体公式就是某天的等于前一天值的 0.9加上当日温度的 0.1。
如此计算然后用红线作图的话便得到这样的结果。 看一下上一张幻灯片里的公式 0.9−1 0.1我们把 0.9 这个常数变成将之 前的 0.1 变成(1 − )即 v t β v t − 1 ( 1 − β ) θ t v_t βv_{t−1} (1 − β)θ_t vtβvt−1(1−β)θt
由于以后我们要考虑的原因在计算时可视大概是 1(1−)的每日温度如果是 0.9你会想这是十天的平均值也就是红线部分。
我们来试试别的将设置为接近 1 的一个值比如 0.98计算 1(1−0.98) 50这就是粗略平均了一下过去 50 天的温度这时作图可以得到绿线。 这个高值要注意几点你得到的曲线要平坦一些原因在于你多平均了几天的温度所以这个曲线波动更小更加平坦缺点是曲线进一步右移因为现在平均的温度值更多要平均更多的值指数加权平均公式在温度变化时适应地更缓慢一些所以会出现一定延迟因为当 0.98相当于给前一天的值加了太多权重只有 0.02 的权重给了当日的值所以温度变化时温度上下起伏当 较大时指数加权平均值适应地更缓慢一些。
我们可以再换一个值试一试如果是另一个极端值比如说 0.5根据右边的公式1(1−)这是平均了两天的温度。
作图运行后得到黄线。 由于仅平均了两天的温度平均的数据太少所以得到的曲线有更多的噪声有可能出现异常值但是这个曲线能够更快适应温度变化。
所以指数加权平均数经常被使用再说一次它在统计学中被称为指数加权移动平均值我们就简称为指数加权平均数。通过调整这个参数或者说后面的算法学习你会发现这是一个很重要的参数可以取得稍微不同的效果往往中间有某个值效果最好为中间值时得到的红色曲线比起绿线和黄线更好地平均了温度。
现在你知道计算指数加权平均数的基本原理下一个视频中我们再聊聊它的本质作用。