当前位置: 首页 > news >正文

企业可以备案几个网站网站策划素材

企业可以备案几个网站,网站策划素材,多语网站wordpress子站点,大连金广建设集团网站数值稳定性 模型初始化和激活函数 数值稳定性 神经网络的梯度 考虑如下d层的神经网络#xff08;t代表层#xff09; 计算损失 l 关于参数 Wt 的梯度#xff1a; 这样的矩阵乘法带来的问题#xff1a; #xff08;1#xff09;梯度爆炸 #xff08;2#xff09;梯度…数值稳定性 模型初始化和激活函数 数值稳定性 神经网络的梯度 考虑如下d层的神经网络t代表层 计算损失 l 关于参数 Wt 的梯度 这样的矩阵乘法带来的问题 1梯度爆炸 2梯度消失 例子MLP 加入如下MLP省略偏移 进行累乘 (1) 梯度爆炸 使用ReLU 作为激活函数 假设W中的值都大于1那么会得到很大的值梯度爆炸 梯度爆炸的问题 值超出值域(infinity) 对于 16位浮点数尤为严重(数值区间 6e-5-6e4) 对学习率敏感 如果学习率太大 -大参数值 -更大的梯度如果学习率太小-训练无进展我们可能需要在训练过程不断调整学习率 (2) 梯度消失 使用 sigmoid作为激活函数 当输入相对较大的时候激活函数的导数会变成0 梯度消失的问题 梯度值变成 0 对 16 位浮点数尤为严重 训练没有进展 不管如何选择学习率 对于底部层尤为严重 仅仅顶部层训练的较好无法让神经网络更深和一个很浅的神经网络没有区别 反向传播更新参数w越来越小最终趋于零也失去了学习的必要 总结 当数值过大或者过小时会导致数值问题常发生在深度模型中因为其会对n个数累乘 让训练更加稳定 目标:让梯度值在合理的范围内例如[le-6,1e3] 将乘法变加法 ResNet, LSTM 归一化将梯度变成均值为0方差为1 梯度归一化梯度裁剪 合理的权重初始和激活函数 模型初始化和激活函数 让每层的方差是一个常数 将每层的输出和梯度都看做随机变量让它们的均值和方差都保持一致 t: 第t层i: 第i个变量 假设我们想要的输出如下所有的输出和梯度的均值、方差 都在一个常数 权重初始化 在合理值区间里随机初始参数训练开始的时候更容易有数值不稳定 远离最优解的地方损失函数表面可能很复杂最优解附近表面会比较平 使用 N(0,0.01)来初始可能对小网络没问题但不能保证深度神经网络 如何保证之前的假设成立呢 例子MLP 假设 i.i.d独立同分布均值E为0Var方差为一个常数当前层的权重和当前层的输入是一个独立事件。 假设没有激活函数 实现的目标中的 正向方差 【方差公式】方差等于平方的期望减去期望的平方方差D(X)E(X^ 2)-E(X)^2 对于和的平方 等价于 每一项的平方不相等的交叉项的乘积和 第二行的加号后面的累加为0的原因是之前假设了wt_i,j是独立的同分布即 i.i.d那么w_t_i,j的均值就为0即Ewti,j0即 E第二行第二项0 方差 平方的期望 - 期望的平方 现在期望的平方等于0所以方差 平方的期望可得到第四行 n_t-1当前第t层的输入的维度 接下来看 反向的均值和方差 注意 (AB)转置B转置xA转置 和正向类似老师并没有细推 Xavier初始化常用的权重初始化的方法 基于该方式对某层权重初始化时该层权重的初始化会根据该层的输入维度、输出维度来决定如权重的方差尤其是当 输入输出维度不一定、或网络变化比较大时可以根据输入输出维度来适配权重使得输出的方差和梯度都在恒定合理的范围内 满足正向和反向的条件很难但可以取一个折中的方法即 给定当前第t层的输入维度nt-1和输出维度nt的大小那么就可以由这俩得到当前第t层的权重的方差γt。 假设 线性的激活函数只是为了简单理论分析实际上不可能用线性的激活函数 这就说明为了使正向的输出为均值为0、方差为固定值则要求线性激活函数的α1、β0即为 输入x本身 反向与正向类似 也说明激活函数必须是f(x)x 最后检查真正的激活函数因为激活函数都是非线性的而上面是以线性激活函数举例的如使用泰勒展开 可以发现下图中tanh和relu在原点处基本都是f(x)x虽然sigmoid不过原点但经过调整后的sigmoid如下图中蓝线即 乘四再减二后也是过原点且在原点处近似为f(x)x即 经过调整后的sigmoid函数也能解决以前原sigmoid存在的问题 为何只关注在0点附近的表现是否能满足f(x)x的要求因为一般神经网络的权重w的取值都是在0附近的。 QA 问题nan、inf如何产生以及怎么解决 inf就是太大即一般是lr太大或 权重初始化时太大了 nan一般是 除0了 解决 合理初始化权重权重的初始 一般均值为0方差小一点当能出现正确的值之后 再慢慢调大权重的方差使得训练有进展 选择合适的激活函数、选择合适大小的lr一般是把lr一直往小调 直到inf、nan不出现 问题使用ReLU激活函数是如何做到拟合x平方或者三次方这种曲线的? 不是单独的relu来拟合而是relu学习到的权重w 共同作用只是基于relu提供非线性的特性 问题梯度消失可以说是因为使用了sigmoid激活函数引起的对吗?所以我们可以用ReLU替换sigmoid解决梯度消失的问题? 梯度消失产生的原因有很多种sigmoid只是其中的一种可能 用ReLU替换 可以降低 产生梯度消失的概率但不确保一定能完全解决 问题梯度爆炸是由什么激活函数引起的吗? 爆炸的产生和激活函数无关一般都是由每层的输出太大 然后多个层累乘引起的 问题resnet还是会出现数值稳定性? 各种技术都是在缓解、减轻问题但不是完全解决用ResNet只是会让数值稳定性更好一点整个深度学习的进展都是在 让数值更加稳定 总结 合理的权重初始值和激活函数的选取可以提升数值稳定性
http://www.hkea.cn/news/14545568/

相关文章:

  • 买实体服务器做网站卡盟网站制作教程
  • 福州 网站建设拼多多标题关键词优化方法
  • 驻马店营销型网站建设优化推广六安建设局网站
  • 网站建设最好用什么语言濮阳建设公司网站
  • 做网站和网页的目的和作用是什么如何做网站推广
  • 涡阳网站建设php 大型网站开发教程
  • 通州建设网站点子网创意网
  • 做网站的企业有哪些合肥网站模板建站
  • 网站建设佰金手指科杰二六多用户小程序系统开发
  • 公司网站标题优化立码软件做网站
  • 郑州网站排名优化外包网站建设推广seo
  • 做影视网站 片源从哪里来做网上竞猜网站合法吗
  • 济南优化网站基层建设 网站
  • 网站开发工程师职责怎样给网站做关键词优化
  • 哈尔滨关键词优化排行企业seo顾问
  • 强企网做网站中国建筑是国企还是央企
  • 南海网站建设公司com域名是哪个国家的
  • 百度商桥怎样绑定网站wordpress the_terms
  • 有没有让人做问卷的网站广东石油化工建设集团公司网站
  • 程序员开源网站荆州seo技术厂家
  • 天眼查网站建设公司韶关住房和城乡建设局网站
  • 自己做响应式网站难吗为什么做电影网站没有流量
  • 企业网站 单页织梦手机网站制作
  • 网站开发台州重庆顶呱呱网站建设
  • 动易网站地图盈利网站
  • 安徽经工建设集团网站中国建筑企业
  • 做企业网站怎么样电商如何推广产品
  • 网站建设与管理管理课程新媒体是什么
  • 宿迁网站建设排名wordpress 微博 主题
  • 宿迁网站建设怎么收费教育类网站开发公司