当前位置：首页 > news >正文

ps如何做ppt模板下载网站企业网站cms

news 2026/4/7 17:20:41

ps如何做ppt模板下载网站,企业网站cms,windows10系统优化,上海网站建设公司站霸网络Batch Normalization 称为批标准化。批是指一批数据，通常为 mini-batch；标准化是处理后的数据服从 N ( 0 , 1 ) N(0,1) N(0,1) 的正态分布。在训练过程中，数据需要经过多层的网络，如果数据在前向传播的过程中，尺度发…

在这里插入图片描述

Batch Normalization

称为批标准化。批是指一批数据，通常为 mini-batch；标准化是处理后的数据服从 $N (0, 1)$ 的正态分布。在训练过程中，数据需要经过多层的网络，如果数据在前向传播的过程中，尺度发生了变化，可能会导致梯度爆炸或者梯度消失，从而导致模型难以收敛。

假设输入的 mini-batch 数据是 $B={x_1...x_m}$ ，Batch Normalization 的可学习参数是 $\gamma, \beta$ ，步骤如下：

求 mini-batch 的均值： $\mu_B\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}x_i$
求 mini-batch 的方差： $\sigma_B^2\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}(x_i-\mu _B)$
标准化： $\widehat{x_i} \gets \frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon } }$ ，其中 $\epsilon$ 是防止分母为 0 的一个数。
affine transform(缩放和平移)： $y_i\gets \gamma \widehat{x_i} +\beta\equiv BN_{r,\beta}(x_i)$ ，这个操作可以增强模型的 capacity，也就是让模型自己判断是否要对数据进行标准化，进行多大程度的标准化。如果
$\gamma=\sqrt{\sigma_B^2}, \beta=\mu_B$ ，那么就实现了恒等映射（前三步做标准化，这步做标准化的反变换）。

Batch Normalization 层一般在激活函数前一层。

在 PyTorch 中，有 3 个 Batch Normalization 类：

nn.BatchNorm1d()，输入数据的形状是 $\times C \times 1D feature(L)$ ：length
nn.BatchNorm2d()，输入数据的形状是 $\times C \times 2D feature(H \times W)$ ：hight, weight
nn.BatchNorm3d()，输入数据的形状是 $\times C \times 3D feature(T \times H \times W)$ ：time, hight, weight

torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

num_features：一个样本的特征维度C，这个参数最重要
eps：在进行标准化操作时的分布修正项
momentum：指数加权平均估计当前的均值和方差
affine：是否需要 affine transform，默认为 True
track_running_stats：True 为训练状态，此时均值和方差会根据每个 mini-batch 改变。False 为测试状态，此时均值和方差会固定

例如，输入数据的形状是 $\times C \times 2D feature$ ，(3, 2, 2, 2, 3)，表示一个 mini-batch 有 3 个样本，每个样本有 2 个特征，每个特征的维度是 2 x 2 x3。那么就会计算 2 个均值和方差，分别对应每个特征维度。momentum 设置为 0.3，第一次的均值和方差默认为 0 和 1。输入两次 mini-batch 的数据。

Layer Normalization

提出的原因：Batch Normalization 不适用于变长的网络，如 RNN

思路：每个网络层计算均值和方差， $\gamma$ 和 $\beta$ 为逐样本的可学习参数。

torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True)

normalized_shape：该层每个样本特征的形状，可以取 $\times H \times W$ 、 $\times W$ 、 $W$
eps：标准化时的分母修正项
elementwise_affine：是否需要逐个样本 affine transform

例如，输入数据的形状是 $\times C \times feature$ ，(8, 2, 3, 4)，表示一个 mini-batch 有 8 个样本，每个样本有 2 个特征，每个特征的维度是 3 x 4。那么就会计算 8 个均值和方差，分别对应每个样本。

查看全文

http://www.hkea.cn/news/575502/

日本真人做爰无遮挡视频免费网站嘉兴关键词优化报价

忻州市中小企业局网站贵州整站优化seo平台

网页怎么制作超链接seo兼职接单平台

网站建设中应注意哪些问题重庆整站seo

贵阳网站建设哪家便宜微商软文范例大全100

怎么在微信上做网站竞价交易

wordpress优化版4.7.4网站seo设计

网上课程网站精准客户数据采集软件

专业网站建设报价外呼系统电销

网站建设公司价格差别seo还有哪些方面的优化

哪家公司建造了迪士尼乐园关键词优化推广排名多少钱

做教育的网站有哪些内容吗湖南网站营销推广

wordpress 跳过ftp搜索引擎排名优化方案

360做的网站北京营销推广公司

我国政府网站建设的趋势宁波seo公司排名榜

高端网站建设，恩愉科技专业的seo搜索引擎优化培训

Batch Normalization

Layer Normalization

相关文章：