当前位置：首页 > news >正文

新手怎么做网站推广珠海专业网站建设费用

news 2026/4/17 12:13:21

新手怎么做网站推广,珠海专业网站建设费用,ssh课程网站开发,免费源码的商城网站1. RBM 1.1 BM BM是由Hinton和Sejnowski提出的一种随机递归神经网络#xff0c;可以看做是一种随机生成的 Hopfield网络#xff0c;是能够通过学习数据的固有内在表示解决困难学习问题的最早的人工神经网络之一#xff0c;因样本分布遵循玻尔兹曼分布而命名为BM。BM由二…1. RBM 1.1 BM BM是由Hinton和Sejnowski提出的一种随机递归神经网络可以看做是一种随机生成的 Hopfield网络是能够通过学习数据的固有内在表示解决困难学习问题的最早的人工神经网络之一因样本分布遵循玻尔兹曼分布而命名为BM。BM由二值神经元构成每个神经元只取1或0这两种状态状态1代表该神经元处于接通状态状态0代表该神经元处于断开状态。在下面的讨论中单元和节点的意思相同均表示神经元。上图为一个玻尔兹曼机BM其蓝色节点为隐层白色节点为输入层。玻尔兹曼机和递归神经网络相比区别体现在以下几点 ①递归神经网络RNN本质是学习一个映射关系因此有输入和输出层的概念而玻尔兹曼机的用处在于学习一组数据的“内在表示”因此其没有输出层的概念。 ②递归神经网络各节点链接为有向环而玻尔兹曼机各节点连接成无向完全图。 1.2 RBM 限制玻尔兹曼机中所谓的限制就是将完全图变成了二分图。如图所示限制玻尔兹曼机由三个显层节点和四个隐层节点组成。 RBM中所有可见单元和隐单元之间存在连接而隐单元两两之间和可见单元两两之间不存在连接也就是层间全连接层内无连接这也是和玻尔兹曼机BM模型的区别BM是层间、层内全连接。其中每一个节点无论是Hidden Unit还是Visible Unit都有两种状态处于激活状态时值为1未被激活状态值为0。这里的0和1状态的意义是代表了模型会选取哪些节点来使用处于激活状态的节点被使用未处于激活状态的节点未被使用。节点的激活概率由可见层和隐藏层节点的分布函数计算。 RBM本质是无监督学习Unsupervised Learning的利器Hinton和吴恩达都认为将来的机器学习任务慢慢都会转变为无监督学习的因为它可以用于降维隐层少一点学习特征隐层输出就是特征自编码器AutoEncoder以及深度信念网络多个RBM堆叠而成等。 RBM是两层神经网络这些浅层神经网络是DBN深度信念网络的构建块RBM的第一层被称为可见层或输入层他的第二层被称为输出层。上图的每一个圆圈代表一个类似的神经元节点这个节点通常是产生计算的地方相邻层的节点是连接的但是同层的节点是不连接的。每个输入单元以数据集样本中的低级特征作为输入。例如对于一个由灰度图组成的数据集每个输入节点都会接收图像中的一个像素值。MNIST 数据集有784个像素点所以处理它们的神经网络必须有784个输入节点。现在让我们跟随单像素穿过这两层网络。在隐藏层的节点1x和一个权重相乘然后再加上一个偏置项。这两个运算的结果可作为非线性激活函数的输入在给定输入x时激活函数能给出这个节点的输出或者信号通过它之后的强度。这里其实和我们常见的神经网络是一样的过程。 activation f((weight w*input x)bias b)output a 如果这两层是更深网络的一部分那么第一个隐藏层的输出会被传入到第二个人隐藏层作为输入从这里开始就可以有很多隐藏层直到他们增加到最终的分类层对于简单的前馈网络 RBM起着自编码器的作用除此之外别无其它。 1.3 重建Reconstruction 但是在本文关于RBM的介绍中我们会集中讨论它们如何以一种无监督的方式通过自身来重建数据这使得在不涉及更深层网络的情况下可见层和第一个隐藏层之间会存在数次前向和反向传播。在重建阶段第一个隐藏层的激活状态变成了反向传递过程中的输入。它们与每个连接边相同的权重相乘就像x在前向传递的过程中随着权重调节一样。这些乘积的和在每个可见节点处又与可见层的偏置项相加这些运算的输出就是一次重建也就是对原始输入的一个逼近。这可以通过下图表达因为RBM的权重是随机初始化的所以重建结果和原始输入的差距通常会比较大。你可以将r和输入值之间的差值看做重建误差然后这个误差会沿着 RBM的权重反向传播以一个迭代学习的过程不断反向传播直到达到某个误差最小值。在前向传递过程中给定权重的情况下 RBM 会使用输入来预测节点的激活值或者输出的概率 xpax w。但是在反向传播的过程中当激活值作为输入并输出原始数据的重建或者预测时RBM 尝试在给定激活值a的情况下估计输入x的概率它具有与前向传递过程中相同的权重参数。这第二个阶段可以被表达为pxaw 这两个概率估计将共同得到关于输入x和激活值a的联合概率分布或者pxa。重建与回归有所不同也不同于分类。回归基于很多输入来估计一个连续值分类预测出离散的标签以应用在给定的输入样本上而重建是在预测原始输入的概率分布。这种重建被称之为生成学习它必须跟由分类器执行的判别学习区分开来。判别学习将输入映射到标签上有效地在数据点与样本之间绘制条件概率。若假设 RBM的输入数据和重建结果是不同形状的正态曲线它们只有部分重叠。在RBM中任意两个相连的神经元之间有一个权值w表示其连接强度每个神经元都有一个偏置系数b对显层神经元和c对隐层神经元来表示自身权重。这样就可以用一个函数来表示一个RBM的能量在一个RBM中一个隐藏神经元 hj 被激活的概率由于是双向连接显层神经元也可以被隐层神经元激活其中σ代表代表sigmoid函数也可以设定其他函数。为了衡量输入数据的预测概率分布和真实分布之间的距离RBM使用KL散度来度量两个分布的相似性。KL散度测量的是两条曲线的非重叠区域或者说发散区域RBM的优化算法尝试最小化这些区域所以当共享权重与第一个隐藏层的激活值相乘时就可以得出原始输入的近似。图的左边是一组输入的概率分布p及其重构分布q图的右侧是它们的差的积分。迭代的根据它们产生的误差来调节权重RBM学会了逼近原始数据你可以说权重在慢慢地反应输入数据的结构并通过隐藏层的激活值进行编码学习过程就像两个概率分布在逐渐重合。 2. KL散度 2.1 例子假设我们是一群太空科学家经过遥远的旅行来到了一颗新发现的星球。在这个星球上生存着一种长有牙齿的蠕虫引起了我们的研究兴趣。我们发现这种蠕虫生有10颗牙齿但是因为不注意口腔卫生又喜欢嚼东西许多蠕虫会掉牙。收集大量样本之后我们得到关于蠕虫牙齿数量的经验分布显然我们的原始数据并非均分布的但也不是我们已知的分布至少不是常见的分布。作为备选我们想到的另一种简单模型是二项式分布binomlal distribution。蠕虫嘴里面共有n10个牙槽每个牙槽出现牙齿与否为独立事件且概率均为p。则蠕虫牙齿数量即为期望值E[x]np真实期望值即为观察数据的平均值比如说5.7则p0.57得到如下图所示的二项式分布 KL散度源于信息论。信息论主要研究如何量化数据中的信息。最重要的信息度量单位是熵 Entropy一般用H表示。分布的熵的公式如下上面对数没有确定底数可以是2、e或10等等。如果我们使用以2为底的对数计算H值的话可以把这个值看作是编码信息所需要的最少二进制位个数(bits)。上面空间蠕虫的例子中信息指的是根据观察所得的经验分布给出的蠕虫牙齿数量。计算可以得到原始数据概率分布的熵值为 3.12 bits。这个值只是告诉我们编码蠕虫牙齿数量概率的信息需要的二进制位bit的位数。 2.2 KL散度度量信息损失只需要稍微修改熵H的计算公式就能得到KL散度的计算公式设p为观察得到的概率分布q为另一分布来近似p则p、q的KL散度为显然根据上面的公式KL散度其实为数据的原始分布p与近似分布q之间的对数差值的期望如果继续用2为底的对数计算用KL散度值表示信息损失的二进制位数下面用公式以期望表达KL散度一般KL散度以下面的书写更常见对比两种分布首先是均匀分布来近似原始分布的KL散度接下来计算用二项分布通过上面的计算可以看出通过均匀分布近似原始分布的信息损失要比二项分布的值小因此在这个例子中均匀分布更好一些。 3 DBN 3.1 多层受限玻尔兹曼机一旦 RBM 学到了与第一隐藏层激活值有关的输入数据的结构那么数据就会沿着网络向下传递一层。你的第一个隐藏层就成为了新的可见层或输入层。这一层的激活值会和第二个隐藏层的权重相乘以产生另一组的激活。这种通过特征分组创建激活值集合序列并对特征组进行分组的过程是特征层次结构的基础通过这个过程神经网络学到了更复杂的、更抽象的数据表征。它们是一种无向图模型也被称作马尔科夫随机场。了解工作原理之后就可以看看RBM是如何通过数据学习的了 RBM共有五个参数h、v、b、c、W其中b、c、W也就是相应的权重和偏置值是通过学习得到的。v是输入向量h是输出向量对于一条样本数据x采用对比散度算法对其进行训练将x赋给显层的利用2式计算出隐层中每个神经元被激活的概率Ph1v1; 从计算的概率分布中采取Gibbs抽样抽取一个样本用h1重构显层即通过隐层反推显层利用3式计算显层中每个神经元被激活的概率P v2h1 同样地从计算得到的概率分布中采取Gibbs抽样抽取一个样本通过v2再次计算隐层中每个神经元被激活的概率得到概率分布Ph2v2 更新权重若干次训练后隐层不仅能较为精准地显示显层的特征同时还能够还原显层当隐层神经元数量小于显层时则会产生一种“数据压缩”的效果也就类似于自动编码器。 3.2 多层置信网络结构首先你需要用原始输入x(k)训练第一个RBM它能够学习得到原始输入的一阶特征表示 h^{(1)(k)}。接着你需要把原始数据输入到上述训练好的稀疏自编码器中对于每一个输入 x(k)都可以得到它对应的一阶特征表示 h^{(1)(k)}。然后你再用这些一阶特征作为另一个稀疏自编码器的输入使用它们来学习二阶特征 h^{(2)(k)}。再把一阶特征输入到刚训练好的第二层稀疏自编码器中得到每个h^{(1)(k)} 对应的二阶特征激活值 h^{(2)(k)}。接下来你可以把这些二阶特征作为softmax分类器的输入训练得到一个能将二阶特征映射到数字标签的模型。最终你可以将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器层的栈式自编码网络这个网络能够如你所愿地对MNIST数字进行分类。 DBNs由多个限制玻尔兹曼机Restricted Boltzmann Machines层组成一个典型的神经网络类型如图所示。最终在构筑好整个网络后相当于进行了一次完整的无监督学习。在确定了网络的权值后再次根据样本以BP神经网络的算法进行一次有监督的学习过程。这一过程被称为多层置信网络的微调。

查看全文

http://www.hkea.cn/news/14301003/