当前位置: 首页 > news >正文

网站初期如何推广的网站 建设平台分析报告

网站初期如何推广的,网站 建设平台分析报告,珠海网站建设方案优化,html产品介绍网页设计代码作业Eric Jang: A Beginners Guide to Variational Methods: Mean-Field Approximation (evjang.com) 一、说明 变分贝叶斯 (VB) 方法是统计机器学习中非常流行的一系列技术。VB 方法允许我们将 统计推断 问题#xff08;即#xff0c;给定另一个随机变量的值来推断随机变量的值s Guide to Variational Methods: Mean-Field Approximation (evjang.com) 一、说明         变分贝叶斯 (VB) 方法是统计机器学习中非常流行的一系列技术。VB 方法允许我们将 统计推断 问题即给定另一个随机变量的值来推断随机变量的值重写为优化 问题即找到最小化某些目标函数的参数值本文将阐述这种精妙模型。 二、文章绪论 2.1 VB的概念         变分贝叶斯 (VB) 方法是统计机器学习中非常流行的一系列技术。VB 方法允许我们将 统计推断 问题即给定另一个随机变量的值来推断随机变量的值重写为优化 问题即找到最小化某些目标函数的参数值。         这种推理-优化二元性非常强大因为它允许我们使用最新、最好的优化算法来解决统计机器学习问题反之亦然使用统计技术最小化函数。         这篇文章是变分方法的介绍性教程。我将导出最简单的 VB 方法的优化目标称为平均场近似。这个目标也称为 变分下界与变分自编码器中使用的目标完全相同一篇简洁的论文我将在后续文章中对其进行解释。   2.2 本文目录 预备知识和符号问题表述平均场近似的变分下界正向 KL 与反向 KL与深度学习的联系 三、预备知识和符号         本文假设读者熟悉随机变量、概率分布和期望等概念。  如果您忘记了一些东西这里有一个回顾。机器学习和统计符号的标准化不是很好因此在这篇文章中使用非常精确的符号会很有帮助 大写X表示随机变量大写P( X表示该变量的概率分布小写x∼P _ _( X表示一个值X采样从概率分布磷( X通过一些生成过程。小写p ( X是分布的密度函数X。它是测度空间上的标量函数X。p ( X x )速记p ( x )) 表示在特定值下评估的密度函数X。          许多学术论文交替使用术语“变量”、“分布”、“密度”甚至“模型”。这本身不一定是错误的因为X,磷( X 和p ( X所有这些都通过一一对应来相互暗示。 然而将这些词混合在一起会令人困惑因为它们的类型不同对函数进行采样没有意义对分布进行积分也没有意义。            我们将系统建模为随机变量的集合其中一些变量X是“可观察的”而其他变量Z是“隐藏的”。我们可以通过下图来画出这种关系                                              边缘绘制自Z到X通过条件分布将两个变量联系在一起磷( X| Z。         这是一个更具体的例子X可能代表“图像的原始像素值”而Z是一个二元变量使得Z 1“如果X是一只猫的图像”。   X  P( Z 1 )  1肯定是猫 X P( Z 1 )  0绝对不是猫 X  P( Z 1 )  0.1有点像猫 贝叶斯定理为我们提供了任意一对随机变量之间的一般关系   p ( Z| Xp ( X| Z) p ( Zp ( X 其中的各个部分都与通用名称相关联 p ( Z| X是后验概率“给定图像这是一只猫的概率是多少” 如果我们可以从z∼ P( Z| X我们可以用它来制作一个猫分类器告诉我们给定的图像是否是猫。 p ( X| Z是可能性“给定值为Z  这计算了该图像的“可能性”X属于该类别{“is-a-cat”/“is-not-a-cat”}。如果我们可以从x∼P _ _( X| Z然后我们生成猫的图像和非猫的图像就像生成随机数一样容易。如果您想了解更多信息请参阅我关于生成模型的其他文章[1]、[2]。 p ( Z是先验概率。这捕获了我们所知道的任何先前信息Z- 例如如果我们认为现有的所有图像中有 1/3 是猫那么p ( Z 1 ) 13和p ( Z 0 ) 23。   3.1 作为先验的隐藏变量         这是感兴趣的读者的旁白。跳到下一部分继续学习本教程。         前面的猫示例展示了观察变量、隐藏变量和先验的非常传统的示例。然而重要的是要认识到隐藏变量/观察变量之间的区别有些任意并且您可以随意分解图形模型。 我们可以通过交换术语来重写贝叶斯定理   p ( Z| X) p ( Xp ( Z p ( X| Z         所讨论的“后”是现在磷( X| Z。隐藏变量可以从贝叶斯统计         框架 解释  为  附加到观察到的变量的先验信念。例如如果我们相信X是多元高斯分布隐藏变量Z可能代表高斯分布的均值和方差。参数分布磷( Z那么 先验 分布为磷( X。         您还可以自由选择哪些值X和Z代表。例如Z可以改为“平均值、方差的立方根以及X Y在哪里是∼ N( 0 , 1 )”。这有点不自然和奇怪但结构仍然有效只要磷( X| Z进行相应修改。         您甚至可以向系统“添加”变量。先验本身可能依赖于其他随机变量磷( Z| θ)它们有自己的先验分布磷( θ )并且那些仍然有先验等等。任何超参数都可以被认为是先验。在贝叶斯统计中 先验一直向下。   3.2 问题表述         我们感兴趣的关键问题是后验推理或者隐藏变量的计算函数。Z。后验推理的一些典型例子 鉴于这段监控录像X嫌疑人出现在其中吗鉴于此推特提要X作者郁闷吗鉴于历史股价X1 : t − 1什么会Xt是          我们通常假设我们知道如何计算似然函数上的函数磷( X| Z和先验磷( Z。         问题是对于上面这样的复杂任务我们通常不知道如何从中采样磷( Z| X或计算p ( X| Z。或者我们可能知道以下形式p ( Z| X但相应的计算非常复杂我们无法在合理的时间内对其进行评估。我们可以尝试使用基于采样的方法例如MCMC但这些方法收敛速度很慢。   四、平均场近似的变分下界         变分推理背后的想法是这样的让我们对一个简单的参数分布进行推理问φ( Z| X如高斯我们知道如何进行后验推理但调整参数φ以便问φ是一样接近磷尽可能。         下面直观地说明了这一点蓝色曲线是真正的后验分布绿色分布是我们通过优化拟合到蓝色密度的变分近似高斯。   分布“接近”意味着什么平均场变分贝叶斯最常见的类型使用反向 KL 散度作为两个分布之间的距离度量。              反向 KL 散度衡量信息量以 nat 或单位为单位需要“扭曲”使其适应。我们希望最大限度地减少这个数量。         根据条件分布的定义 。让我们把这个表达式替换成我们原来的表达式KL表达式然后分布 尽量减少 关于变分参数φ我们只需最小化    因为 相对于固定φ。让我们将这个数量重写为分布的期望  。         最小化这个相当于 最大化 这个函数的负数 在文学中被称为变分下界并且如果我们可以评估则在计算上是易于处理的。我们可以进一步重新排列术语产生直观的公式         如果抽样 是一个转换观察结果的“编码”过程X到潜在代码z然后采样 是一个“解码”过程从z。         它遵循L是预期“解码”可能性的总和我们的变分分布可以解码样本的效果如何Z回到样本X)加上变分近似与先验之间的 KL 散度Z。如果我们假设Q Z| X是条件高斯的然后先验Z通常选择均值为 0、标准差为 1 的对角高斯分布。         为什么L称为变分下界替代L回到方程。(1)我们有         等式的含义 (4)用通俗的语言来说就是数据点的对数似然X在真实分布下是 加上一个误差项 捕获之间的距离 和 在该特定值。         自从KL ( Q | | P) ≥ 0,日志p ( x )必须大于L。所以L是下界_日志p ( x )。L也称为证据下界 (ELBO)通过替代公式   L 对数p ( x ) − KL ( Q ( Z| X) | | 磷( Z| X) ) 乙问[日志p ( x | z) ] −KL ( Q ( Z| X) | | 磷( Z) ) 注意L本身包含近似后验和先验之间的 KL 散度项因此总共有两个 KL 项日志p ( x )。   4.1 正向 KL 与反向 KL         KL散度不是对称 距离函数即 除非当Q  P第一种称为“正向KL”而后者则称为“反向KL”。那么为什么我们要使用Reverse KL呢这是因为由此产生的推导需要我们知道如何计算这就是我们首先想做的。         我真的很喜欢 Kevin Murphy 在PML 教科书中的解释我将尝试在这里重新表述         让我们首先考虑前锋 KL。正如我们从上面的推导中看到的我们可以将 KL 写成“惩罚”函数的期望通过权重函数p ( z。         无论何时惩罚函数都会对总 KL 造成损失。因为, 。这意味着无论在哪里前向 KL 都会很大 未能“掩盖”。         因此当我们确保 无论在哪里。优化的变分分布 被称为“避免零”当密度避免为零时p ( Z为零。 最小化 Reverse-KL 具有完全相反的行为 KL ( Q | | PΣzq( z)记录q( zp ( z乙p ( z[日志q( zp ( z]   如果p ( Z)  0我们必须保证权重函数q( Z)  0无论分母在哪里p ( Z)  0否则 KL 就会爆炸。这称为“迫零”         总而言之最小化前向 KL 会“拉伸”你的变分分布Q Z覆盖整个P( Z就像防水布一样同时最大限度地减少反向KL“挤压”Q Z 在下面 P( Z。         在机器学习问题中使用平均场近似时请务必牢记使用反向 KL 的含义。如果我们将单峰分布拟合到多峰分布我们最终会得到更多的假阴性实际上有概率质量P( Z我们认为没有的地方Q Z。   4.2 与深度学习的联系         变分方法对于深度学习非常重要。我将在后面的文章中详细阐述但这里有一个快速剧透 深度学习非常擅长使用大量数据对非常大的参数空间进行优化特别是梯度下降。变分贝叶斯为我们提供了一个框架通过它我们可以将统计推理问题重写为优化问题。         深度学习和 VB 方法的结合使我们能够对极其复杂的后验分布 进行推理。事实证明像变分自动编码器这样的现代技术优化了本文中导出的完全相同的平均场变分下界         感谢您的阅读敬请关注
http://www.hkea.cn/news/14544602/

相关文章:

  • ps做淘宝网站导航栏建设网站计入什么科目
  • 合肥制作网站邯郸网站制作设计
  • 高端网站定制开发深圳甘肃做网站的公司有哪些
  • 网站宣传夸大处罚电子商务网站建设 臧良运 好不好
  • 营销型企业网站测评表简述建设一个商务网站的过程
  • 中国建设工程网站沈阳网站建设方案
  • 那些语言可以建网站广州平面设计线下培训班
  • 南京网站制作的价格有哪些单页网站
  • 自己做网站卖什么wordpress标签分类
  • se 网站优化教学网站模板
  • 赣州住房与城乡建设厅网站企业设计网站公司有哪些
  • 云南效果好的网站优化在线电影视频wordpress主题
  • 搜索网站制作教程个人网站可备案
  • 福州专门做网站wordpress athena 模版
  • 贵阳设计网站建设广东人才网官方网站招聘信息
  • asp.net免费网站微信小程序怎么做商城
  • 网站搭建 保定南宁网站定制
  • 公司网站策划宣传广告公司网站制作
  • 河北企业网站建设酒店平台网站建设
  • wordpress评论通知seo手机搜索快速排名
  • 青岛做网站推广公司哪家好网站做电商资质
  • 郑州网站优化方案常州市金坛建设局网站
  • 濮阳做网站专业的铁岭做网站公司
  • 河北做网站找谁深圳做app网站的公司
  • 西安网站建设建站系统个人博客网页设计图片
  • 江象网站建设手机图片制作软件免费
  • 网站怎么在百度做推广方案从源码安装wordpress
  • 网站后台视频教程雪人主题WordPress
  • 支付网站招聘费分录怎么做WordPress post登录
  • 我们的网站网上商城开发需求