当前位置: 首页 > news >正文

地方门户网站取名只有一个页面的网站怎么做

地方门户网站取名,只有一个页面的网站怎么做,网站策划与建设阶段的推广的目标,网站建站是什么论文地址#xff1a;[1907.00503] Modeling Tabular data using Conditional GAN (arxiv.org) 摘要 对表格数据中行的概率分布进行建模并生成真实的合成数据是一项非常重要的任务#xff0c;有着许多挑战。本文设计了CTGAN#xff0c;使用条件生成器解决挑战。为了帮助进行公…论文地址[1907.00503] Modeling Tabular data using Conditional GAN (arxiv.org) 摘要 对表格数据中行的概率分布进行建模并生成真实的合成数据是一项非常重要的任务有着许多挑战。本文设计了CTGAN使用条件生成器解决挑战。为了帮助进行公平和彻底的比较建模这类数据的方法本文设计了一个基准测试包括7个模拟数据集和8个真实数据集以及几个贝叶斯网络基线。CTGAN在大多数真实数据集上都优于贝叶斯方法而其他深度学习方法则不然。 1、介绍 GAN在建模分布方面比其统计对应方法具有更大的灵活性。新的GAN方法的激增需要一个评估机制。 为了评估这些GAN本文使用了一组真实的数据集来建立一个基准系统并实现了三种最新的技术。为了进行比较本文使用贝叶斯网络创建了两种基准方法。 在使用模拟数据集和真实数据集对这些模型进行测试后我们发现表格数据建模对GAN提出了独特的挑战导致它们在许多指标上无法达到基线方法如合成生成数据的可能性适合度和机器学习效率。这些挑战包括 需要同时对离散列和连续列进行建模每个连续列中的多模态非高斯值类别列的严重不平衡问题。 为了应对这些挑战在本文中提出了条件表格GANCTGAN。引入了几种新技术方法 通过针对模式的归一化、架构更改来增强训练过程。通过使用条件生成器和采样训练来解决数据不平衡问题。 当使用有基准测试的相同数据集时CTGAN的性能明显优于贝叶斯网络基线和其他测试的GAN。如下图所示。 论文的贡献如下 一个用于合成表格数据生成的条件GAN。本文建议CTGAN作为一个合成表格数据生成器由于以下几点 - CTGAN比迄今为止的所有方法都要好在至少87.5%的数据集上超过了贝叶斯网络。 - 为了进一步挑战CTGAN采用变分自动编码器VAE来生成混合类型的表格数据称之为TVAE。VAE直接使用数据构建生成器即使有这样的优势CTGAN在许多数据集上都实现了有竞争力的性能并且在3个数据集上优于TVAE。 一个合成数据生成算法的基准测试系统。使用多个表格数据集和不同的评估指标以及多个基线和最先进方法的实现设计了一个全面的基准框架。同时系统是开源的可以用其他方法和额外的数据集进行扩展。在撰写本文时基准有5种深度学习方法、2种贝叶斯网络方法、15个数据集和2种评估机制。 2、相关工作 在过去的十年中合成数据是通过将表格中的每一列视为随机变量对联合多元概率分布进行建模然后从该分布中进行采样而生成的。 一组离散变量可能使用决策树和贝叶斯网络建模。空间数据可以用空间分解树建模。一组非线性相关的连续变量可以使用copulas建模。 这些模型受到分布类型和计算问题的限制严重限制了合成数据的理想性。 由于在表示数据时提供的性能和灵活性使用VAE和GANs及其众多扩展开发生成模型非常有吸引力。GANs还用于生成表格数据尤其是医疗记录。例如 使用GANs生成连续的时间序列医疗记录使用GANs生成离散的表格数据。medGAN将自动编码器和GAN结合起来生成异构的非时间序列连续和/或二进制数据。ehrGAN生成增强的医疗记录。tableGAN试图解决使用卷积神经网络生成合成数据的问题该网络优化了标签列的质量因此生成的数据可用于训练分类器。PATE-GAN生成不同的私有合成数据。 3、表格数据生成任务中的GANs挑战 表格数据的几个独特特性对GAN模型的设计提出了挑战 混合的数据类型现实世界的表格数据由多种类型组成。为了同时生成离散列和连续列的混合GANs必须将softmax和tanh都应用于输出。非高斯分布图像中像素值遵循类高斯分布可以使用最小-最大变换归一化为[−11]。tanh函数通常用于网络的最后一层以输出该范围内的值。表格数据中的连续值通常是非高斯的其中最小-最大变换将导致消失梯度问题。多模式分布本文使用核密度估计来估计列中的模式数。但是在8个真实数据集中57/123连续列有多种模式。有论文表明原始GAN无法在一个简单的2D数据集上对所有模式进行建模。因此它也很难对连续列的多模式分布进行建模。从稀疏独热编码向量中学习当生成合成样本时使用softmax训练生成模型生成各个类别的概率分布而真实数据则用独热向量表示。这是有问题的因为鉴别器只会检查分布稀疏性而不会考虑样本整体的真实性。高度不平衡的分类列在数据集中有636/1048个分类列是高度不平衡的其中主类别出现在90%以上的行中。这会造成严重的模式崩溃。缺少一个次要类别只会导致数据分布发生微小变化鉴别器很难检测到这些变化。不平衡的数据还导致小类别训练不足。 4、CTGAN模型 CTGAN是一种基于GAN的方法用于对表格数据分布建模并从分布中采样。在CTGAN中发明了针对模式的归一化以克服非高斯和多模式分布。设计了一个条件生成器通过采样进行训练以处理不平衡的离散列。使用全连接网络和几种最新技术来训练高质量的模型。 4.1、符号表 4.2、针对模式的归一化 离散值可以自然地表示为独热向量但表示有着任意分布的连续值是非常重要的。以前的模型使用最小-最大归一化将连续值归一化为[−1, 1]。 在CTGAN中设计了一种针对模式的归一化方法来处理具有复杂分布的列。 下图展示对一个连续列使用针对模式的归一化方法。 4.3、条件生成器和抽象训练 4.4、网络框架 4.5、TVAE模型 5、基准测试合成数据生成算法 5.1、基线和数据集 5.2、评估指标和框架 5.3、基准结果 5.4、消融实验 我们做了一项消融实验以了解模型中每个组件的有用性。消融实验结果如下。 6、结论
http://www.hkea.cn/news/14351163/

相关文章:

  • 上海 网站备案系统宁波seo关键词排名优化
  • 青园网站建设优秀网站下载
  • php mysql开发网站开发外贸推广哪家好
  • 福州做网站的哪家好电脑维修网站模板
  • 离石古楼角网站建设担路做网站
  • 自己做网站去哪买服务器百度之家
  • 成都好的网站设计公司课件app制作教程
  • 凡科免费网站可以做推广吗怎么制作页面
  • 公考在哪个网站上做试题wordpress网站字体
  • pageadmin做网站广告商
  • 怎么建网站教程注册网站能赚钱吗
  • 专业做化妆品的网站wordpress改头像
  • 安卓网站客户端制作软件PHP网站建设视频免费
  • 移动端网站制作模板可以做外贸私单的网站
  • 建站视频网站开公司怎么做网站
  • 重庆平台网站建设企业做网站花的钱和优化网站有关系吗
  • 阅文集团旗下哪个网站做的最好网站代下单怎么做
  • 湖北黄石网站建设游戏网站建设流程图
  • 亿星网站建设网站平台开发公司
  • 安徽省建设工程专业技术资格评审标准条件排名轻松seo 网站
  • 怎么看网站关键词密度杭州知名app技术开发公司
  • 注册网站发财的富豪重庆建设工程人力资源官网
  • 专业的营销型网站最新报价计算机网络技术毕业设计
  • 网站建设按钮万网网站建设特点
  • 当当网站开发系统说明成都建站优化公司
  • 网站开发外包报价营销网络是指公司在国内外寻找战略伙伴和同盟者
  • wordpress快速清除本地图片seo黑帽教程视频
  • 内蒙古自治区住房和城乡建设厅网站体育西网站开发设计
  • 服装网站建设中期目标网站做3年3年包括什么软件吗
  • 站长工具是做什么的网站源码下载后怎么用