当前位置: 首页 > news >正文

南通网站设计瑞昌建站公司

南通网站设计,瑞昌建站公司,网站建设哈尔滨网站优化4,杭州seo搜索引擎优化公司Latent Diffusion Models High-Resolution Image Synthesis with Latent Diffusion Models 摘要 动机#xff1a;在有限的计算资源下进行扩散模型训练#xff0c;同时保持质量和灵活性 引入跨注意力层#xff0c;以卷积方式实现对一般条件输入#xff08;如文本或边界框…Latent Diffusion Models High-Resolution Image Synthesis with Latent Diffusion Models 摘要 动机在有限的计算资源下进行扩散模型训练同时保持质量和灵活性 引入跨注意力层以卷积方式实现对一般条件输入如文本或边界框的响应以及高分辨率合成 1引言 贡献 1与纯粹基于 Transformer 的方法相比在高维数据上的扩展更优雅 1.1 在压缩级别上工作提供比之前工作更真实、更细致的重建 1.2 高效地应用于高分辨率的百万像素图像合成 2与基于像素的扩散方法相比在多种任务上无条件图像生成、修复、随机超分辨率取得了具有竞争力的性能显著降低了计算成本和推理成本 3与之前需要同时学习编码器/解码器架构和基于分数的先验的工作相比无需对重建能力和生成能力进行复杂的权衡确保了极高的重建忠实度对潜在空间的正则化需求极低 4对于密集条件约束任务超分辨率、修复、语义合成可以以卷积方式应用并生成一致的超大图像 5设计了基于跨注意力的通用条件机制支持多模态训练 6发布了预训练的潜在扩散模型和自编码模型 2相关工作 1generative models for image synthesis 2diffusion probabilistic modelsDM 3two-stage image synthesis ARM自回归模型 3方法 autoencoding model自编码模型 learn a space that is perceptually equivalent to the image space 自编码模型的优点 低维空间采样 利用从UNet继承的inductive bias使得在处理具有空间结构的数据时**有效无需激进的压缩 通用压缩模型其潜在空间可以用于训练多种生成模型 3.1Perceptual Image Compression autoencoder自编码器 通过 感知损失 patch-based对抗目标 训练 给定RGB空间的图像 x编码器 e 把 x 编码到潜在表示 zz e(x) 解码器 D 从潜在表示中重建图像 x^~x^~ D(z) D(e(x)) x的维度 z的维度 编码器下采样因子 f H/h W/w讨论不同的下采样因子2的指数倍 避免潜在空间具有任意的高方差采用了2种不同的正则化 KL正则化对学习到的潜在表示施加轻微的 KL 惩罚使其趋向于标准正态分布类似VAE VQ正则化在解码器中使用向量量化层 3.2Latent Diffusion Models Diffusion Models 扩散模型通过逐步对正态分布变量去噪学习数据分布 p(x)对应学习固定长度为 T 的马尔可夫链的反向过程 图像合成模型依赖于变分下界的重新加权变体 目标函数 Generative Modeling of Latent Representations 通过训练的感知压缩模型由 e 和 D 组成可以访问一个高效的、低维的潜在空间 与高维像素空间相比这个潜在空间更适合基于似然的生成模型因为 专注于数据中重要的语义信息 在一个更低维、计算上更高效的空间中进行训练 利用模型提供的与图像相关的归纳偏置包括构建主要基于 2D 卷积层的 U-Net 的能力并进一步将目标集中在感知上最相关的信息位上使用重新加权的目标函数 目标函数修改为 神经网络的主干time-conditional UNet zt 可以在训练期间通过 e 高效地获取 从 p(z) 的采样可以通过 D 的一次前向传递解码到图像空间 3.3Conditioning Mechanisms 底层 U-Net 主干中加入跨注意力机制 为处理来自各种模态的 y引入了一个特定领域的编码器 Tθ 把 y 映射到一个中间表示 Tθ(y)维度为 跨注意力层的实现 对于参数的解释 framework 通过拼接concatenation或更通用的跨注意力机制cross-attention mechanism对潜在扩散模型 (LDMs) 进行条件化 基于图像条件对目标函数修改为 4实验 4.1感知压缩的权衡分析 实验内容比较不同下采样因子 f如 1, 2, 4, 8, 16, 32对 LDM 模型性能的影响。下采样因子越大压缩越强。 结果与分析 小的下采样因子如 f1,2导致训练进展缓慢因为未能充分利用低维潜在空间的优势。 过大的下采样因子如 f32会导致信息损失限制最终生成质量。 最优权衡出现在 f4 到 f8 之间既保证了高效的训练和推理又提供了感知上忠实的生成结果。 结论中等强度的压缩如 f4 和 f8在效率和质量之间提供了最佳平衡。 4.2无条件图像生成 实验内容在多个数据集CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms上评估 LDM 的无条件生成能力并通过 FID、Precision 和 Recall 指标与其他方法如 GAN, DDPM进行比较。 结果与分析 LDM 在大多数数据集上的 FID 指标优于现有扩散模型例如 ADM和 GAN 方法尤其在 CelebA-HQ 数据集上达到 SOTA 性能。 与现有基于像素空间的扩散方法相比LDM 显著降低了推理和训练的计算成本。 结论LDM 在无条件图像生成任务中表现出色能够在更低的计算资源下实现更好的质量。 4.3条件图像生成 实验内容 通过引入交叉注意力机制cross-attentionLDM 被扩展到条件生成任务例如文本到图像生成。 使用 MS-COCO 数据集评估文本生成性能并在语义地图条件下进行语义合成。 结果与分析 在文本到图像生成上LDM 超越了 DALL-E 和 CogView 等方法FID 指标显著降低。 在语义合成任务中LDM 能够在低分辨率训练的基础上生成更高分辨率的图像如 512×1024。 结论LDM 的交叉注意力机制极大地增强了条件生成的灵活性尤其适用于文本到图像等复杂条件。 4.4超分辨率任务 实验内容在 ImageNet 数据集上进行 64×64→256×256 超分辨率任务与 SR3 模型进行比较。 结果与分析 LDM 在 FID 指标上优于 SR3但 IS 指标稍逊。 用户研究表明在感知一致性上LDM 生成的高分辨率图像更受欢迎。 结论LDM 能有效进行超分辨率生成且具有更高的生成质量。 4.5图像修复 实验内容在 Places 数据集上进行图像修复与 LaMa 等方法比较评估填补遮挡区域的效果。 结果与分析 LDM 修复质量FID优于大多数现有方法并通过用户研究证明更受人类偏好。 高分辨率的修复任务如 512×512得益于潜在空间的特性。 结论LDM 提供了一种通用的条件生成方法在高质量修复任务中表现突出。 总结 性能提升LDM 在多个任务上展现出较传统扩散模型显著的性能提升尤其是在计算效率和感知质量之间实现了良好平衡。 通用性与灵活性LDM 的架构设计如交叉注意力机制使其适应多种条件生成任务例如文本、语义地图到图像生成。 计算优势相较于像素空间的扩散模型LDM 大幅减少了训练时间和推理计算需求降低了硬件门槛。
http://www.hkea.cn/news/14293762/

相关文章:

  • 海拉尔建设局网站注册安全工程师白考了
  • 网站优化的图片长安高端装备网站设计公司
  • 服装行业网站建设比较好wordpress后台反应慢
  • 网站建设单位是什么意思小程序推广联盟
  • 兴义市住房和城乡建设局网签网站网站进入百度观察期
  • 白帽seo是什么宁波seo关键词排名
  • 建设银行河北招聘网站网站推广的意义
  • 怎么免费做一个网站简单的网页设计教程
  • 网站域名解析错误怎么解决免费psd模板素材
  • 网站建设与网页设计可行性分析报告平面设计师个人网站
  • 网站注册信息手机网站支付签约
  • 特效网站模板百度搜索关键词排名优化推广
  • py可以做网站吗网站制作联盟
  • 我想建设一个网站网站做支付借口多少钱
  • 什么网站做设计可以赚钱吗带后台的php网站模板
  • 一般做网站图是多大的像素重庆建设门户网站
  • 电子商务网站开发总结wordpress播客主题
  • 网站后台可以做两个管理系统么wordpress 会员注册
  • 网站论坛建设上海市网站建设
  • 沈阳网站设计定制企业管理名词解释
  • 做网站用不用thinkphp网站上的专题 怎么设计
  • 建构网站西安品牌建设年度工作总结
  • 电子商务网站建设基础项目实训资讯网站
  • 返利网网站建设nodejs搭建wordpress
  • 做网站的软件下载广州企业100强
  • 北京网站建设91086邢台网站建设有哪些
  • 图片类网站开发实验总结贵州省建设厅审图网站
  • 合肥专业网站制作设计定西市小企业网站建设建设
  • 网站后台上传图片显示运行错误为什么网站规划与站点的建立实训报告
  • 网站一键搭建注册监理工程师注册查询系统