当前位置：首页 > news >正文

广州做一个营销网站多少钱品牌推广活动方案

news 2026/4/27 1:40:05

广州做一个营销网站多少钱,品牌推广活动方案,如何做一张旅游网站,做泥软件下载官方网站概述原文地址#xff1a;https://www.unite.ai/improving-green-screen-generation-for-stable-diffusion/ 论文地址#xff1a;https://arxiv.org/pdf/2411.15580 尽管社区研究和投资者对图像生成人工智能充满热情#xff0c;但此类系统的输出并不总是可以直接用于产品开…概述原文地址https://www.unite.ai/improving-green-screen-generation-for-stable-diffusion/ 论文地址https://arxiv.org/pdf/2411.15580 尽管社区研究和投资者对图像生成人工智能充满热情但此类系统的输出并不总是可以直接用于产品开发中一个简单例子是生成人工智能系统倾向于输出整个图像或者是视频中的一系列图像而不是目标孤立的元素但这些通常是多媒体中的各种应用程序以及视觉效果从业者所必需的。一个简单的例子是剪贴画被设计为“浮动”透明背景在用户选择的任何目标背景上浅灰色格子背景可能是 Photoshop 用户最熟悉的它代表 alpha 通道或透明通道即使在诸如库存图片之类的简单消费品中也是如此。这种透明度已经普遍存在了三十多年自 1990 世纪 XNUMX 年代初的数字革命以来用户已经能够通过日益复杂的一系列工具集和技术从视频和图像中提取元素。例如如何从视频片段中“去除”蓝屏和绿屏背景曾经是昂贵的化学过程和光学打印机以及手工制作的哑光) 将成为 Adobe After Effects 和 Photoshop 应用程序等系统以及许多其他免费和专有程序和系统中几分钟的工作。一旦元素被分离出来 alpha通道实际上是遮挡任何不相关内容的遮罩允许将视频中的任何元素毫不费力地叠加在新背景上或与其他孤立元素合成在一起。方法在计算机视觉中alpha 通道的创建属于语义分割以及 Meta 等开源项目Segment Anything 通过语义增强的对象识别提供一种可通过文本提示来隔离/提取目标对象的方法。 Segment Anything 框架已广泛应用于各种视觉效果提取和隔离工作流程例如 Alpha-CLIP 项目. 在 Alpha-CLIP 框架中使用 Segment Anything 进行提取的示例有许多可供选择的语义分割方法可以适用于分配 alpha 通道的任务。然而语义分割要依赖于训练的数据这些数据可能不包含所有需要提取的对象类别。尽管在非常大的数据量上训练的模型可以使更广泛的对象被识别(有效地成为基础模型或世界模型) 但它们仍然受到它们被训练最有效地识别的类的限制。语义分割系统例如 Segment Anything可能难以识别某些对象或对象的某些部分正如这里模糊提示的输出所示。无论如何语义分割同样是一个事后过程如同绿屏程序并且必须隔离元素而没有可以有效识别和去除的单一背景色带的优势。因此研究者偶尔会想到可以生成图像和视频实际上包含绿屏背景可以通过常规方法立即去除。不幸的是流行的潜在扩散模型如稳定扩散往往有一些困难渲染一个真正生动的绿色屏幕。这是因为模型的训练数据通常不包含这种相当专业的场景的大量例子。即使系统成功了由于概念的纠缠“绿色”的概念也会以一种不受欢迎的方式传播到前景主题: 上图中我们可以看到稳定扩散优先考虑了图像的真实性而不是创建单一强度的绿色有效地复制了传统绿屏场景中出现的真实问题。下图中我们可以看到“绿色”概念污染了前景图像。提示越关注“绿色”概念这个问题就越有可能变得严重。尽管使用了先进的方法女人的衣服和男人的领带(见上面的下图)都会随着绿色的背景而“退出”——这个问题可以追溯到20世纪70年代和80年代光化学乳剂去除染料的时代。与以往一样模型的缺点可以通过向问题投入特定数据并投入大量训练资源来克服。斯坦福大学 2024 年推出的系统 LayerDiffuse创建微调能够生成带有 alpha 通道图像的模型斯坦福 LayerDiffuse 项目对一百万张恰当的图像进行了训练能够为模型注入透明度功能。不幸的是除了这种方法需要大量的管理和训练资源外LayerDiffuse 使用的数据集不公开限制了在其上训练的模型的使用。即使不存在这个障碍这种方法也很难针对特定用例进行定制或开发。 2024 年晚些时候Adobe Research 与纽约州立大学石溪分校合作制作 MAGICK一种针对定制扩散图像进行训练的 AI 提取方法。来自 2024 年的论文MAGICK 中细粒度 alpha 通道提取的一个示例 150,000 个提取的 AI 生成对象被用于训练 MAGICK以便系统对提取产生直观的理解来自 MAGICK 训练数据集的样本正如源论文所述由于上述原因该数据集非常难以生成——扩散方法难以创建稳定的可抠像色带。因此必须手动选择生成的遮罩。这种后勤瓶颈再次导致系统无法轻松开发或定制而必须在其最初训练的能力范围内使用。 TKG-DM – Latent Diffusion模型的“原生”色度提取德国和日本研究人员之间的新合作提出了一种替代此类训练方法的方法该论文指出这种方法能够获得比上述方法更好的结果而无需在专门策划的数据集上进行训练。 TKG-DM 改变了生成图像的随机噪声使其能够更好地生成任意颜色的纯色、可抠像的背景该方法通过优化潜在扩散模型(如稳定扩散模型)中产生图像的随机噪声在生成层次上解决了该问题。该方法建立在对稳定扩散分布色彩模式的研究基础上与其他方法相比能够产生任何类型的背景色较少(或没有)关键背景色与前景内容的纠缠。初始噪声由通道均值偏移决定该偏移能够影响去噪过程的各个方面而不会将颜色信号纠缠到前景内容中。论文指出: “我们的大量实验表明TKG-DM 能够提高 FID 分数33.7% 而掩膜 FID 分数提高35.9% 。”。因此我们的免训模式可以与微调模式相媲美为各种需要精确前景和背景控制的视觉内容创建任务提供了高效和通用的解决方案。’ 这篇新论文的题目是《 TKG-DM: 无需培训的色度关键内容生成扩散模型》来自东京和凯撒斯劳滕皇家科学院法政大学研究所的7名研究人员。实现方法该方法扩展了稳定扩散的体系结构通过信道均值漂移(CMS)调节初始高斯噪声从而产生噪声模式以鼓励所需的背景/前景分离生成的结果。 CMS 在保持去噪过程总体发展的同时调整每个颜色通道的平均值。作者解释道: 为了在色度键背景上生成前景对象我们应用了一个初始噪声选择策略使用一个2D 高斯[掩模]有选择性地结合初始[噪声]和初始颜色[噪声]。这个掩模通过保留前景区域的原始噪声并将色移噪声应用到背景区域来创建一个渐变过程。’ 背景色度所需的颜色通道通过空文本提示来实例化而实际的前景内容则是根据用户的文本指令在语义上创建的。自我注意和交叉注意被用来分离图像的两个方面(色度背景和前景内容)。自我注意有助于前景对象的内部一致性而交叉注意保持对文本提示的忠实性。本文指出由于背景图像通常不那么详细和强调的世代其较弱的影响是相对容易克服和替代的纯色样本。色度风格生成过程中自我注意力和交叉注意力影响的可视化。数据与测试使用Stable Diffusion V1.5 和Stable Diffusion SDXL 测试 TKG-DM。分别在512x512px 和1024x1024px 产生图像。图像创建使用 DDIM 调度程序本机的稳定扩散在7.5的指导尺度与50个去噪步骤。目标背景颜色是绿色现在占主导地位的辍学方法。新的方法是比较 DeepFloyd在设置下使用的 MAGICK; 微调低等级扩散模型 GreenBack LoRA; 以及前面提到的分层漫射。对于数据使用了来自 MAGICK 数据集的3000幅图像。来自 MAGICK 数据集的示例从中挑选了 3000 张图像用于新系统的测试。对于指标作者使用 Fréchet 初始距离(FID)来评估前景质量。他们还开发了一个称为 m-FID 的项目特定指标该指标使用 BiRefNet 系统来评估产生的掩模的质量。 BiRefNet 系统与之前方法的视觉比较作者断言结果(分别在上面和下面可视化SD1.5和 SDXL)表明TKG-DM 在没有及时工程或训练或微调模型的必要性的情况下获得优越的结果。作者断言结果上图和下图分别为 SD1.5 和 SDXL表明 TKG-DM 无需进行快速工程设计也无需训练或微调模型即可获得优异的结果。他们观察到当需要在生成的结果中引入绿色背景时Stable Diffusion 1.5 很难生成干净的背景而 SDXL虽然性能稍好一些会产生不稳定的浅绿色色调容易干扰色度过程中的分离。他们进一步指出虽然 LayerDiffuse 可以生成分离良好的背景但偶尔会丢失细节例如精确的数字或字母作者将此归因于数据集的限制。他们补充说蒙版生成有时也会失败导致“未剪切”的图像。对于定量测试虽然 LayerDiffuse 在 SDXL 中对 FID 显然具有优势但作者强调这是专门数据集的结果该数据集实际上构成了“烘焙”且不灵活的产品。如前所述该数据集未涵盖或未充分涵盖的任何对象或类别可能表现不佳而进一步微调以适应新类别会给用户带来管理和训练负担。该论文指出 “DeepFloyd 的高 FID、m-FID 和 CLIP-I 得分反映了它与基于 DeepFloyd 输出的地面实况的相似性。然而这种对齐方式赋予了它固有的优势使其不适合作为图像质量的公平基准。与其他模型相比其较低的 CLIP-S 得分进一步表明文本对齐较弱。总体而言这些结果强调了我们的模型无需微调即可生成高质量、文本对齐前景的能力从而提供了高效的色度键内容生成解决方案。最后研究人员进行了一项用户研究以评估各种方法的及时遵守情况。要求 30 名参与者评判每种方法中的 XNUMX 个图像对使用 BiRefNet 提取主题并对所有示例进行手动细化。本研究首选作者的无训练方法。 TKG-DM 与流行的控制网第三方稳定扩散系统作者认为它比 ControlNet 实现这种分离的本机能力产生更好的结果。总结这篇新论文最值得注意的一点可能是潜在扩散模型的纠缠程度这与公众普遍认为的在生成新内容时可以毫不费力地分离图像和视频的各个方面形成了鲜明对比。该研究进一步强调了研究和爱好者社区在多大程度上将微调作为事后修复模型的缺点——解决方案始终针对特定类别和类型的对象。在这种情况下经过微调的模型要么在有限数量的类别上工作得很好要么在有限数量的类别上工作得很好可以忍受根据训练集中的大量数据可以很好地处理更多可能的类别和对象。因此看到至少有一个不依赖于这种费力且可能不诚实的解决方案是令人欣慰的。

查看全文

http://www.hkea.cn/news/14428797/