当前位置：首页 > news >正文

山东省住房和建设网站微商引流一般用什么软件

news 2026/4/6 10:02:24

山东省住房和建设网站,微商引流一般用什么软件,公安局门户网站建设,贵州城乡建设网站VideoBooth: Diffusion-based Video Generation with Image Prompts 概括文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。方法粗-细两阶段设计：1）…

VideoBooth: Diffusion-based Video Generation with Image Prompts

Videos synthesized by image prompts.

概括

文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。

方法

粗-细两阶段设计：1）粗阶段，利用CLIP图像编码器将图片视觉编码注入文本嵌入中，融合后的嵌入送入cross attention层；2）细阶段，将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑：

多尺度的图片编码是用什么图像编码器获取的？通过VAE获取潜在表征，而这个多尺度，其实就是潜在编码在U-Net在不同阶段的输出。

预备知识

拓展2D卷积：为了处理视频数据和时序关联，我们将SD模型中的2D卷积扩展为了3D卷积。（应该指的是U-Net中的卷积层）
交叉帧注意力模块：SD模型中原本的自注意力模块被修改成了交叉帧注意力模块，以提高时序一致性。交叉帧模块同时处理空间和时序域，因此可以提高合成帧的时序一致性。
时序注意力模块：处理时序域，对所有帧起作用，提高时序一致性。

粗粒度视觉编码

使用CLIP获取图像提示词和文本提示词的编码信息，然后将文本编码中目标物体的编码替换为图像视觉编码，将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的，但是为了对齐图像和文本编码，图像编码会经过MLP层。此外，为了适配融合后的编码，交叉注意力层中的K和V也被微调了。

细粒度视觉编码

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码，然后加噪送入U-Net，每个阶段的U-Net输出（包括最初的潜在编码）对应的K-V都会和原始的K-V进行拼接，初始帧的V被更新，并影响后续所有的Value。

实验

http://www.hkea.cn/news/726449/

相关文章：

杭州网站建设公司导航短视频营销案例

昆明做网站建设有哪些长尾关键词排名工具

一女被多男做的视频网站网站seo系统

网站建设青海网站建设找哪家好

win7 网站配置优化方案官网电子版

广州seo优化公司排名浙江seo博客

全网推广的方式有哪些抖音seo推荐算法

网站开发开源架构抖音营销软件

自己做的网站能放到网上么青岛seo经理

营业推广策划方案邵阳网站seo

手机网站横向切换kol合作推广

专门做超市海报的网站宁波seo咨询

仿网站上的焦点图在线看seo网站

做网站的业务员艾滋病阻断药有哪些

web集团网站建设广告投放平台有哪些

大连做网站建设广告资源对接平台

做网站怎么写工作日志泉州网站seo公司

wordpress外链站内打开搜索引擎是什么意思啊

做论坛网站需要什么备案新站seo优化快速上排名

动漫网站html百度网盘搜索

怎么看一个网站什么语言做的宝鸡seo培训

数据库网站建设公司他达拉非片

英文商城网站建设搜索引擎营销的特点

易优建站系统图片百度搜索

网站开发不用框架web网站设计

技能网站建设项目需求武汉网络推广外包公司

安卓市场下载手机版优化网站排名技巧

建设网站平台哪个好互联网营销外包推广

工商注册企业名称查询广东seo网站推广代运营

中纪委网站两学一做征文资源平台