当前位置：首页 > news >正文

自己做背景的网站seo技术培训教程

news 2026/4/8 0:35:22

自己做背景的网站,seo技术培训教程,wordpress微电影模板,怎么查网站的所有权VideoBooth: Diffusion-based Video Generation with Image Prompts 概括文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。方法粗-细两阶段设计：1）…

VideoBooth: Diffusion-based Video Generation with Image Prompts

Videos synthesized by image prompts.

概括

文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。

方法

粗-细两阶段设计：1）粗阶段，利用CLIP图像编码器将图片视觉编码注入文本嵌入中，融合后的嵌入送入cross attention层；2）细阶段，将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑：

多尺度的图片编码是用什么图像编码器获取的？通过VAE获取潜在表征，而这个多尺度，其实就是潜在编码在U-Net在不同阶段的输出。

预备知识

拓展2D卷积：为了处理视频数据和时序关联，我们将SD模型中的2D卷积扩展为了3D卷积。（应该指的是U-Net中的卷积层）
交叉帧注意力模块：SD模型中原本的自注意力模块被修改成了交叉帧注意力模块，以提高时序一致性。交叉帧模块同时处理空间和时序域，因此可以提高合成帧的时序一致性。
时序注意力模块：处理时序域，对所有帧起作用，提高时序一致性。

粗粒度视觉编码

使用CLIP获取图像提示词和文本提示词的编码信息，然后将文本编码中目标物体的编码替换为图像视觉编码，将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的，但是为了对齐图像和文本编码，图像编码会经过MLP层。此外，为了适配融合后的编码，交叉注意力层中的K和V也被微调了。

细粒度视觉编码

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码，然后加噪送入U-Net，每个阶段的U-Net输出（包括最初的潜在编码）对应的K-V都会和原始的K-V进行拼接，初始帧的V被更新，并影响后续所有的Value。

实验

http://www.hkea.cn/news/571068/

相关文章：

网站交互技术百度推广登陆后台

网站的推广和宣传方式各行业关键词

腾讯云服务器网站建设淘宝推广哪种方式最好

大专网站建设论文找个免费的网站

移动端网站开发流程图seopeix

购物网站制作免费太原seo招聘

怎么建设食品网站济南seo外包公司

建设网站有哪些seopeix

桂林市工程建设项目招标网站莆田百度快照优化

金华网站建设大型网页建设农产品网络营销

wordpress free cdn长沙百度快速优化

网页界面设计首页seo快速优化软件网站

和凡科网类似的网站四川省人民政府

北辰网站建设如何推广引流

ps网页模板网站seo外包公司

常平镇仿做网站快速排名刷

青浦建设网站公司app推广代理加盟

wordpress 在线pdf优化关键词的正确方法

网站悬浮窗口网站关键词全国各地的排名情况

做网站得叫什么优化关键词排名

丰县住房与城乡建设部网站太原网站制作优化seo公司

微信如何做微商城网站建设手机网站智能建站

网站尾部分页数字怎么做推广app大全

建筑设计软件有哪些优化网站建设

网站开发 word文件预览医疗器械龙头股

电子商务网站建设花费南宁百度seo排名价格

做公司网站要注意哪些问题真正免费建站网站

在线服务器代理杭州seo网络公司

wordpress邮件订阅seo技术外包

深圳营销网站建站公司搜索引擎关键词的工具