当前位置: 首页 > news >正文

专业长春网站建设哪家好bt磁力种子

专业长春网站建设哪家好,bt磁力种子,社交网站只做,什么网站做视频赚钱VideoBooth: Diffusion-based Video Generation with Image Prompts 概括 文章提出了一个视频生成模型VideoBooth,输入一张图片和一个文本提示词,即可输出保持图片中物体且符合文本提示词要求的视频。 方法 粗-细两阶段设计:1)…

VideoBooth: Diffusion-based Video Generation with Image Prompts

Videos synthesized by image prompts.

概括

文章提出了一个视频生成模型VideoBooth,输入一张图片和一个文本提示词,即可输出保持图片中物体且符合文本提示词要求的视频。

方法

粗-细两阶段设计:1)粗阶段,利用CLIP图像编码器将图片视觉编码注入文本嵌入中,融合后的嵌入送入cross attention层;2)细阶段,将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑:

  • 多尺度的图片编码是用什么图像编码器获取的?通过VAE获取潜在表征,而这个多尺度,其实就是潜在编码在U-Net在不同阶段的输出。

预备知识

  • 拓展2D卷积:为了处理视频数据和时序关联,我们将SD模型中的2D卷积扩展为了3D卷积。(应该指的是U-Net中的卷积层)
  • 交叉帧注意力模块:SD模型中原本的自注意力模块被修改成了交叉帧注意力模块,以提高时序一致性。交叉帧模块同时处理空间和时序域,因此可以提高合成帧的时序一致性。
  • 时序注意力模块:处理时序域,对所有帧起作用,提高时序一致性。

粗粒度视觉编码

使用CLIP获取图像提示词和文本提示词的编码信息,然后将文本编码中目标物体的编码替换为图像视觉编码,将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的,但是为了对齐图像和文本编码,图像编码会经过MLP层。此外,为了适配融合后的编码,交叉注意力层中的K和V也被微调了。

细粒度视觉编码

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码,然后加噪送入U-Net,每个阶段的U-Net输出(包括最初的潜在编码)对应的K-V都会和原始的K-V进行拼接,初始帧的V被更新,并影响后续所有的Value。

实验

http://www.hkea.cn/news/785169/

相关文章:

  • 大片播放网站国外免费推广网站有哪些
  • flash网站cms排名sem优化软件
  • 申请完域名怎么做网站百度链接提交
  • 驻马店市可以做网站的公司百度搜索竞价排名
  • 郑州市做网站吉林百度查关键词排名
  • 济宁网站建设seo抖音seo源码搭建
  • 茂名网站建设方案书简述seo和sem的区别
  • 江西网站做的好的企业文化百度指数在哪里看
  • 山东电商网站建设seo网站排名优化公司
  • 赤峰市做网站公司今日的最新消息
  • 上海最大的贸易公司seo网络推广机构
  • jsp 网站开发广告发布平台
  • b2c网站综合对比评价站长统计幸福宝
  • 网站建设意见做推广app赚钱的项目
  • 哈尔滨营销网站制作做外贸推广
  • 深圳网站建设外贸公司排名搜索热词排名
  • 网络科技公司招聘可靠吗seo多久可以学会
  • 企业网站建设的方案ppt网络营销的特点主要包括什么
  • 如何自行建设网站推广关键词优化
  • 建设学院网站百度收录关键词查询
  • 有关外贸的网站有哪些内容武汉抖音seo搜索
  • 娄底网站建设的话术深圳网站关键词排名优化
  • 福田大型商城网站建设seo营销方法
  • 网站开发专业就业指导企业网站设计与实现论文
  • 网络营销方式的思维导图seo关键词优化系统
  • wordpress访客ip记录福清市百度seo
  • 网站下载速度慢互联网广告推广公司
  • 电影网站空间配置网络营销的工具和方法有哪些
  • 包装设计网站免费百度seo搜索引擎优化厂家
  • 免费做公司网站sem对seo的影响有哪些