建设网站都要什么,建e网手机版,网站正在建设中 html,神木自适应网站开发近日#xff0c;阿里发布了Animate Anyone#xff0c;只需一张人物照片#xff0c;结合骨骼动画#xff0c;就能生成人体动画视频。 项目地址#xff1a;https://humanaigc.github.io/animate-anyone/
论文地址#xff1a;https://arxiv.org/pdf/2311.17117.pdf
Github… 近日阿里发布了Animate Anyone只需一张人物照片结合骨骼动画就能生成人体动画视频。 项目地址https://humanaigc.github.io/animate-anyone/
论文地址https://arxiv.org/pdf/2311.17117.pdf
Githubhttps://github.com/HumanAIGC/AnimateAnyone 在图像生成领域视频尤其是在角色动画通过驱动信号从静态图像中生成角色视频生成中其中角色详细信息的一致性仍然是一个艰巨的问题。为了确保可控性和连续性引入了一个有效的姿势指导器来指导角色的动作并采用了一种有效的时间建模方法来确保视频帧之间的平滑过渡。本方法可以通过数据驱动的方式对任意角色进行动画制作相比其他图像到视频的方法其在角色动画方面表现更优。此外本方法在时尚视频和人类舞蹈合成的基准测试中取得了最先进的结果。 一、Animate Anyone介绍 模型架构如下图所示 网络的初始输入由多帧噪声组成。去噪UNet基于SD的设计进行配置采用相同的框架和块单元并继承SD的训练权重。该方法包含三个关键组件1ReferenceNet编码参考图像中字符的外观特征2Pose Guider编码运动控制信号实现角色的可控动作3Temporal Layer编码时间关系保证角色运动的连续性。
1.1 ReferenceNet 在文本生成视频的任务中文本Prompt包含高级语义只需要语义与生成的视觉内容相关性即可。然而在图像生成视频任务图像特征更详细一些要求生成的结果更精确匹配。在之前的研究中重点关注图像驱动生成大多数方法都采用CLIP图像编码器作为交叉注意中的文本编码器然而这种设计未能解决与细节一致性相关的问题。一个原因由于这种限制CLIP图像编码器的输入包括低分辨率224×224图像导致丢失重要的细粒度细节信息。另一个因素是CLIP经过预训练以匹配语义强调高级特征匹配的文本特征从而导致在特征编码内的详细特征的不足。 作者设计了一种参考图像特征提取网络ReferenceNet。对于ReferenceNet采用了与去噪UNet相同的框架不包括时间层。与去噪的UNet类似ReferenceNet从原始SD继承了权重并且对每个SD的权重更新都是独立进行的。如上图2所示将self-attention层替换为space-attention层然后执行self-attention并提取特征图的前半部分作为输出。这种设计有两个优点首先ReferenceNet可以利用原始SD的预训练图像特征建模能力从而得到良好的初始化特征。其次由于ReferenceNet和去噪UNet本质上相同的网络结构和共享的初始化权值去噪UNet可以选择性地从ReferenceNet中学习相同特征空间中相关的特征。利用与文本编码器共享的特征空间提供参考图像的语义特征作为有益的初始化加快整个网络训练过程。 ControlNet也采用类似的设计它在去噪UNet中引入了额外的控制特征使用零卷积。然而控制信息例如深度或者边缘信息在空间上与目标图像是对齐的而参考图像和目标图像在空间上相关但不对齐。因此ControlNet不是适合直接应用。后续的实验会有具体的分析。 虽然ReferenceNet引入了与去噪UNet相当数量的参数但在基于扩散的视频生成中所有视频帧都要进行多次去噪而ReferenceNet在整个过程中只需要提取一次特征。因此在推理过程中它不会导致计算开销的大幅增加。
1.2 Pose Guider ControlNet表现出超出文本Prompt之外且具有高度鲁棒性的条件生成功能。由于去噪的UNet需要微调本文选择不纳入额外的ControlNet以防止计算复杂度的显著增加。相反作者采用了一个轻量级的姿势引导器。这个姿态引导器利用四个卷积层4×4核2×2步使用16,32,64128通道类似于ControlNet中的条件编码器以与噪声潜分辨率相同的姿态图像对齐。然后将处理后的姿态图像与噪声潜层相加再输入到去噪的UNet中。姿态引导器使用高斯权重进行初始化并且在最终的投影层中采用零卷积。
1.3 Temporal Layer 许多研究表明将时间层加入文本生成图像T2I的模型中可以捕获视频帧的时间依赖关系这种设计有助于从预训练好的T2I模型迁移图像生成能力。我们的时间层在Res-Trans块内的空间注意力和交叉注意力组件之后进行集成。temporal层的设计灵感来自AnimateDiff。通过残差连接将来自时间层的特征纳入原始特征。时间层只应用于去噪UNet的Res-Trans块内。对于ReferenceNet它计算单个参考图像的特征不参与时间建模。由于姿态引导器实现了角色连续运动的可控性实验表明时间层确保了外观细节的时间平滑和连续性避免了复杂的运动建模。
二、Animate Anyone训练策略 训练总共分为两个阶段第一阶段使用单个视频帧进行训练在去噪UNet中排除了时间层模型以单帧噪声作为输入同时训练ReferenceNet和Pose Guider。参考图像从整个视频剪辑中随机选择。Denoising UNet和ReferenceNet的模型使用SD的预训练权重进行初始化而Pose Guider使用高斯权重进行初始化最后的投影层使用零卷积。VAE的编码器和解码器以及CLIP图像编码器的权重都保持不变。这个阶段的优化目标是在给定参考图像和目标姿势的条件下生成高质量的动画图像。第二阶段将时间层引入先前预训练好的模型并使用AnimateDiff的预训练权重进行初始化。模型的输入是一个24帧的视频剪辑。在这个阶段只训练时间层固定网络的其他权重。
三、Animate Anyone实验效果分析
3.1 实验设置 从互联网收集了5K个角色视频片段2-10s时长进行训练并采用DWPose提取角色的姿势序列包括身体和手并使用OpenPose对其进行渲染为姿势骨架图像。训练硬件为4个NVIDIA A100 GPU。在训练过程中使用了两个阶段的训练在第一个训练阶段采样单个视频帧并调整大小和中心裁剪到768×768的分辨率batch size设置为64训练30000步在第二个训练阶段使用24帧视频序列并设置batch size为4训练10000步。两种学习率都设置为1e-5。在推理过程中重新调整姿势轮廓的长度来匹配角色参考图像中的特征轮廓并使用DDIM采样器进行20步去噪。作者采用了时间聚合中的方法将不同批次的结果连接到生成长视频。为了与其他图像进行公平比较动画方法作者还在两个特定的基准UBC时尚视频数据集和TikTok数据集上训练模型。
3.2 定性分析 Animate Anyone可以动画化任意角色包括全身人物、半身肖像、卡通角色和人形角色。它能够生成高清晰度和逼真的角色细节并在大幅度运动下保持与参考图像的时间一致性同时在帧之间展现时间连续性。更多视频结果可在补充材料中查看。
3.3 对比分析 Animate Anyone在时尚视频合成和人类舞蹈生成两个基准测试中进行了评估。使用SSIM、PSNR和LPIPS等指标进行图像质量的定量评估使用FVD指标进行视频质量的评估。
时尚视频合成 人类舞蹈生成 图像到视频通用方法 3.4 消融实验 四、Animate Anyone不足之处
1.与许多视觉生成模型类似模型可能难以为手部运动生成高度稳定的结果有时会导致失真以及运动模糊
2.由于图像只提供了一个视角生成角色移动时未见部分的问题是不确定的可能会导致不稳定性
3.由于使用了DDPM该模型的生成效率较低。
参考文献
[1] https://arxiv.org/pdf/2311.17117.pdf