电子商务网站建设与维护期末,html5手机网站开发视频,汕头seo按天付费,wordpress 主机目录 一、CogVideoX简介二、CogVideoX部署实践流程2.1、创建丹摩实例2.2、配置环境和依赖2.3、上传模型与配置文件2.4、开始运行 最后 一、CogVideoX简介
智谱AI在8月6日宣布了一个令人兴奋的消息#xff1a;他们将开源视频生成模型CogVideoX。目前#xff0c;其提示词上限为… 目录 一、CogVideoX简介二、CogVideoX部署实践流程2.1、创建丹摩实例2.2、配置环境和依赖2.3、上传模型与配置文件2.4、开始运行 最后 一、CogVideoX简介
智谱AI在8月6日宣布了一个令人兴奋的消息他们将开源视频生成模型CogVideoX。目前其提示词上限为 226 个 token视频长度为 6 秒帧率为 8 帧 / 秒视频分辨率为 720*480而这仅仅是初代性能更强参数量更大的模型正在路上。先看两个效果均为个人本次实践复现得出 CogVideoX生成视频1 CogVideo生成视频2 首先简单介绍下原理CogVideoX的核心在于它的3D变分自编码器这项技术能够将视频数据压缩至原来的2%极大地降低了模型处理视频时所需的计算资源还巧妙地保持了视频帧与帧之间的连贯性有效避免了视频生成过程中可能出现的闪烁问题。 为了进一步提升内容的连贯性CogVideoX采用了3D旋转位置编码3D RoPE技术使得模型在处理视频时能够更好地捕捉时间维度上的帧间关系建立起视频中的长期依赖关系从而生成更加流畅和连贯的视频序列。
在可控性方面智谱AI研发了一款端到端的视频理解模型这个模型能够为视频数据生成精确且与内容紧密相关的描述。这一创新极大地增强了CogVideoX对文本的理解和对用户指令的遵循能力确保了生成的视频不仅与用户的输入高度相关而且能够处理超长且复杂的文本提示。
代码仓库https://github.com/THUDM/CogVideo模型下载https://huggingface.co/THUDM/CogVideoX-2b技术报告https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf丹摩智算平台https://damodel.com/register?source1D5686A0
本篇博客将详细介绍使用丹摩服务器部署和初步使用CogVideoX的实践流程。
二、CogVideoX部署实践流程
2.1、创建丹摩实例
首先进入控制台选择GPU云实例点击创建实例 由于CogVideoX在FP-16 精度下的推理至少需 18GB 显存微调则需要 40GB 显存我们这里可以选择L40S显卡推荐或者4090显卡硬盘可以选择默认的100GB系统盘和50GB数据盘镜像选择PyTorch2.3.0、Ubuntu-22.04CUDA12.1镜像创建并绑定密钥对最后启动。
2.2、配置环境和依赖
进入JupyterLab后打开终端首先输入git clone https://github.com/THUDM/CogVideo.git拉取CogVideo代码的仓库如遇到github连接超时可以使用本地下载压缩包然后上传到服务器解压拉取成功后会显示CogVideo-main的文件夹如下 其次cd进入CogVideo-main文件夹输入pip install -r requirements.txt安装对应依赖: 其中第一个依赖需要从GitHub仓库中安装特定版本的diffusers包在安装中可能会出现Running command git clone --filterblob:non过久 这种情况可以选择使用本地下载diffusers-0.30.0.dev0-py3-none-any.whl文件夸克网盘链接https://pan.quark.cn/s/67d4bf445556
再使用pip install diffusers-0.30.0.dev0-py3-none-any.whl安装对应版本的diffusers
然后再删除requirements.txt文件中的githttps://github.com/huggingface/diffusers.git878f609aa5ce4a78fea0f048726889debde1d7e8#eggdiffusers那一行
最后继续使用pip安装剩下的依赖 以上依赖安装好后可以在终端输入python然后输入以下代码进行测试
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video显示如下状态没有报错就说明依赖安装成功
2.3、上传模型与配置文件
除了配置代码文件和项目依赖还需要上传CogVideoX模型文件和对应的配置文件。打开huggingface进入https://huggingface.co/THUDM/CogVideoX-2b/tree/main仓库找到Files and versions目录将其中的所有模型和配置文件全部下载到本地。
一共大概9GB大小的文件下载完成后的目录如下
然后点击丹摩控制台-文件存储-上传文件将刚刚下载好的整个CogVideo文件夹上传上传好后的文件存在实例的/root/shared-storage目录。 上传完成后继续打开终端cd进入/root/shared-storage输入ls可以看到刚刚上传好的CogVideo的文件夹已经显示在文件目录中。
2.4、开始运行
上传完成后在CogVideo-main文件新建一个test.py文件 test.py代码内容如下主要使用diffusers库中的CogVideoXPipeline模型加载了一个预训练的CogVideo模型然后根据一个详细的文本描述prompt生成对应视频。
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video# prompt里写自定义想要生成的视频内容
prompt A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The pandas fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The pandas face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance.pipe CogVideoXPipeline.from_pretrained(root/shared-storage/CogVideo, # 这里填CogVideo模型存放的位置此处是放在了丹摩实例的共享空间也可以放到项目文件夹里torch_dtypetorch.float16
).to(cuda)# 参数do_classifier_free_guidance设置为True可以启用无分类器指导增强生成内容一致性和多样性
# num_videos_per_prompt控制每个prompt想要生成的视频数量
# max_sequence_length控制输入序列的最大长度
prompt_embeds, _ pipe.encode_prompt(promptprompt,do_classifier_free_guidanceTrue,num_videos_per_prompt1,max_sequence_length226,devicecuda,dtypetorch.float16,
)video pipe(num_inference_steps50,guidance_scale6,prompt_embedsprompt_embeds,
).frames[0]export_to_video(video, output.mp4, fps8)运行成功后可以在当前文件夹中找到对应prompt生成的output.mp4视频 最近正好奥运会我还试着生成了一些比较有难度的运动员的视频感觉效果还不错后面再研究研究视频的prompt怎么写。 CogVideo生成视频4 最后 个人简介人工智能领域硕士毕业某央企AI工程师 关注我中杯可乐多加冰 支持我点赞收藏⭐️留言