CogVideo

CogVideo是什么?

CogVideo 是一种开源 AI 模型,能从文本描述生成短视频片段,让视频生成的研究与试验无需商业订阅即可进行。

一图看懂

Type of model
文本生成视频模型(基于 Transformer)
Developed by
智谱 AI
Key capability
从文本提示词生成短视频片段;开源权重可供研究和微调使用
How it fits in AI workflow
在研究流水线、本地生成搭建中用作基础文本生成视频模型,并作为自定义视频生成应用的微调起点
相关术语
CogVideoXText-to-videoDiffusion modelTransformerOpen-source modelKling

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

对比与差异

对比与差异

Compared with related concepts

CogVideo 与 Sora:CogVideo 是开源模型,权重公开可获取,能够本地运行和微调,而 Sora 是 OpenAI 的封闭商业模型,只能通过其平台访问。CogVideo 以精致度和易用性为代价提供更大的灵活性和透明度;Sora 则在受管理的界面内提供更高的制作品质。


实用提示

如果你想在自定义素材或特定视觉风格上微调一个视频生成模型,CogVideoX 的开放权重使它成为最易上手的起点之一:在 Hugging Face 上寻找针对消费级硬件可用的微调流水线社区指南。

类型与变体

CogVideo 家族经过数次迭代不断扩展。原始的 CogVideo 用 Transformer 架构确立了文本生成视频的方法。CogVideoX 引入了扩散 Transformer(DiT)骨干,视频质量大幅提升,片段时长更长,运动协调性更好。CogVideoX 的社区微调针对特定风格、题材和运动类型,将模型的能力范围扩展到其默认训练分布之外。

准备好在 Morphic 里做第一个场景了吗?

试用 Morphic

常见使用场景

CogVideo 主要用于看重开放模型权重访问权的研究和开发者场景。研究人员用它来研究文本生成视频、试验架构修改,并与其他模型进行基准对比。开发者以它为基础构建自定义视频生成应用,或在专有数据集上搭建微调流水线。出于隐私、成本或定制等原因偏好本地运行生成的独立创作者也会使用它。

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

常见问题(FAQ)

CogVideo 是谁制作的?

CogVideo 由智谱 AI 开发,这是一家中国 AI 研究公司,也以 CogView 图像生成模型和 GLM 系列语言模型而闻名。

CogVideo 是免费使用的吗?

CogVideo 和 CogVideoX 以开源模型形式发布,意味着权重公开可用于研究和许多商业用途。你应查看所用版本的具体授权,因为各次发布的条款各不相同。

CogVideo 与 Runway 或 Kling 等商业工具相比如何?

商业工具通常产出更高质量的输出,界面更精致,并具备额外的控制功能。CogVideo 以部分精致度换取开放性:你可以本地运行、微调它,并以封闭商业工具不允许的方式将它整合进自定义流水线。

CogVideo 和 CogVideoX 有什么区别?

CogVideoX 是改进后的后继者,使用扩散 Transformer 架构,产出比原始 CogVideo 更长、质量更高的视频。在大多数实际用途中,CogVideoX 通常代表该模型家族的当前水准。

我可以在自己的电脑上运行 CogVideo 吗?

可以,CogVideoX 权重在 Hugging Face 上提供,可使用相应的 Python 库本地运行。不过视频生成对算力要求很高:实际使用通常需要一块高显存 GPU。

什么样的提示词最适合 CogVideo?

清晰、描述性强、指明主体、动作、环境和摄影机视角的文本提示词往往产出最佳结果。与大多数文本生成视频模型一样,CogVideo 对电影感语言和具体的运动描述反应良好。

我在哪里能找到 CogVideo 模型权重?

CogVideo 和 CogVideoX 模型权重托管在 Hugging Face 上的 THUDM 组织下。该仓库包含模型卡、使用说明,以及指向社区微调的链接。

Can't find what you are looking for?
Contact us and let us know.
bg