CogVideo
CogVideo 是智谱 AI 开发的文生视频生成式 AI 模型,是较早能够直接从文字提示生成多秒视频片段的大规模开源模型之一。作为开源研究模型发布,CogVideo 通过证明自回归 Transformer 架构可应用于有意义的时长与分辨率的视频生成,推动了 AI 视频生成领域的发展。
原始 CogVideo 采用分层自回归方法,在文字条件下一帧一帧生成视频,基于 CogView 图像生成架构。它以产出与自然语言描述语义连贯的短视频而著称,尽管视觉质量相对后续代际模型有限。该模型作为首批大规模发布的开源视频生成模型之一具有重要意义,促进了学术研究与社区实验。CogVideo 系后续版本与衍生在领域发展过程中改进了视觉质量、分辨率与运动连贯性。
CogVideo 代表了从图像生成到视频生成演进中的重要里程碑,说明了在静态图像上验证的架构方法如何扩展到处理视频的额外时间维度。对追踪 AI 视频工具发展的从业者而言,理解 CogVideo 等早期模型可为后续更强生产模型所基于的架构决策与能力基准提供背景。