CogVideo est un modèle d'IA génératif texte-vidéo développé par Zhipu AI, l'un des premiers grands modèles open source capables de générer des clips vidéo de plusieurs secondes directement à partir de prompts texte. Le modèle original CogVideo utilisait une approche autoregressive hiérarchique pour générer la vidéo image par image conditionnée par le texte. CogVideo représente une étape importante dans la progression de la génération d'images à la génération vidéo. Pour les praticiens qui suivent le développement des outils vidéo IA, comprendre les premiers modèles comme CogVideo fournit le contexte des décisions architecturales et des benchmarks de capacité sur lesquels les modèles de production plus récents et plus capables se sont appuyés.