Glossaryarrow
CogVideo
CogVideo

CogVideoは、智譜AI(Zhipu AI)が開発したテキストから動画を生成するAIモデルで、テキストプロンプトから直接数秒の動画クリップを生成できる初期の大規模オープンソースモデルの一つです。オープンソースの研究モデルとして公開され、自己回帰型トランスフォーマーアーキテクチャを有意な長さ・解像度の動画生成に適用できることを示し、AI動画生成の進展に貢献しました。

初代CogVideoは、CogView画像生成アーキテクチャを基に、テキストを条件とした階層的自己回帰によりフレーム単位で動画を生成しました。自然言語の記述に意味的に一貫した短いクリップで応答する点で注目されましたが、後の世代モデルと比べると画質は限定的でした。大規模な動画生成モデルとして早期にオープンに公開されたことにより、学術研究やコミュニティ実験が可能になり、意義の大きいモデルでした。その後、CogVideo系の改良版や派生モデルにより、画質・解像度・動きの一貫性が向上していきました。

CogVideoは、画像生成から動画生成への流れにおける重要なマイルストーンであり、静止画で実証されたアーキテクチャが動画の時間次元にどう拡張されたかを示しています。AI動画ツールの変遷を追う実務者にとって、CogVideoのような初期モデルを理解することは、後の本格的な制作モデルが乗り越えてきたアーキテクチャ上の選択と能力基準を把握するうえで有用です。

Can't find what you are looking for?
Contact us and let us know.
bg