CogVideo
CogVideo는 지프 AI(Zhipu AI)가 개발한 텍스트-투-비디오 생성 AI 모델로, 텍스트 프롬프트만으로 다초 단위 비디오 클립을 직접 생성할 수 있는 초기 대규모 오픈소스 모델 중 하나입니다. 오픈소스 연구 모델로 공개되어, 자기회귀 트랜스포머 아키텍처를 의미 있는 길이와 해상도의 비디오 생성에 적용할 수 있음을 보여 주며 AI 비디오 생성 분야 발전에 기여했습니다.
원본 CogVideo는 CogView 이미지 생성 아키텍처를 바탕으로 텍스트에 조건지워진 비디오를 프레임별로 생성하는 계층적 자기회귀 방식을 사용했습니다. 자연어 설명에 의미적으로 일관된 짧은 클립을 만들어 냈으며, 이후 세대 모델에 비해 시각 품질은 제한적이었습니다. 대규모 비디오 생성 모델 중 처음으로 공개된 모델 중 하나로 학술 연구와 커뮤니티 실험을 가능하게 했습니다. CogVideo 계보의 후속 버전과 파생 모델은 분야가 발전하면서 시각 품질, 해상도, 모션 일관성을 개선했습니다.
CogVideo는 이미지 생성에서 비디오 생성으로의 전환 과정에서 중요한 이정표이며, 정적 이미지에서 검증된 아키텍처 접근이 비디오의 시간 차원을 다루도록 확장된 방식을 보여 줍니다. AI 비디오 도구 발전을 따라가는 실무자에게 CogVideo 같은 초기 모델을 이해하는 것은 이후 더 성능이 좋은 프로덕션 모델이 쌓아 올린 아키텍처 결정과 능력 벤치마크에 대한 맥락을 제공합니다.