動画から動画
ビデオツービデオは、既存の動画クリップを主入力とし、AIモデルがその映像を処理して、追加のテキストまたは画像の指示に従って変換・スタイル変更・再解釈する生成ワークフローである。ゼロから生成するテキストから動画と異なり、ビデオツービデオは入力映像の動き・構造・時間情報を土台とし、基盤の動きと構成を保ちながら視覚的な表面やスタイルに変更を加える。
ビデオツービデオワークフローは、動画へのスタイル転送(実写映像に芸術的スタイルを適用)、動画の強調・復元、動きを維持したまま環境や被写体の見た目を変える、荒いまたは参照映像を構造ガイドとして磨かれたAIコンテンツを生成する、といったさまざまな応用を可能にする。シーンの動きが複雑でテキストプロンプトで記述しにくい場合に特に有用で、実写や荒い映像を入力にすると、テキストだけでは伝えられない正確な時間情報をモデルに与えられる。出力が入力構造にどれだけ忠実か対して再解釈するかは、通常は条件付け強度パラメータで制御する。
ビデオツービデオワークフローは、視覚的変換が必要な実写素材、動きの参照として撮影した荒いプロキシコンテンツ、スタイル変更や仕上げが必要な以前のAI生成など、既存映像を扱う際の創造的可能性を広げる。ビデオツービデオとテキストプロンプトを組み合わせると、動きの構造と最終出力の視覚的処理の両方をクリエイターが制御できる。