テキストから動画
テキストから映像へ(Text-to-video)とは、書かれたテキストプロンプトを主入力として映像クリップを生成するAI生成のモードで、モデルがプロンプトの言語のみから動き、被写体の振る舞い、カメラの動き、時間的進行を合成する。テキストから画像へのパラダイムを時間次元に拡張し、モデルは一つのコヒーレントなフレームだけでなく、一貫した妥当な動きと視覚的連続性を持つフレームの連続を生成する必要がある。
テキストから映像へは、モデルが多数のフレームにわたって一貫性を保ちながら、信じられる動き、物理、時間的進行も生成しなければならないため、テキストから画像への生成より技術的に要求が高い。プロンプトは何が見えるべきかだけでなく、物事が時間とともにどう動き変化すべきかも伝える必要がある。静的なシーンとして明確に読める記述でも、効果的に映像に翻訳するには動きとアクションの言語が追加で必要になることが多い。主要なテキストから映像モデルは、自然な環境、単純な被写体のアクション、雰囲気のあるシーンといった特定のコンテンツタイプで高い能力を発達させているが、複雑な複数キャラクターの相互作用、精密な物理的相互作用、非常に長いクリップ尺は依然として課題が大きい。
テキストから映像へはMorphicの主要な生成モードであり、プロンプトを解釈する複数の映像生成モデルが利用できる。効果的なテキストから映像プロンプトを書くには、視覚的なシーンだけでなくその中のアクション・動き・進行を記述する——時間とともに何が変わるか、カメラがどう動くか、クリップの始まりから終わりまで何が起きるかを指定すると、静的なシーンを記述するよりダイナミックで目的のある結果が得られる。