ビデオ・トゥ・ビデオ
ビデオ・トゥ・ビデオとは?
ビデオ・トゥ・ビデオは、既存の動画クリップをAI生成のガイドとして使い、元の動きと構造を保ちながら見た目を変換します。
ひと目で分かる
- 別名
- Vid2vid動画スタイル転送リファレンス動画生成
- 用途
- 既存映像に視覚スタイルを適用するAI生成の動き参照として実際の映像を使う以前のAI生成を再スタイル化するラフな参照動画から一貫した動きを生成する
- Key features
- 入力動画の動きと構造に生成を条件付けるソース映像から時間的情報を保持する条件付け強度がソースへの遵守を制御する動画入力と並んでテキストおよび画像プロンプトをサポートする
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
ビデオ・トゥ・ビデオは、テキスト・トゥ・ビデオ生成と比較するのが最も有用です。テキスト・トゥ・ビデオはテキスト記述から始まり、動きと視覚的外観の両方をゼロから生成します。これは物語的・概念的方向に対する完全な制御をクリエイターに与えますが、正確な動きに対する制御は限られます。ビデオ・トゥ・ビデオは動きの仕様を入力映像に移し、動きデザインにおける創造的自由をいくらか犠牲にして、正確な時間的制御を与えます。この2つのアプローチは補完的です。テキスト・トゥ・ビデオは初期の構想と新規コンテンツの生成に適し、ビデオ・トゥ・ビデオは洗練、再スタイル化、既存または参照映像のAI視覚処理への統合に適しています。
たとえば…
ビデオ・トゥ・ビデオは、伝統的アニメーションにおけるロトスコープのように機能します。既存の撮影された動きを骨格として使い、その上に新しい視覚コンテンツを描くのです。根底の動きは現実や以前の作業から借りてきます。生成が加えるのは、表面、スタイル、その動きが今住む視覚的世界です。ロトスコープアニメーターがパフォーマーの動きの弧をトレースし、それをアニメーションキャラクターとしてレンダリングするのと同様に、ビデオ・トゥ・ビデオ生成はソース映像の時間的構造をトレースし、それを新しい視覚的レジスターでレンダリングします。
プロのヒント
ビデオ・トゥ・ビデオのワークフローでは、動きガイドとしてのソース映像の品質が、その視覚的な仕上がりよりもはるかに重要です。望む動きを捉えるために特別に撮影されたラフなプロキシ映像(スマートフォンで、代役を立てたものでも)は、複雑な動きをテキストプロンプトで記述しようとするよりもしばしば良い結果を生み出します。望む動きを撮影し、それからビデオ・トゥ・ビデオを使ってあなたが構築している視覚的世界でレンダリングしましょう。このプロキシ優先のアプローチは、複雑なキャラクターの動き、特定のカメラ軌道、テキストプロンプトでは確実に指定できない物理的な相互作用に特に効果的です。
種類とバリエーション
ビデオ・トゥ・ビデオはいくつかの異なるワークフロータイプを含みます。フルフレームスタイル転送は、動画全体に美的変換を適用し、構図と動きを保ちつつ視覚処理を置き換えます。構造ガイド生成は、ソース動画から導出されたエッジマップ、デプスマップ、オプティカルフローを条件付け信号として使い、元の完全な視覚コンテンツなしに構造情報を生成モデルに与えます。リファレンスモーション生成は、ソースから動きデータを抽出し、それを使って全く異なる視覚的被写体をアニメーション化します。たとえば撮影されたダンサーの動きをAI生成キャラクターに適用します。インペインティングのバリアントは、ビデオ・トゥ・ビデオ変換をフレームの選択された領域のみに適用し、元の映像の残りはそのまま残します。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
ビデオ・トゥ・ビデオは幅広い制作文脈で使われます。広告制作は、実写映像をソーシャルメディアキャンペーン向けの様式化された視覚処理に変換するために使います。アニメーション制作は、AIキャラクターアニメーションの動きガイドとして実際の参照映像を使います。独立クリエイターは、モバイルデバイスで撮影した映像に映画的な視覚スタイルを適用するために使います。AI映画制作者は、動きは良いが視覚的品質が不満足な以前のAI生成を再スタイル化するために使います。ミュージックビデオ制作では、ビデオ・トゥ・ビデオは、パフォーマンスのタイミングと音楽の同期関係を失うことなく、素直なパフォーマンス映像を視覚的に独特なAI処理コンテンツへ変換するために頻繁に使われます。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
比較的きれいな背景に対して明確でよく照らされた被写体があり、モデルが正確に追える滑らかで読み取りやすい動きを持つクリップが、最も整合性のあるビデオ・トゥ・ビデオ出力を生み出す傾向があります。非常に速い動き、激しいカメラの揺れ、複雑な重なる動き、または大きな視覚ノイズを持つ映像は、モデルが正確に条件付けするのが難しくなります。特に動き参照を意図したプロキシ映像では、視覚的品質よりも動きの明瞭さを優先しましょう。AIが読み取っているのは動きであって、美的感覚ではありません。
条件付け強度は、生成された出力が入力動画の構造と動きにどれだけ忠実に従うかを統治します。高い条件付け強度では、出力はソースの構図、被写体の位置、動きの軌道に忠実に従います。低い条件付け強度では、モデルはソースを創造的に再解釈する自由をより多く持ち、より視覚的に整合性のある、または様式的に一貫した結果を追求して元の構造から逸脱する出力を生み出す可能性があります。与えられたソースと様式的目標に適した条件付け強度を見つけるには、しばしば実験が必要です。
はい、これは洗練と再スタイル化のための一般的なワークフローです。動きと構図は良いが視覚的品質が不満足なAI生成は、ビデオ・トゥ・ビデオの入力として使えます。2回目のパスの生成が、最初の生成の時間的構造を保ちつつ洗練された視覚ガイダンスを適用します。この反復的なアプローチにより、クリエイターは正しい動きを達成する問題を、適切な視覚スタイルを達成する問題から切り離せます。
動画アップスケーリングは、視覚スタイル、動き、コンテンツを変えずに既存動画の空間解像度を向上させます(画像をよりシャープに、より大きく、より詳細にします)。ビデオ・トゥ・ビデオは、様式的ガイダンスに応じて映像の視覚的外観を変換し、動きを保ちつつ画像の美的感覚、色処理、テクスチャ、レンダリングされた品質を変える可能性があります。アップスケーリングは品質の向上であり、ビデオ・トゥ・ビデオは創造的変換です。
ビデオ・トゥ・ビデオ生成は通常、視覚チャネルのみで動作し、音声を生成または保持せずに変換された動画出力を生み出します。ソース音声は別途扱う必要があります。ポストプロダクションで元の映像から引き継ぐか、新しい音声要素に置き換えるかのいずれかです。一部のプラットフォームはワークフローの一部として音声保持を提供する場合がありますが、生成操作自体は視覚的変換に焦点を当てています。
動画入力ではなく静止画をアニメーション化するには異なる技法が必要です。通常はイメージ・トゥ・ビデオ生成で、単一のフレームを視覚的アンカーとして使い、そこから動きを生成します。ビデオ・トゥ・ビデオは、複数フレームにわたる時間的情報を持つ実際の動画入力を必要とします。静止画をアニメーション化するには、ビデオ・トゥ・ビデオではなくイメージ・トゥ・ビデオ生成を使いましょう。
適用可能なスタイルの範囲は広く、特定の生成モデルの能力に依存します。一般的な応用には、実写映像をアニメーションの美的感覚へ変換する、絵画的またはイラスト的な処理を適用する、異なる映画的スタイル(ハイコントラストのノワール、彩度を下げたドキュメンタリー、ゴールデンアワーの暖かさ)で映像をレンダリングする、特定のジャンルの視覚処理を適用する、現実世界の動きの周りにファンタジーやSFの環境を生成することが含まれます。利用可能なスタイルは、モデルが何で訓練されたか、そしてテキストと画像のプロンプトが効果的に何を指定できるかによって制約されます。
現在のAI動画生成モデルは通常、単一の生成操作で最大約5秒から20秒のクリップを処理しますが、これはプラットフォームとモデルによって大きく異なります。より長いソース映像には、マテリアルを連続したクリップで処理する一般的なアプローチがあります。ソースをセグメントに分割し、各セグメントを別々に生成し、結果をポストプロダクション編集で組み立てます。別々に処理されたセグメント間の時間的一貫性には、すべてのセグメントにわたる一貫したプロンプトと条件付け設定への慎重な注意が必要です。