ByteDance Bernini：AI動画完全ガイドとプロンプト

Bernini でできること：編集、サブジェクト動画化、生成

機能	内容	向いている用途
一貫性ロック編集	指定していない領域を固定したまま、クリップ内の要素を追加・削除・変更する	オブジェクトの追加／削除、きれいなレタッチ
リファレンス誘導編集	参照画像や2本目のクリップをソース動画に適用する	衣装の差し替え、商品や画面の挿入
サブジェクト動画化	参照画像の人物やキャラクターを新しいシーンに配置する	アバター、キャラクター制作、連続コンテンツ
モーション編集	クリップ内でサブジェクトの動作を変更する	撮り直さずにアクションをポーズし直す
画像＋動画の統合	1つのモデルでテキスト→画像、画像編集、テキスト→動画、動画編集をカバー	1つのプロンプト言語で静止画と動画の両方

一貫性ロック編集

プランナーがレンダラーの描画前に意味づけを確定するため、Bernini は変更を指定していない部分をそのまま保ちます。編集内容を指定し、次に固定する部分を指定すれば、指定していない領域は動画全体を通してちらつきやズレなく静止します。これがこのモデルの最も強い編集特性です。

リファレンス誘導編集

参照画像や2本目のクリップを渡すと、Bernini はそれをソース動画に適用します。1枚の静止画から動いているサブジェクトに衣装を差し替えたり、商品や画面上の動画を挿入して元の映像に追従させたりできます。変更箇所の周囲は、ソースクリップのまま保たれます。

サブジェクト動画化

参照画像を渡し、プロンプト内でそれぞれをインデックス（image0、image1）で参照し、どのサブジェクトや属性がどの画像由来かを指定します。Bernini は動いてもその顔が判別できる形でサブジェクトを新しいシーンに引き継ぎます。これは ByteDance のサブジェクト動画化評価で際立った結果を示しています。

モーション編集

既存のクリップ内でサブジェクトの動作を変更します。人物が前かがみではなくしゃがむ、といった具合に、本人らしさ、フレーミング、ライティング、背景は据え置かれます。撮り直さずにアクションを組み直せます。

画像＋動画の統合

1つのモデルでテキスト→画像、画像編集、テキスト→動画、動画編集をカバーするため、静止画と動画編集が同じプロンプト言語から生まれます。1つの指示の仕方を覚えれば、両方の形式に適用できます。

犬の隣に雪だるまを追加し、クリップの他の部分はそのままにする今すぐ試す

Bernini の用途

撮影済みの映像をクリーンアップ

実際のクリップから気になる要素を取り除いたり、足りない要素を加えたり、ディテールをスタイル変更したりできます。撮り直しは不要です。一貫性ロックがショットの残りの部分をそのまま保ちます。

ビフォーアフター：湖畔のクリップから気になる要素を取り除き、シーンの残りはそのまま

繰り返し登場するキャラクターを作る

エピソード、広告、アバターシリーズを通して同じ顔を保ちます。サブジェクト動画化が、数枚の参照画像から人物の本人らしさを新しいシーンに引き継ぎます。

試着と商品配置

参照画像から動いているサブジェクトに衣装を差し替えたり、ショットに商品や画面上の動画を入れ込んだりできます。ソースクリップはそのまま保たれます。

ビフォーアフター：モデルのTシャツを仕立てたブレザーに差し替え、ポーズ・ライティング・背景はそのまま

パフォーマンスを変える

撮り直す代わりに、テイク内でアクションを組み直したりサブジェクトの動きを調整したりできます。本人らしさ、フレーミング、ライティングは固定されたままです。

ビフォーアフター：サブジェクトのポーズを前かがみからしゃがみに変更し、シーン・フレーミング・ライティングはそのまま

Bernini へのプロンプトの書き方

2つの習慣が、Bernini の品質の大半を左右します。

説明ではなく指示を書く。編集では既存のクリップを変更するので、プロンプトは指示文になります。何を、どこに、追加・削除・変更するかです。生成（テキスト→動画、テキスト→画像）では、通常どおりシーン全体を描写します。
変える部分を指定し、次に残す部分を指定する。レンダラーはどの領域にも手を加えられるので、最も確実な編集は、変更を述べてから動かしてはいけないすべてを固定することです。この2つ目の習慣が一貫性ロックで、次に解説します。

詳細で構成された指示は、簡潔なものに勝ります。Bernini のプランナーは、一言で済ませるより、サイズ、配置、素材、そして新しい要素のライティングがシーンにどう合うかまで書き出したほうが、よい結果を出します。

一貫性ロック：1つだけ編集し、残りを保つ

レンダラーは指定していない領域をうまく保ちますが、それはプロンプトがその領域を伝えた場合に限ります。やり方は、編集を正確に述べ、次に変えてはいけないすべてを列挙し、最後を「変更しない（unchanged）」で締めることです。削除も同じで、埋める内容を描写してから周囲を固定します。

編集	弱い例	強い例
オブジェクトを追加	動画に雪だるまを入れて	犬の隣、画面中央右寄りの地面に、雪玉3つの雪だるまを追加。にんじんの鼻と石炭のボタンを付け、曇り空の光と柔らかい影に合わせる。犬、道路、木はそのまま変更しない。
衣装の差し替え	シャツを変えて	外側のシャツを参照画像のものに置き換え、リアルなドレープで着せる。ポーズ、カメラ、ライティング、背景、動きはそのまま正確に保つ。
サブジェクト動画化	これらの参照をビーチ動画に使って	image0 の彫像が、image3 のショートパンツを身に着け、夕暮れの image4 のベンチに座り、音楽に合わせて穏やかに揺れる。image0 の彫像の石の体と image4 のビーチのシーンはそのまま変更しない。

ロックを省くとモデルは背景を自由に描き直してしまいます。これに一文を割けば、編集は元のショットに元から馴染んだものとして読み取れます。

Bernini でよくあるプロンプトの失敗（とその直し方）

ロックなし：変わらない部分を指定しないと、編集がフレームの残りに滲み出します。
簡潔すぎる指示：3語の命令ではなく、新しい要素を、サイズ、配置、素材、ライティングまで含めて十分に描写します。
曖昧な参照：サブジェクト動画化では、各画像をインデックス（image0、image1）で参照し、どの属性がどの画像由来かを述べます。「これらの参照を使って」では足りません。
本人らしさまで動かすモーション編集：動きを変えるときは、人物、衣装、位置、カメラを固定し、アクションだけが変わるようにします。
4Kを期待する：デフォルトのレンダリングは 480p・16fps で、解像度より編集の忠実度に合わせて調整されています。指定していない領域をどれだけきれいに保つかで評価してください。

Bernini のスペックとアーキテクチャ

スペック	Bernini
提供元	ByteDance
アーキテクチャ	MLLM プランナー（Qwen2.5-VL）＋ 14B DiT レンダラー（Wan2.2）
モード	テキスト→画像、画像編集、テキスト→動画、動画編集、モーション編集、リファレンス編集、サブジェクト動画化
解像度	480p（デフォルト）
フレームレート	16 fps
ライセンス	Apache 2.0、オープンウェイト

よくある質問

Bernini で最良の結果を得るには？

変更を正確に述べ、次に変わらないべきすべて、つまりサブジェクト、カメラ、ライティング、背景、影を明示的にロックします。一言で済ませず詳細を書き、1回につき1つの編集にとどめます。

一貫性ロックとは？

Bernini の編集を引き立てる言い回しの習慣です。編集を描写したあと、指定していない領域を変更しないものとして固定します。Bernini はその領域をうまく保ちますが、それはプロンプトがその領域を伝えた場合に限ります。

サブジェクト動画化では画像をどう参照する？

複数の参照画像を渡し、プロンプト内でそれぞれをインデックス（image0、image1、image2）で参照します。どのサブジェクトや属性がどの画像由来かを述べ、それから新しいシーンと動きを描写します。

Bernini はどんな入力を受け付ける？

生成にはテキストのみ、編集とモーション編集には動画＋テキスト、リファレンス誘導編集には動画＋参照画像またはクリップ、サブジェクト動画化には複数の参照画像＋テキストを受け付けます。

Bernini の出力解像度とフレームレートは？

デフォルトのレンダリング設定は 480p・16fps です。このリリースは最大解像度より編集の忠実度と一貫性を優先しており、計算コストを増やせばより高い設定も可能です。