Bernini は ByteDance のオープンソース動画モデルで、生成と同じくらい編集を中心に作られています。MLLM プランナーが指示を読み取って何を変えるべきかを判断し、Wan2.2 をベースにした DiT レンダラーがピクセルを描画します。これにより、指定していない部分はそのままに、実際のクリップを変更できます。本ガイドでは、Bernini に何ができるか、スペック、プロンプトの読み取り方、きれいな編集を支える一貫性ロック、そしてタスクごとのプロンプト構成を解説します。
Bernini でできること:編集、サブジェクト動画化、生成
| 機能 | 内容 | 向いている用途 |
|---|---|---|
| 一貫性ロック編集 | 指定していない領域を固定したまま、クリップ内の要素を追加・削除・変更する | オブジェクトの追加/削除、きれいなレタッチ |
| リファレンス誘導編集 | 参照画像や2本目のクリップをソース動画に適用する | 衣装の差し替え、商品や画面の挿入 |
| サブジェクト動画化 | 参照画像の人物やキャラクターを新しいシーンに配置する | アバター、キャラクター制作、連続コンテンツ |
| モーション編集 | クリップ内でサブジェクトの動作を変更する | 撮り直さずにアクションをポーズし直す |
| 画像+動画の統合 | 1つのモデルでテキスト→画像、画像編集、テキスト→動画、動画編集をカバー | 1つのプロンプト言語で静止画と動画の両方 |
一貫性ロック編集
プランナーがレンダラーの描画前に意味づけを確定するため、Bernini は変更を指定していない部分をそのまま保ちます。編集内容を指定し、次に固定する部分を指定すれば、指定していない領域は動画全体を通してちらつきやズレなく静止します。これがこのモデルの最も強い編集特性です。
リファレンス誘導編集
参照画像や2本目のクリップを渡すと、Bernini はそれをソース動画に適用します。1枚の静止画から動いているサブジェクトに衣装を差し替えたり、商品や画面上の動画を挿入して元の映像に追従させたりできます。変更箇所の周囲は、ソースクリップのまま保たれます。
サブジェクト動画化
参照画像を渡し、プロンプト内でそれぞれをインデックス(image0、image1)で参照し、どのサブジェクトや属性がどの画像由来かを指定します。Bernini は動いてもその顔が判別できる形でサブジェクトを新しいシーンに引き継ぎます。これは ByteDance のサブジェクト動画化評価で際立った結果を示しています。
モーション編集
既存のクリップ内でサブジェクトの動作を変更します。人物が前かがみではなくしゃがむ、といった具合に、本人らしさ、フレーミング、ライティング、背景は据え置かれます。撮り直さずにアクションを組み直せます。
画像+動画の統合
1つのモデルでテキスト→画像、画像編集、テキスト→動画、動画編集をカバーするため、静止画と動画編集が同じプロンプト言語から生まれます。1つの指示の仕方を覚えれば、両方の形式に適用できます。
Bernini の用途
撮影済みの映像をクリーンアップ
実際のクリップから気になる要素を取り除いたり、足りない要素を加えたり、ディテールをスタイル変更したりできます。撮り直しは不要です。一貫性ロックがショットの残りの部分をそのまま保ちます。

繰り返し登場するキャラクターを作る
エピソード、広告、アバターシリーズを通して同じ顔を保ちます。サブジェクト動画化が、数枚の参照画像から人物の本人らしさを新しいシーンに引き継ぎます。

試着と商品配置
参照画像から動いているサブジェクトに衣装を差し替えたり、ショットに商品や画面上の動画を入れ込んだりできます。ソースクリップはそのまま保たれます。

パフォーマンスを変える
撮り直す代わりに、テイク内でアクションを組み直したりサブジェクトの動きを調整したりできます。本人らしさ、フレーミング、ライティングは固定されたままです。

Bernini へのプロンプトの書き方
2つの習慣が、Bernini の品質の大半を左右します。
- 説明ではなく指示を書く。編集では既存のクリップを変更するので、プロンプトは指示文になります。何を、どこに、追加・削除・変更するかです。生成(テキスト→動画、テキスト→画像)では、通常どおりシーン全体を描写します。
- 変える部分を指定し、次に残す部分を指定する。レンダラーはどの領域にも手を加えられるので、最も確実な編集は、変更を述べてから動かしてはいけないすべてを固定することです。この2つ目の習慣が一貫性ロックで、次に解説します。
詳細で構成された指示は、簡潔なものに勝ります。Bernini のプランナーは、一言で済ませるより、サイズ、配置、素材、そして新しい要素のライティングがシーンにどう合うかまで書き出したほうが、よい結果を出します。
一貫性ロック:1つだけ編集し、残りを保つ
レンダラーは指定していない領域をうまく保ちますが、それはプロンプトがその領域を伝えた場合に限ります。やり方は、編集を正確に述べ、次に変えてはいけないすべてを列挙し、最後を「変更しない(unchanged)」で締めることです。削除も同じで、埋める内容を描写してから周囲を固定します。
| 編集 | 弱い例 | 強い例 |
|---|---|---|
| オブジェクトを追加 | 動画に雪だるまを入れて | 犬の隣、画面中央右寄りの地面に、雪玉3つの雪だるまを追加。にんじんの鼻と石炭のボタンを付け、曇り空の光と柔らかい影に合わせる。犬、道路、木はそのまま変更しない。 |
| 衣装の差し替え | シャツを変えて | 外側のシャツを参照画像のものに置き換え、リアルなドレープで着せる。ポーズ、カメラ、ライティング、背景、動きはそのまま正確に保つ。 |
| サブジェクト動画化 | これらの参照をビーチ動画に使って | image0 の彫像が、image3 のショートパンツを身に着け、夕暮れの image4 のベンチに座り、音楽に合わせて穏やかに揺れる。image0 の彫像の石の体と image4 のビーチのシーンはそのまま変更しない。 |
ロックを省くとモデルは背景を自由に描き直してしまいます。これに一文を割けば、編集は元のショットに元から馴染んだものとして読み取れます。
Bernini でよくあるプロンプトの失敗(とその直し方)
- ロックなし:変わらない部分を指定しないと、編集がフレームの残りに滲み出します。
- 簡潔すぎる指示:3語の命令ではなく、新しい要素を、サイズ、配置、素材、ライティングまで含めて十分に描写します。
- 曖昧な参照:サブジェクト動画化では、各画像をインデックス(image0、image1)で参照し、どの属性がどの画像由来かを述べます。「これらの参照を使って」では足りません。
- 本人らしさまで動かすモーション編集:動きを変えるときは、人物、衣装、位置、カメラを固定し、アクションだけが変わるようにします。
- 4Kを期待する:デフォルトのレンダリングは 480p・16fps で、解像度より編集の忠実度に合わせて調整されています。指定していない領域をどれだけきれいに保つかで評価してください。
Bernini のスペックとアーキテクチャ
| スペック | Bernini |
|---|---|
| 提供元 | ByteDance |
| アーキテクチャ | MLLM プランナー(Qwen2.5-VL)+ 14B DiT レンダラー(Wan2.2) |
| モード | テキスト→画像、画像編集、テキスト→動画、動画編集、モーション編集、リファレンス編集、サブジェクト動画化 |
| 解像度 | 480p(デフォルト) |
| フレームレート | 16 fps |
| ライセンス | Apache 2.0、オープンウェイト |
よくある質問
変更を正確に述べ、次に変わらないべきすべて、つまりサブジェクト、カメラ、ライティング、背景、影を明示的にロックします。一言で済ませず詳細を書き、1回につき1つの編集にとどめます。
Bernini の編集を引き立てる言い回しの習慣です。編集を描写したあと、指定していない領域を変更しないものとして固定します。Bernini はその領域をうまく保ちますが、それはプロンプトがその領域を伝えた場合に限ります。
複数の参照画像を渡し、プロンプト内でそれぞれをインデックス(image0、image1、image2)で参照します。どのサブジェクトや属性がどの画像由来かを述べ、それから新しいシーンと動きを描写します。
生成にはテキストのみ、編集とモーション編集には動画+テキスト、リファレンス誘導編集には動画+参照画像またはクリップ、サブジェクト動画化には複数の参照画像+テキストを受け付けます。
デフォルトのレンダリング設定は 480p・16fps です。このリリースは最大解像度より編集の忠実度と一貫性を優先しており、計算コストを増やせばより高い設定も可能です。

