Gemini Omni Flash：完全ガイド、プロンプト、機能

MorphicによるGemini Omni Flash完全ガイド。Googleのany-to-anyモデルができること、ネイティブ音声、会話による編集、キャラクターと物理の一貫性、実世界の知識、SynthIDウォーターマーク、そして実例付きのプロンプト解説。

Morphicで試す

Gemini Omniの機能と特徴

Gemini Omniは、2026年5月19日にGoogle I/O 2026で発表されたGoogle初のany-to-anyモデルです。最初のリリースであるGemini Omni Flashは、テキスト、画像、動画を入力として受け付け、Geminiの実世界の知識に基づいて同期した音声付きの動画を生成します。クリップは16:9または9:16で最大10秒、720pに対応し、やり直すのではなく会話で改善していきます。

機能	できること	適した用途
any-to-any入力	1つのプロンプトでテキスト、画像、動画を組み合わせ、つなぎ合わせるのではなく横断して推論し1本のショットにまとめる	複数リファレンスのブリーフ、ストーリーボード
ネイティブ音声	すべてのクリップで同じ処理の中に同期した音声を生成し、別途の音声工程が不要	会話シーン、環境音、音楽
会話による編集	自然な言葉のフォローアップでクリップを改善。同じシーンでオブジェクトの差し替え、ライティング変更、アクションの変更ができる	やり直さずにショットを反復
キャラクターと物理の一貫性	編集をまたいでキャラクター、オブジェクト、スタイルを保ち、重力、運動エネルギー、流体の挙動も自然	繰り返し登場するキャラクター、リアルな動き
実世界の知識	Geminiの歴史、科学、文化への理解に基づき、シーンの細部が正確に保たれる	解説動画、正確なディテール
SynthIDウォーターマーク	再エンコードやリサイズにも耐える、すべてのクリップに付く不可視の出所ウォーターマーク	追跡でき、識別可能なAIコンテンツ

any-to-any入力

1つのGemini Omniプロンプトは、テキスト、画像、動画を同時に受け付けます。入力を順番につなぎ合わせるのではなく、モデルはそれらを1つのブリーフとして横断して推論するため、ポートレートのリファレンス、ロケーションの写真、書かれたビートがすべて同じ生成ショットを形づくります。複数のリファレンス画像を渡して、特定の被写体をシーンに持ち込むこともできます。個別の音声リファレンスのアップロードは順次展開中で、まだすべての環境では利用できません。GoogleのGeminiアプリでは、Avatarsを使って自分の声で動画に登場できます。

ネイティブ音声

すべてのクリップは同じ処理の中で専用の同期音声とともに生成されるため、セリフ、効果音、環境音、音楽が無音のレンダーではなく動きとともに返ってきます。欲しい音をショットと同じプロンプトで指定すれば、音声は後から追加されるのではなくアクションに合わせてタイミングが取られます。

会話による編集

編集そのものがプロンプトです。自然な言葉のフォローアップでクリップを改善します。「彫刻を泡でできたものにして」、シーンのライティングを変える、アクションを変える、要素を追加するといった指示に対し、モデルはショットの他の部分を保ちます。ターンをまたいで文脈を保持するため、複数回の編集がゼロからやり直すのではなく同じシーンの上に積み重なります。

キャラクターと物理の一貫性

キャラクター、オブジェクト、スタイルは会話による編集をまたいで保たれ、重力、運動エネルギー、流体の挙動といった力への理解が向上しています。一貫性は同じシーンを改善するときに最も強く働きます。シーンを変えたり大きなカメラのパンを求めたりするとぶれることがあるため、大きな変更はそれぞれ別の生成にとどめてください。

実世界の知識

Gemini Omniは、Geminiの歴史、科学、文化に関する知識にシーンを基づかせるため、時代考証、物理的な挙動、文化的な固有性が、汎用的なAIの質感に流れることなく正確に保たれます。この基盤があるからこそ、解説動画やディテールが正確でなければならないあらゆるショットで役立ちます。

SynthIDウォーターマーク

すべてのクリップには、AIの出所を示すGoogleの知覚できないSynthIDウォーターマークが付与されます。デフォルトで有効で、視聴者には見えず、再エンコードやリサイズといった一般的な変換にも耐えるため、生成された素材は制作工程を通じて識別可能なまま残ります。

同じキャラクターが窓辺で手紙を読む、柔らかな朝の光今すぐ試す

雨に濡れた東京の路地で、ナトリウム灯の光を浴びる探偵、ティール＆アンバーのノワール

シネマティックノワール

雨に濡れた東京の路地に佇む探偵、ナトリウム灯の反射、ティール＆アンバーのノワール

Edit prompt

製品ローンチ

チタン台の上に浮かぶ前衛的なスニーカー、ハードなキーライト、ローンチムード

Edit prompt

自然解説

露の葉に結晶の王冠のように静止した水滴、日の出の逆光マクロ

Edit prompt

アバタースポークスパーソン

レンズを見据える落ち着いたホスト、温かな三点照明、85mmのボケ

Edit prompt

長い影と舞う塵とともに、ブルータリズムのコンクリートの邸宅を差し込むゴールデンアワーの光

建築ウォークスルー

ブルータリズム建築を照らすゴールデンアワーの光、長い影、舞う塵

Edit prompt

ストーリービート

雨の窓辺で手紙を読む女性、心配から安堵へと和らぐ表情

Edit prompt

Gemini Omniを最大限に活かす方法

Gemini Omniは、各リファレンスを1つのシーンの一部として扱い、音声を明示し、やり直すのではなく会話で編集するブリーフに応えます。いくつかの実践が品質のほとんどを左右します。

すべてのリファレンスを一度に読み込む。テキスト、画像、動画を同じプロンプトに入れられます。モデルは順番につなぎ合わせるのではなく、それらを横断して一緒に推論するからです。リファレンス画像を追加して特定の被写体をシーンに持ち込みましょう。
常に音声を明示する。セリフ、効果音、環境音、音楽を自然な言葉で指定すれば、無音ではなく動きに合わせてタイミングの取れた音付きでクリップが返ってきます。
会話で編集する。ショットが仕上がりに近いときは、やり直すのではなく次のメッセージで欲しい変更を1つだけ伝えます。シーンはキャラクター、ライティング、連続性を保ちます。
ビートを10秒に収める。動画の延長やフレーム補間はないため、後で長くすることを当てにせず、クリップ内で完結する1つのアクションを計画しましょう。
シーンの変更はそれぞれ別の生成にとどめる。一貫性は同じシーンを改善するときに最も強く働きます。ハードなシーンの切り替えや大きなパンは、新しいショットとして生成した方が良いです。
重視する物理を指示する。重さ、衝突、流体の動き方を明示しましょう。基盤のある物理は誘導する価値のある強みです。

Gemini Omniプロンプトガイド

優れたプロンプトはキャプションではなく短いショットブリーフのように読めます。結果を左右するのは2つです。ショットに何が含まれるかの明確なリストと、曖昧な言葉ではなく具体的な言葉です。

プロンプトに入れるもの

要素	含めるもの	例
被写体	フレーム内の誰または何を、具体的に描写	ガラスのデスクに座るチャコールのブレザーを着たスタジオホスト
動き	何がどう動くか	彼女がレンズの方を向いて手ぶりをする
カメラ	ショットの種類と動きを1つ	ミディアムショット、ゆっくりプッシュイン
音声	セリフ、効果音、環境音、音楽	彼女が「おかえりなさい」と言う。柔らかなスタジオの空気音
フォーマット	長さとアスペクト比	10秒、16:9

会話による編集

編集そのものがプロンプトです。シーンを保ち、変更点だけを指定し、それ以外はすべて前のターンから引き継がせます。

同じシーンへのフォローアップ編集

同じホストとデスク、同じライティング。彼女のブレザーを深い緑に変え、最後の2秒でゆっくりプッシュインを加えて。先ほどの空気音はそのまま残して。

プロンプトを編集

弱いプロンプトと強いプロンプト

カメラ、動きとそのタイミング、音声を運任せにせず明示しましょう。

焦点	弱い	強い
カメラ	夜の街にいる女性	雨に濡れた通りを歩く女性を追うハンドヘルドのトラッキングショット、路面に映る店の明かり、浅い被写界深度
動きとタイミング	ドアが開いて誰かが入ってくる	ドアがゆっくり開き、一拍おいて人影が入り、そのあとカメラがミディアムショットに落ち着く
音声	料理を盛り付けるシェフ	料理を盛り付けるシェフのクローズアップ、立ちのぼる湯気。音声：フライパンのジュージューという音、柔らかな厨房の環境音、そして「サービス」の声

よくある間違い

プロンプトを無音のままにする：モデルは動画とともに音声を生成するため、必ず少なくとも1つの音のキューを書きましょう。
編集ではなくやり直す：ショットが仕上がりに近いときは、キャラクターと連続性が保たれるよう会話で1つの変更を求めましょう。
延長を当てにする：動画の延長はないため、1つのアクションを10秒のクリップ内に収めましょう。
画面上の密なテキスト：テキスト描画と非常に複雑な動きはまだ弱点なので、キャプションは短くするか後工程で追加しましょう。

シンプルな料金体系

今すぐ無料で始めて、いつでもアップグレードまたはキャンセルできます。

Basic

/ 月

請求額は $0 年

900 月クレジット

1 ユーザーのみ

すべてのモデル

ワークフロー

Standard

/ 月

請求額は $0 年

3200 月クレジット

1 ユーザーのみ

すべてのモデル

ワークフロー

Pro

/ 月

請求額は $0 年

6200 共有月クレジット

1 ユーザー

+ 最大 4 名まで追加費用

すべてのモデル

ワークフロー

Pro Max

/ 月

請求額は $0 年

24000 共有月クレジット

1 ユーザー

+ 最大 9 名まで追加費用

すべてのモデル

ワークフロー

Enterprise

より高い制限のために

カスタム

料金と請求条件

大容量クレジット

カスタムシート制限

すべてのモデル

ワークフロー

Free

気軽に試したい方に

ずっと無料

最大20クレジット

1ユーザーのみ

一部のモデル

ワークフロー

プラン詳細を比較

よくある質問

Gemini Omniとは何ですか？

Gemini Omniは、2026年5月19日にGoogle I/O 2026で発表されたGoogle初のany-to-anyモデルです。最初のリリースであるGemini Omni Flashは、テキスト、画像、動画を入力として受け付け、Geminiの実世界の知識に基づいて同期した音声付きの動画を生成し、会話による編集と、すべてのクリップへのSynthIDウォーターマークを備えています。

Gemini Omniはどのような入力を受け付けますか？

Gemini Omniは1つのプロンプトでテキスト、画像、動画を受け付け、それらをつなぎ合わせるのではなく1つのブリーフとして横断して推論します。複数のリファレンス画像を渡して特定の被写体をシーンに持ち込めます。個別の音声リファレンスのアップロードは順次展開中で、まだすべての環境では利用できません。画像と音声の出力はロードマップに含まれています。

Gemini Omniは音声を生成しますか？

はい。すべてのGemini Omniクリップは同じ処理の中で専用の同期音声とともに生成されるため、セリフ、効果音、環境音、音楽が後から追加されるのではなく動きに合わせてタイミングが取られます。音をショットと同じプロンプトで指定してください。

Gemini Omniの会話による編集はどう機能しますか？

最初の後のすべてのプロンプトは、新しい生成を始めるのではなく同じシーンを編集します。欲しい変更を1つ、たとえば新しいオブジェクト、ライティングを変えた背景、別のアクションなどを指定すると、ショットはキャラクター、ライティング、連続性を保ちます。一貫性は、シーンを切り替えたり大きなカメラのパンを求めたりするよりも、同じシーンを改善するときに最も強く働きます。

Gemini Omniのクリップの長さと解像度は？

Gemini Omni Flashは16:9または9:16で、720pのクリップを最大10秒生成します。動画の延長やフレーム補間はないため、クリップ内で完結する1つのアクションを計画してください。すべてのクリップにはデフォルトでGoogleの知覚できないSynthIDウォーターマークが付与されます。

MorphicでGemini Omniをどう使いますか？

Morphicを開き、プロンプトバーをVideoモードに切り替え、モデルピッカーからGemini Omniを選びます。テキスト、画像、動画、またはその組み合わせを添付し、ショットとその音声を記述してプロンプトを実行します。結果を修正するには次のメッセージで指示すれば、シーンは直前のコンテキストを保ちます。

Gemini Omniの機能と特徴

any-to-any入力

ネイティブ音声

会話による編集

キャラクターと物理の一貫性

実世界の知識

SynthIDウォーターマーク

Gemini Omniのプロンプト例

シネマティックノワール

製品ローンチ

自然解説

アバタースポークスパーソン

建築ウォークスルー

ストーリービート

Gemini Omniを最大限に活かす方法

Gemini Omniプロンプトガイド

プロンプトに入れるもの

会話による編集

弱いプロンプトと強いプロンプト

よくある間違い

シンプルな料金体系

よくある質問