ポートレートのリファレンス、ロケーションの写真、音声サンプル、1行のビートを投入します。Gemini Omniは4つをまとめて読み取り、1つのまとまった動画を生成し、同じシーンを会話で編集し続けます。Veo 3.1、Seedance 2.0、その他の動画カタログとともにMorphicに登場予定です。
MorphicでGemini Omniを使う方法
1.
MorphicでVideoモードを開く
Morphic下部のプロンプトバーからVideoモードに切り替え、モデルピッカーからGoogleのGemini Omniを選択します。
2.
モデルピッカーでGemini Omniを選ぶ
モデルピッカーを開き、動画モデルの一覧からGemini Omniを選択します。最初に利用可能なリリースはGemini Omni Flashで、GoogleのOmniファミリーへの入口となります。
3.
入力を投入する
Gemini Omniに組み合わせてほしいリファレンスを添付します。テキスト、画像、音声ファイル、動画クリップ、あるいはそれらの任意の組み合わせ。モデルは各入力をつなぎ合わせるのではなく横断して推論するため、最終的なショットには各リファレンスが同時に反映されます。
4.
生成し、会話で編集を続ける
プロンプトを実行します。Gemini Omniは最大10秒のクリップを生成します。衣装を変えたり、設定を入れ替えたり、アクションのタイミングを調整したい場合は、次のメッセージで指示します。シーンは以前の内容を覚えているため、編集は既存のショットに反映されます。
Gemini Omniとは?
Gemini Omniは、2026年5月19日にGoogle I/O 2026で発表されたGoogle初のany-to-anyマルチモーダルモデルです。最初のリリースであるGemini Omni Flashは、テキスト、画像、音声、動画を入力として受け付け、動画を出力します。すべてのクリップに会話による編集、キャラクターの一貫性、SynthIDウォーターマークが付与されます。Googleは画像と音声の出力をGemini Omniファミリーの今後の追加として位置づけています。
MorphicではGemini Omniが動画モデルピッカーに用意されており、Veo 3.1、Seedance 2.0、Klingをはじめとする動画カタログと並んでいます。
Gemini Omniの機能と特長
Gemini Omniのany-to-any入力
1つのGemini Omniプロンプトはテキスト、画像、音声、動画を同時に受け付けます。入力を順番につなぎ合わせるのではなく、モデルがそれらを1つのブリーフとして横断的に推論するため、ポートレートのリファレンス、ロケーションの写真、音声サンプル、書かれたビートのすべてが同じ生成ショットを形作ります。音声リファレンスはローンチ時にサポートされる最初の音声入力で、より広範な音声入力はロードマップに含まれています。
Gemini Omniの会話による編集
Gemini Omniのすべての指示は前回の指示の上に積み重なります。衣装を変えたり、背景を入れ替えたり、アクションのタイミングを調整したり、シーンを延長したりするには、次のメッセージで記述するだけです。ショットは以前の内容を覚えているため、編集は既存のシーンに反映され、新しい生成を始める必要はありません。
Gemini Omniのキャラクターとシーンの一貫性
1つのGemini Omniショットで登場したキャラクターは、同じ会話内のカットや後続の編集をまたいでも顔、衣装、声を保ちます。モデルはターン間のライティングと連続性も保持するため、ショット1で登場したキャラクターはショット3でも識別できます。
物理的に正確なモーションと実世界の推論
Gemini Omniは物理、文化、歴史、科学の理解を生成するシーンに適用します。重力、重量、衝突、流体の挙動は実世界のルールに従い、歴史的・文化的なディテールは一般的なAIテクスチャに流れずに保たれます。結果として、動きが単に滑らかなだけでなく正しく見える映像が得られます。
一貫した画面上の声のための音声リファレンス
テキストと画像と並んで短い音声サンプルを提供すると、Gemini Omniは生成された動画の中で声を一貫した状態に保ちます。アバター主導の解説動画、ブランドのスポークスパーソンクリップ、同じプレゼンターが複数の動画に登場するショートフォームSNSコンテンツに役立ちます。
すべてのGemini Omni動画にSynthIDウォーターマーク
Gemini Omniが生成するすべてのクリップには、AIの出所を示すGoogleの知覚できないSynthIDデジタルウォーターマークが付与されます。ウォーターマークは視聴者には見えず、再エンコードやリサイズなどの一般的な変換にも耐えるため、AI生成素材は制作チェーンを通じて識別可能なまま保たれます。
FAQs
Gemini OmniはGoogle初のany-to-anyマルチモーダルモデルです。最初のリリースであるGemini Omni Flashは、テキスト、画像、音声、動画を入力として受け付け、動画を出力します。すべてのクリップに会話による編集、キャラクターの一貫性、正確な物理表現、SynthIDウォーターマークが付与されます。
Morphicを開き、プロンプトバーをVideoモードに切り替え、モデルピッカーからGemini Omniを選びます。テキスト、画像、音声、動画、またはそれらの任意の組み合わせを添付してプロンプトを実行します。結果を修正したい場合は次のメッセージで指示すれば、シーンは直前のコンテキストを保ったまま編集されます。
いいえ。Gemini Omniの出力は動画です。モデルはテキスト、音声、動画と並んで画像を入力モダリティの1つとして受け付けますが、生成される結果は動画クリップです。Googleは画像と音声の出力をGemini Omniファミリーへの今後の追加として予定していると述べています。
Gemini Omni Flashのクリップはローンチ時に10秒で上限が設定されています。Googleはこの上限をモデルの制約ではなくデプロイメント上の判断と位置づけており、将来のリリースではGemini Omniのより長い長さも可能です。
Gemini Omniは1つのプロンプト内でテキスト、画像、音声、動画を任意の組み合わせで受け付けます。音声リファレンスはローンチ時にサポートされる最初の音声入力で、より広範な音声入力はロードマップに含まれています。
Veo 3.1はGoogle DeepMindの写実的な動画モデルで、4K解像度、ネイティブ音声合成、8秒のクリップを備え、放送品質のリアリズム向けに調整されています。Gemini Omni Flashはany-to-anyの兄弟モデルで、10秒上限、マルチ入力の推論、会話による編集、編集をまたいだ持続的なキャラクターの一貫性に焦点を当てています。
Gemini OmniとSeedance 2.0はどちらもマルチモーダル動画モデルです。Seedance 2.0は1回の生成で最大12個の混合アセットを受け付け、ネイティブ音声合成と音楽ビート同期を備え、1080p、4〜15秒に対応します。Gemini Omni Flashは会話によるターンごとの編集と、Googleの物理と実世界の推論に焦点を当てており、現在は10秒上限です。
SynthIDはAI生成コンテンツに対するGoogleの知覚できないウォーターマークです。Gemini Omniが生成するすべての動画にデフォルトで付与されます。ウォーターマークは視聴者には見えず、再エンコードやリサイズなどの一般的な編集にも耐えるため、AI生成素材は制作チェーンを通じて識別可能なまま保たれます。
GoogleはGemini Omniを2026年5月19日にGoogle I/O 2026で発表しました。Gemini Omni Flashはこのファミリーの最初のリリースで、画像と音声の出力は今後追加が予定されています。


