Gemini Omni
Google DeepMind 提供
Google初のany-to-any AIモデル。テキスト・画像・音声・動画を入力し、テキスト・画像・音声・動画を出力。

主な機能
技術仕様
Omni Flash
GoogleのGemini Omniファミリー初のモデル
Video
画像と音声の出力はGemini Omniのロードマップに予定
Up to 10s
Flashクリップはローンチ時にアクセス拡大のため10秒上限
Text, image, audio, video
1つのGemini Omniプロンプトで任意の組み合わせが可能
Voice references
まず音声サンプルに対応、後にフル音声入力も追加予定
SynthID
すべてのGemini Omni出力に付与される知覚できないAI出所ウォーターマーク
May 19, 2026
Google I/O 2026で発表
Google DeepMind
any-to-any動画制作におけるVeoの後継的な位置づけ
活用事例
マルチ入力のストーリーボード制作
キャラクター画像、ロケ写真、音楽キュー、1行のビートを投入すると、Gemini Omniがショットを組み立てます。フォローアッププロンプトで同じシーンを繰り返し改善できます。
会話型動画編集
既存のクリップを自然な言葉で編集できます。衣装変更、背景差し替え、ライティング調整、ビートのタイミング変更。Gemini Omniはショットの他の部分を安定して保ちます。
マーケティング動画
ブランドカラー、製品の形状、画面上のテキストを守った広告カットを生成。製品写真、ナレーション、設定のブリーフを1つのプロンプトで組み合わせ、完成した広告スポットに仕上げます。
教育用解説動画
物理と実世界の推論を活用して、科学、歴史、エンジニアリングの概念をビジュアル化。科学的な正しさを保ちながら、クリーンで見せられる映像を生成します。
アバター・スポークスパーソン動画
ポートレート画像と音声リファレンスを組み合わせると、Gemini Omniは複数の短い動画で同じプレゼンターを生成。コース教材、製品ウォークスルー、SNSショートに最適です。
SNSショート動画
10秒以内のクリップはYouTube Shorts、Reels、TikTokの尺にぴったり。プロンプトをやり直さず会話でバリエーションを生成し、最も刺さるバージョンを公開できます。
プロンプト例






シンプルな料金体系
今すぐ無料で始めて、いつでもアップグレードまたはキャンセルできます。
Basic
500 月 クレジット
1 ユーザーのみ
すべてのモデル
ワークフロー
Standard
2800 月 クレジット
1 ユーザーのみ
すべてのモデル
ワークフロー
Pro
6000 共有 月 クレジット
1 ユーザー
すべてのモデル
ワークフロー
Pro Max
24000 共有 月 クレジット
1 ユーザー
すべてのモデル
ワークフロー
Enterprise
より高い制限のために
カスタム
料金と請求条件

Free
For playing around
$0
forever free
よくある質問
Reve 2.0
Reve AI
Reve AIのレイアウト優先の画像モデル。すべての要素を手作業で配置し、結果をデザインファイルのように編集し、最大4Kで鮮明なテキストを描画する。
Bernini
ByteDance
指示ベースの編集に対応したByteDanceのオープンソース動画モデル。フレームの他の部分は固定され、被写体の同一性も保たれる。
Grok Imagine v1.5
xAI
ネイティブの同期音声を備えたxAIの画像から動画モデル。あらゆる静止画を、音、セリフ、音楽付きのクリップにアニメート。
Veo 4
Google DeepMind
Google DeepMindの次世代動画モデル。ネイティブ4K、より長いクリップ、マルチショットでのキャラクター一貫性、シネマティックなカメラ言語をひとつのプロンプトで実現。