Multimodal

Gemini Omni

par Google DeepMind

Le premier modèle IA any-to-any de Google. Texte, images, audio et vidéo en entrée. Texte, images, audio et vidéo en sortie.

Entrée any-to-anyTexte vers vidéoImage vers vidéoAudio vers vidéoVidéo vers vidéoÉdition conversationnelleCohérence des personnagesMouvement physiquement précisRéférence audio de voixFiligrane SynthID
Gemini Omni

Fonctionnalités clés

Ce qui distingue Gemini Omni des autres modèles IA

Spécifications techniques

Spécifications clés et capacités en un coup d'œil

Omni Flash

Premier modèle de la famille Gemini Omni de Google

Video

Sortie image et audio prévues dans la feuille de route Gemini Omni

Up to 10s

Plans Flash limités à 10 secondes au lancement pour élargir l'accès

Text, image, audio, video

Toute combinaison dans un seul prompt Gemini Omni

Voice references

Échantillons de voix pris en charge d'abord ; entrées audio complètes à venir

SynthID

Filigrane imperceptible de provenance IA sur chaque sortie Gemini Omni

May 19, 2026

Annoncé à Google I/O 2026

Google DeepMind

Positionnement comme successeur de Veo pour la création vidéo any-to-any

Cas d'utilisation

Comment les créateurs et les entreprises utilisent Gemini Omni sur Morphic

Storyboard multi-entrées

Déposez une image de personnage, une photo de lieu, un repère musical et une ligne d'action ; Gemini Omni assemble le plan. Itérez sur la même scène via des prompts de suivi.

Édition vidéo conversationnelle

Modifiez un clip existant en langage naturel. Changez la garde-robe, remplacez l'arrière-plan, ajustez l'éclairage ou retemporisez un beat. Le reste du plan reste stable.

Vidéo marketing

Générez des montages publicitaires qui respectent couleurs de marque, forme du produit et texte à l'écran. Combinez photo produit, voix off et brief de décor en un spot fini.

Explicatifs éducatifs

Visualisez des concepts de science, d'histoire et d'ingénierie avec la physique et le raisonnement réel intégrés. Le modèle reste rigoureux tout en livrant des images propres.

Vidéos d'avatar et de présentateur

Combinez une image de portrait avec une référence de voix : Gemini Omni produit un présentateur identique sur plusieurs vidéos courtes, idéal pour formations, walkthroughs et shorts.

Shorts sociaux

Des clips de 10 secondes calés sur les timings YouTube Shorts, Reels et TikTok. Générez des variations par la conversation, puis publiez la version qui fonctionne.

Exemples de prompts

Ouvrez l'un de ces prompts pour le modifier et générer

Action cinématographique

Detective walking through neon-lit Tokyo alley at night, rain reflections on wet pavement, low-angle tracking shot, gritty noir

Edit prompt

Lancement produit

Matte-black wireless earbuds rotating above a marble pedestal, soft rim light, subtle haze, premium commercial mood

Edit prompt

Explicatif nature

Slow-motion water droplet hitting a leaf and bouncing, macro lens, soft morning light, accurate fluid behavior

Edit prompt

Présentateur avatar

Confident host in front of warm studio backdrop, eye contact, calm gestures, soft three-point lighting, broadcast feel

Edit prompt

Visite architecturale

Slow dolly through a minimalist concrete house at golden hour, long shadows, dust in the sunlight, calm score-ready pacing

Edit prompt

Beat narratif

Same character from earlier shot now seated by a window, reading a letter, expression shifting from worry to relief, soft natural light

Edit prompt

Tarifs simples

Commencez gratuitement dès aujourd'hui, avec la possibilité de mettre à niveau ou d'annuler à tout moment.

Basic

$0/ mois
facturé comme $0 par an

500 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Standard

$0/ mois
facturé comme $0 par an

2800 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Pro

$0/ mois
facturé comme $0 par an

6000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 4 plus à un coût supplémentaire

Tous les modèles

Workflows

Pro Max

$0/ mois
facturé comme $0 par an

24000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 9 plus à un coût supplémentaire

Tous les modèles

Workflows

Enterprise

Pour des limites plus élevées

Personnalisé

conditions de tarification et de facturation

Crédits illimités
Limites de sièges personnalisées
Tous les modèles
Workflows
Pricing Gradient

Free

For playing around

$0

forever free

Jusqu'à 20 crédits
1 utilisateur uniquement
Modèles limités
Workflows

FAQs

Qu'est-ce que Gemini Omni ?
Gemini Omni est le premier modèle multimodal any-to-any de Google, annoncé à Google I/O 2026. La première version, Gemini Omni Flash, accepte le texte, les images, l'audio et la vidéo en entrée et produit de la vidéo en sortie, avec édition conversationnelle, cohérence des personnages et filigrane SynthID sur chaque clip.
Gemini Omni est-il un modèle d'image ?
Non. Gemini Omni produit de la vidéo. Le modèle accepte les images en entrée aux côtés du texte, de l'audio et de la vidéo, mais la sortie générée est un clip vidéo. Google a indiqué que les modalités de sortie image et audio figurent sur la feuille de route Gemini Omni mais ne font pas partie du lancement initial.
Comment utiliser Gemini Omni sur Morphic ?
Ouvrez Morphic, passez la barre de prompt en mode Vidéo et choisissez Gemini Omni dans le sélecteur de modèles. Joignez n'importe quelle combinaison de texte, image, audio et vidéo, puis lancez le prompt. Pour modifier le résultat, demandez-le dans le message suivant ; la scène conserve le contexte précédent.
Quelle est la durée des vidéos Gemini Omni ?
Les clips Gemini Omni Flash sont limités à 10 secondes au lancement. Google a présenté ce plafond comme une décision de déploiement visant à élargir l'accès durant la phase initiale, et non comme une limite stricte du modèle ; des durées Gemini Omni plus longues sont donc possibles dans les futures versions.
Quelles entrées Gemini Omni accepte-t-il ?
Gemini Omni accepte le texte, les images, l'audio et la vidéo dans n'importe quelle combinaison au sein d'un seul prompt. Les références de voix constituent la première entrée audio prise en charge ; des entrées audio plus larges et de nouvelles modalités de sortie sont prévues.
Comment Gemini Omni se compare-t-il à Veo 3.1 ?
Veo 3.1 est le modèle vidéo photoréaliste de Google DeepMind avec une résolution 4K, de l'audio natif et des clips de 8 secondes, calibré pour un réalisme de qualité broadcast. Gemini Omni Flash est son cousin any-to-any, durée plus courte (jusqu'à 10 secondes), centré sur le raisonnement multi-entrées, l'édition conversationnelle et la cohérence persistante des personnages au fil des modifications. Veo est le spécialiste du réalisme ; Gemini Omni est le directeur multimodal.
Comment Gemini Omni se compare-t-il à Seedance 2.0 ?
Gemini Omni et Seedance 2.0 sont tous deux des modèles vidéo multimodaux. Seedance 2.0 accepte jusqu'à 12 assets mixtes par génération avec synthèse audio native et synchronisation au beat musical, en 1080p, de 4 à 15 secondes. Gemini Omni Flash se concentre sur l'édition conversationnelle tour par tour et sur la physique et le raisonnement réel de Google, actuellement limité à 10 secondes.
Gemini Omni inclut-il un filigrane ?
Oui. Chaque vidéo générée par Gemini Omni porte le filigrane imperceptible SynthID de Google pour la provenance IA. Le filigrane est invisible pour les spectateurs et survit aux modifications courantes comme le réencodage et le redimensionnement.
Gemini Omni prend-il en charge la cohérence des personnages ?
Oui. Les personnages introduits dans un plan Gemini Omni conservent leur visage, leurs vêtements et leur voix d'un plan à l'autre et au fil des modifications successives dans la même conversation, sans avoir à recharger la référence à chaque tour.
Quand Gemini Omni a-t-il été lancé ?
Google a annoncé Gemini Omni à Google I/O 2026 le 19 mai 2026. Gemini Omni Flash est la première version de la famille, les sorties image et audio étant présentées comme des ajouts prévus pour l'avenir.

Essayer Gemini Omni sur Morphic

Inscrivez-vous sur Morphic pour commencer à créer avec Gemini Omni. Pas de téléchargements, pas de configuration, décrivez simplement ce que vous voulez et générez.