Multimodal

Gemini Omni

par Google DeepMind

Le premier modèle IA any-to-any de Google. Texte, images, audio et vidéo en entrée. Texte, images, audio et vidéo en sortie.

Entrée any-to-anyTexte vers vidéoImage vers vidéoAudio vers vidéoVidéo vers vidéoÉdition conversationnelleCohérence des personnagesMouvement physiquement précisRéférence audio de voixFiligrane SynthID
Gemini Omni

Fonctionnalités clés

Spécifications techniques

Omni Flash

Premier modèle de la famille Gemini Omni de Google

Video

Sortie image et audio prévues dans la feuille de route Gemini Omni

Up to 10s

Plans Flash limités à 10 secondes au lancement pour élargir l'accès

Text, image, audio, video

Toute combinaison dans un seul prompt Gemini Omni

Voice references

Échantillons de voix pris en charge d'abord ; entrées audio complètes à venir

SynthID

Filigrane imperceptible de provenance IA sur chaque sortie Gemini Omni

May 19, 2026

Annoncé à Google I/O 2026

Google DeepMind

Positionnement comme successeur de Veo pour la création vidéo any-to-any

Cas d'utilisation

Storyboard multi-entrées

Déposez une image de personnage, une photo de lieu, un repère musical et une ligne d'action ; le modèle assemble le plan en un coup.

Édition vidéo conversationnelle

Modifiez un clip en langage naturel : garde-robe, arrière-plan, éclairage, timing d'un beat. Le reste du plan reste stable.

Vidéo marketing

Montages pub qui respectent la marque, la forme du produit et le texte à l'écran. Combinez photo, voix off et brief décor.

Explicatifs éducatifs

Visualisez des concepts de science, d'histoire ou d'ingénierie avec physique et raisonnement intégrés, sans perdre en clarté.

Vidéos d'avatar et de présentateur

Portrait + référence vocale : un présentateur identique sur plusieurs shorts, idéal pour formations, walkthroughs et clips sociaux.

Shorts sociaux

Clips de 10 s calés pour YouTube Shorts, Reels et TikTok. Générez des variations par chat, publiez celle qui fonctionne.

Exemples de prompts

Noir cinématographique

Noir cinématographique

Détective dans une ruelle de Tokyo détrempée, lampadaires au sodium, noir teal-ambre

Edit prompt
Lancement produit

Lancement produit

Basket avant-gardiste au-dessus d'un socle en titane, lumière clé dure, ambiance de lancement

Edit prompt
Explicatif nature

Explicatif nature

Goutte figée en couronne cristalline sur une feuille de rosée, macro à contre-jour

Edit prompt
Présentateur avatar

Présentateur avatar

Présentatrice posée face à l'objectif, éclairage trois points chaleureux, bokeh 85 mm

Edit prompt
Visite architecturale

Visite architecturale

Lumière dorée dans une villa en béton brutaliste, longues ombres, poussières en suspension

Edit prompt
Beat narratif

Beat narratif

Femme lisant une lettre près d'une fenêtre pluvieuse, l'inquiétude cédant au soulagement

Edit prompt

Tarifs simples

Commencez gratuitement dès aujourd'hui, avec la possibilité de mettre à niveau ou d'annuler à tout moment.

Basic

$0/ mois
facturé comme $0 par an

500 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Standard

$0/ mois
facturé comme $0 par an

2800 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Pro

$0/ mois
facturé comme $0 par an

6000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 4 plus à un coût supplémentaire

Tous les modèles

Workflows

Pro Max

$0/ mois
facturé comme $0 par an

24000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 9 plus à un coût supplémentaire

Tous les modèles

Workflows

Enterprise

Pour des limites plus élevées

Personnalisé

conditions de tarification et de facturation

Crédits illimités
Limites de sièges personnalisées
Tous les modèles
Workflows
Pricing Gradient

Free

For playing around

$0

forever free

Jusqu'à 20 crédits
1 utilisateur uniquement
Modèles limités
Workflows

Questions fréquentes

Qu'est-ce que Gemini Omni ?
Gemini Omni est le premier modèle multimodal any-to-any de Google, annoncé à Google I/O 2026. La première version, Gemini Omni Flash, accepte le texte, les images, l'audio et la vidéo en entrée et produit de la vidéo en sortie, avec édition conversationnelle, cohérence des personnages et filigrane SynthID sur chaque clip.
Gemini Omni est-il un modèle d'image ?
Non. Gemini Omni produit de la vidéo. Le modèle accepte les images en entrée aux côtés du texte, de l'audio et de la vidéo, mais la sortie générée est un clip vidéo. Google a indiqué que les modalités de sortie image et audio figurent sur la feuille de route Gemini Omni mais ne font pas partie du lancement initial.
Comment utiliser Gemini Omni sur Morphic ?
Ouvrez Morphic, passez la barre de prompt en mode Vidéo et choisissez Gemini Omni dans le sélecteur de modèles. Joignez n'importe quelle combinaison de texte, image, audio et vidéo, puis lancez le prompt. Pour modifier le résultat, demandez-le dans le message suivant ; la scène conserve le contexte précédent.
Quelle est la durée des vidéos Gemini Omni ?
Les clips Gemini Omni Flash sont limités à 10 secondes au lancement. Google a présenté ce plafond comme une décision de déploiement visant à élargir l'accès durant la phase initiale, et non comme une limite stricte du modèle ; des durées Gemini Omni plus longues sont donc possibles dans les futures versions.
Quelles entrées Gemini Omni accepte-t-il ?
Gemini Omni accepte le texte, les images, l'audio et la vidéo dans n'importe quelle combinaison au sein d'un seul prompt. Les références de voix constituent la première entrée audio prise en charge ; des entrées audio plus larges et de nouvelles modalités de sortie sont prévues.
Comment Gemini Omni se compare-t-il à Veo 3.1 ?
Veo 3.1 est le modèle vidéo photoréaliste de Google DeepMind avec une résolution 4K, de l'audio natif et des clips de 8 secondes, calibré pour un réalisme de qualité broadcast. Gemini Omni Flash est son cousin any-to-any, durée plus courte (jusqu'à 10 secondes), centré sur le raisonnement multi-entrées, l'édition conversationnelle et la cohérence persistante des personnages au fil des modifications. Veo est le spécialiste du réalisme ; Gemini Omni est le directeur multimodal.
Comment Gemini Omni se compare-t-il à Seedance 2.0 ?
Gemini Omni et Seedance 2.0 sont tous deux des modèles vidéo multimodaux. Seedance 2.0 accepte jusqu'à 12 assets mixtes par génération avec synthèse audio native et synchronisation au beat musical, en 1080p, de 4 à 15 secondes. Gemini Omni Flash se concentre sur l'édition conversationnelle tour par tour et sur la physique et le raisonnement réel de Google, actuellement limité à 10 secondes.
Gemini Omni inclut-il un filigrane ?
Oui. Chaque vidéo générée par Gemini Omni porte le filigrane imperceptible SynthID de Google pour la provenance IA. Le filigrane est invisible pour les spectateurs et survit aux modifications courantes comme le réencodage et le redimensionnement.
Gemini Omni prend-il en charge la cohérence des personnages ?
Oui. Les personnages introduits dans un plan Gemini Omni conservent leur visage, leurs vêtements et leur voix d'un plan à l'autre et au fil des modifications successives dans la même conversation, sans avoir à recharger la référence à chaque tour.
Quand Gemini Omni a-t-il été lancé ?
Google a annoncé Gemini Omni à Google I/O 2026 le 19 mai 2026. Gemini Omni Flash est la première version de la famille, les sorties image et audio étant présentées comme des ajouts prévus pour l'avenir.