Gemini Omni Flash : guide complet, prompts et fonctionnalités

Le guide complet de Gemini Omni Flash sur Morphic : ce que fait le modèle any-to-any de Google, audio natif, édition conversationnelle, cohérence des personnages et de la physique, connaissance du monde réel, filigrane SynthID et prompting avec exemples.

Essayer sur Morphic

Fonctionnalités et capacités de Gemini Omni

Gemini Omni est le premier modèle any-to-any de Google, annoncé à Google I/O 2026 le 19 mai 2026. La première version, Gemini Omni Flash, accepte le texte, les images et la vidéo en entrée et génère de la vidéo avec un audio synchronisé, ancrée dans la connaissance du monde réel de Gemini. Les clips durent jusqu'à 10 secondes en 720p, en 16:9 ou 9:16, et vous les affinez par la conversation plutôt qu'en relançant la génération.

Fonctionnalité	Ce qu'elle fait	Idéale pour
Entrée any-to-any	Combine texte, images et vidéo dans un seul prompt et raisonne à travers eux en un plan unique plutôt que de les assembler	Briefs multi-références, storyboards
Audio natif	Génère un audio synchronisé avec chaque clip dans la même passe, sans étape audio séparée	Scènes parlées, ambiance, musique
Édition conversationnelle	Affinez un clip par des suivis en langage naturel : remplacer un objet, rééclairer ou changer l'action sur la même scène	Itérer un plan sans relancer
Cohérence des personnages et de la physique	Conserve personnages, objets et style au fil des modifications, avec gravité, énergie cinétique et dynamique des fluides ancrées	Personnages récurrents, mouvement réaliste
Connaissance du monde réel	S'appuie sur l'ancrage de Gemini dans l'histoire, la science et la culture pour que les détails de scène restent justes	Explicatifs, détail précis
Filigrane SynthID	Un filigrane de provenance invisible sur chaque clip qui survit au réencodage et au redimensionnement	Contenu IA traçable et identifiable

Entrée any-to-any

Un seul prompt Gemini Omni accepte le texte, les images et la vidéo en même temps. Plutôt que d'assembler les entrées en séquence, le modèle raisonne à travers elles comme un seul brief, de sorte qu'une référence de portrait, une photo de lieu et un beat écrit façonnent tous le même plan généré. Vous pouvez aussi transmettre plusieurs images de référence pour porter des sujets précis dans la scène. Le téléversement de références audio séparées est en cours de déploiement et n'est pas encore disponible partout, et dans l'application Gemini de Google vous pouvez apparaître dans les vidéos avec votre propre voix grâce aux Avatars.

Audio natif

Chaque clip est généré avec son propre audio synchronisé dans la même passe, de sorte que dialogue, effets, ambiance ou musique reviennent avec le mouvement au lieu d'un rendu silencieux. Décrivez le son que vous voulez dans le même prompt que le plan, et l'audio est calé sur l'action plutôt qu'ajouté après coup.

Édition conversationnelle

L'édition est le prompt. Affinez un clip par des suivis en langage naturel : « rends la sculpture en bulles », rééclairez la scène, changez une action ou ajoutez un élément, et le modèle conserve le reste du plan. Il retient le contexte d'un tour à l'autre, de sorte que plusieurs séries de modifications s'appuient sur la même scène au lieu de repartir de zéro.

Cohérence des personnages et de la physique

Personnages, objets et style tiennent au fil des éditions conversationnelles, soutenus par une meilleure compréhension des forces comme la gravité, l'énergie cinétique et la dynamique des fluides. La cohérence est la plus forte quand vous affinez la même scène. Changer de scène ou demander de grands panoramiques peut provoquer une dérive, alors réservez les changements lourds à leur propre génération.

Connaissance du monde réel

Gemini Omni ancre ses scènes dans la connaissance qu'a Gemini de l'histoire, de la science et de la culture, de sorte que le détail d'époque, le comportement physique et les spécificités culturelles restent justes plutôt que de glisser vers une texture IA générique. C'est cet ancrage qui le rend utile pour les explicatifs et tout plan où les détails doivent être corrects.

Filigrane SynthID

Chaque clip porte le filigrane SynthID imperceptible de Google pour la provenance IA. Il est activé par défaut, invisible pour les spectateurs, et survit aux transformations courantes comme le réencodage et le redimensionnement, de sorte que le contenu généré reste identifiable tout au long de la chaîne de production.

Le même personnage lisant une lettre près d'une fenêtre, douce lumière matinaleEssayer maintenant

Un détective dans une ruelle de Tokyo détrempée sous la lueur des lampadaires au sodium, noir teal-ambre

Noir cinématographique

Détective dans une ruelle de Tokyo détrempée, lampadaires au sodium, noir teal-ambre

Edit prompt

Une basket avant-gardiste suspendue au-dessus d'un socle en titane sous une lumière clé dure

Lancement produit

Basket avant-gardiste au-dessus d'un socle en titane, lumière clé dure, ambiance de lancement

Edit prompt

Une goutte d'eau figée en couronne cristalline sur une feuille de rosée, macro à contre-jour au lever du soleil

Explicatif nature

Goutte figée en couronne cristalline sur une feuille de rosée, macro à contre-jour

Edit prompt

Une présentatrice posée face à l'objectif sous un éclairage trois points chaleureux avec un bokeh 85 mm

Présentateur avatar

Présentatrice posée face à l'objectif, éclairage trois points chaleureux, bokeh 85 mm

Edit prompt

Lumière dorée traversant une villa en béton brutaliste avec de longues ombres et des poussières en suspension

Visite architecturale

Lumière dorée dans une villa en béton brutaliste, longues ombres, poussières en suspension

Edit prompt

Une femme près d'une fenêtre pluvieuse lisant une lettre, l'inquiétude cédant au soulagement

Beat narratif

Femme lisant une lettre près d'une fenêtre pluvieuse, l'inquiétude cédant au soulagement

Edit prompt

Comment tirer le meilleur de Gemini Omni

Gemini Omni récompense un brief qui traite chaque référence comme partie d'une seule scène, qui nomme l'audio et qui édite en conversation plutôt qu'en relançant. Quelques pratiques portent l'essentiel de la qualité :

Chargez toutes les références d'un coup. Texte, image et vidéo peuvent aller dans le même prompt, puisque le modèle raisonne à travers eux ensemble au lieu de les assembler tour à tour. Ajoutez des images de référence pour porter un sujet précis dans la scène.
Nommez toujours l'audio. Dialogue, effets sonores, ambiance ou musique en langage naturel, pour que le clip revienne avec un son calé sur le mouvement plutôt que silencieux.
Éditez en conversation. Quand un plan est proche, décrivez l'unique changement voulu dans le message suivant plutôt que de tout recommencer. La scène conserve ses personnages, son éclairage et sa continuité.
Ajustez le beat à 10 secondes. Il n'y a ni extension ni interpolation vidéo, alors prévoyez une seule action qui se résout à l'intérieur du clip plutôt que de compter sur son rallongement ultérieur.
Réservez les changements de scène à leur propre génération. La cohérence est la plus forte quand vous affinez la même scène ; un changement de scène brutal ou un grand panoramique vaut mieux comme nouveau plan.
Dirigez la physique qui vous importe. Précisez le poids, la collision ou la façon dont un fluide doit bouger, puisque la physique ancrée est une force à orienter.

Guide de prompting Gemini Omni

Un bon prompt se lit comme un court brief de plan, pas comme une légende. Deux choses déterminent le résultat : une liste claire de ce que contient le plan, et une formulation concrète à la place d'une formulation vague.

Ce qui entre dans un prompt

Élément	Ce qu'il faut inclure	Exemple
Sujet	Qui ou quoi est dans le cadre, décrit concrètement	une présentatrice en blazer anthracite à un bureau en verre
Mouvement	Ce qui bouge, et comment	elle se tourne vers l'objectif et fait un geste
Caméra	Type de plan plus un mouvement	plan moyen, lent travelling avant
Audio	Dialogue, effets, ambiance ou musique	elle dit « Bon retour » ; léger fond sonore de studio
Format	Durée et format d'image	10 secondes, 16:9

Éditer en conversation

L'édition est le prompt. Gardez la scène, nommez seulement le changement, et laissez tout le reste se reporter du tour précédent.

Édition de suivi sur la même scène

Même présentatrice et même bureau, même éclairage. Change son blazer en vert profond et ajoute un lent travelling avant sur les deux dernières secondes. Garde le fond sonore de la salle d'avant.

Modifier le prompt

Prompts faibles vs forts

Nommez la caméra, le mouvement et son timing, ainsi que l'audio plutôt que de les laisser au hasard.

Point clé	Faible	Fort
Caméra	Une femme dans une ville la nuit	Plan caméra à l'épaule suivant une femme à travers des rues détrempées par la pluie, les vitrines se reflétant sur le pavé, faible profondeur de champ
Mouvement et timing	La porte s'ouvre et quelqu'un entre	La porte s'ouvre lentement, une silhouette la franchit après un temps, puis la caméra se pose sur un plan moyen
Audio	Un chef dresse un plat	Gros plan d'un chef dressant un plat, la vapeur s'élève. Audio : grésillement de la poêle, légère ambiance de cuisine, et « Service ».

Erreurs courantes

Laisser le prompt silencieux : écrivez toujours au moins un repère sonore, puisque le modèle génère de l'audio avec la vidéo.
Relancer au lieu d'éditer : quand un plan est proche, demandez l'unique changement en conversation pour que personnages et continuité tiennent.
Compter sur l'extension : il n'y a pas d'extension vidéo, alors gardez une seule action à l'intérieur du clip de 10 secondes.
Texte dense à l'écran : le rendu de texte et les mouvements très complexes restent des points faibles, alors gardez les légendes courtes ou ajoutez-les en post-production.

Tarifs simples

Commencez gratuitement dès aujourd'hui, avec la possibilité de mettre à niveau ou d'annuler à tout moment.

Basic

/ mois

facturé comme $0 par an

900 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Standard

/ mois

facturé comme $0 par an

3200 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Pro

/ mois

facturé comme $0 par an

6200 partagé mensuel crédits

1 utilisateur

+ jusqu'à 4 plus à un coût supplémentaire

Tous les modèles

Workflows

Pro Max

/ mois

facturé comme $0 par an

24000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 9 plus à un coût supplémentaire

Tous les modèles

Workflows

Enterprise

Pour des limites plus élevées

Personnalisé

conditions de tarification et de facturation

Crédits à haut volume

Limites de sièges personnalisées

Tous les modèles

Workflows

Free

Pour expérimenter

gratuit pour toujours

Jusqu'à 20 crédits

1 utilisateur uniquement

Modèles limités

Workflows

Comparer les détails des plans

Questions fréquentes

Qu'est-ce que Gemini Omni ?

Gemini Omni est le premier modèle any-to-any de Google, annoncé à Google I/O 2026 le 19 mai 2026. La première version, Gemini Omni Flash, accepte le texte, les images et la vidéo en entrée et génère de la vidéo avec un audio synchronisé, ancrée dans la connaissance du monde réel de Gemini, avec édition conversationnelle et filigrane SynthID sur chaque clip.

Quelles entrées Gemini Omni accepte-t-il ?

Gemini Omni accepte le texte, les images et la vidéo dans un seul prompt et raisonne à travers eux comme un seul brief plutôt que de les assembler. Vous pouvez transmettre plusieurs images de référence pour porter des sujets précis dans une scène. Le téléversement de références audio séparées est en cours de déploiement et n'est pas encore disponible partout, et les sorties image et audio figurent sur la feuille de route.

Gemini Omni génère-t-il de l'audio ?

Oui. Chaque clip Gemini Omni est généré avec son propre audio synchronisé dans la même passe, de sorte que dialogue, effets, ambiance et musique sont calés sur le mouvement au lieu d'être ajoutés après coup. Décrivez le son dans le même prompt que le plan.

Comment fonctionne l'édition conversationnelle dans Gemini Omni ?

Chaque prompt après le premier modifie la même scène au lieu de lancer une nouvelle génération. Décrivez l'unique changement voulu, comme un nouvel objet, un arrière-plan rééclairé ou une action différente, et le plan conserve ses personnages, son éclairage et sa continuité. La cohérence est la plus forte quand vous affinez la même scène plutôt que de changer de scène ou de demander de grands panoramiques.

Quelle est la durée des clips Gemini Omni et quelle résolution ?

Gemini Omni Flash génère des clips jusqu'à 10 secondes en 720p, en 16:9 ou 9:16. Il n'y a ni extension ni interpolation vidéo, alors prévoyez une seule action qui se résout à l'intérieur du clip. Chaque clip porte par défaut le filigrane SynthID imperceptible de Google.

Comment utiliser Gemini Omni sur Morphic ?

Ouvrez Morphic, passez la barre de prompt en mode Vidéo et choisissez Gemini Omni dans le sélecteur de modèles. Joignez du texte, une image, une vidéo ou un mélange, décrivez le plan et son audio, puis lancez le prompt. Pour réviser le résultat, demandez-le dans le message suivant ; la scène conserve son contexte précédent.

Fonctionnalités et capacités de Gemini Omni

Entrée any-to-any

Audio natif

Édition conversationnelle

Cohérence des personnages et de la physique

Connaissance du monde réel

Filigrane SynthID

Exemples de prompts Gemini Omni

Noir cinématographique

Lancement produit

Explicatif nature

Présentateur avatar

Visite architecturale

Beat narratif

Comment tirer le meilleur de Gemini Omni

Guide de prompting Gemini Omni

Ce qui entre dans un prompt

Éditer en conversation

Prompts faibles vs forts

Erreurs courantes

Tarifs simples

Questions fréquentes