Déposez une référence de portrait, une photo de lieu, un échantillon de voix et une ligne d'action. Gemini Omni lit les quatre ensemble et génère une vidéo cohérente, puis continue d'éditer la même scène par la conversation. Bientôt sur Morphic, aux côtés de Veo 3.1, Seedance 2.0 et du reste du catalogue vidéo.
Comment utiliser Gemini Omni sur Morphic
1.
Ouvrir le mode Vidéo dans Morphic
Depuis la barre de prompt en bas de Morphic, passez en mode Vidéo, puis choisissez Gemini Omni de Google dans le sélecteur de modèles.
2.
Choisir Gemini Omni dans le sélecteur de modèles
Ouvrez le sélecteur de modèles et choisissez Gemini Omni dans la liste des modèles vidéo. La première version disponible est Gemini Omni Flash, la porte d'entrée de la famille Omni de Google.
3.
Déposer vos entrées
Joignez les références que vous voulez voir combinées par Gemini Omni : du texte, une image, un fichier audio, un clip vidéo, ou toute combinaison. Le modèle raisonne à travers chaque entrée en même temps plutôt que de les assembler, de sorte que le plan final reflète chaque référence d'un seul coup.
4.
Générer, puis continuer à éditer par la conversation
Lancez le prompt. Gemini Omni produit un clip allant jusqu'à 10 secondes. Pour changer un costume, remplacer un décor ou retemporiser une action, demandez-le dans le message suivant. La scène se souvient de ce qui a précédé, de sorte que les modifications s'appliquent au plan existant.
Qu'est-ce que Gemini Omni ?
Gemini Omni est le premier modèle multimodal any-to-any de Google, annoncé à Google I/O 2026 le 19 mai 2026. La première version, Gemini Omni Flash, accepte le texte, les images, l'audio et la vidéo en entrée et génère de la vidéo en sortie, avec édition conversationnelle, cohérence des personnages et filigrane SynthID sur chaque clip. Google a décrit la sortie image et audio comme de futurs ajouts à la famille Gemini Omni.
Sur Morphic, Gemini Omni se trouve dans le sélecteur de modèles vidéo, aux côtés de Veo 3.1, Seedance 2.0, Kling et du reste du catalogue vidéo.
Fonctionnalités et capacités de Gemini Omni
Entrée any-to-any de Gemini Omni
Un seul prompt Gemini Omni accepte texte, images, audio et vidéo en même temps. Plutôt que d'assembler les entrées de manière séquentielle, le modèle raisonne à travers elles comme un brief unique : une référence de portrait, une photo de lieu, un échantillon de voix et une ligne d'action façonnent tous le même plan généré. Les références de voix constituent la première entrée audio prise en charge au lancement ; des entrées audio plus larges figurent sur la feuille de route.
Édition conversationnelle de Gemini Omni
Chaque instruction dans Gemini Omni s'appuie sur la précédente. Changez un costume, remplacez un arrière-plan, ajustez le timing d'une action ou prolongez la scène en la décrivant dans le message suivant. Le plan se souvient de ce qui a précédé, de sorte que les modifications s'appliquent à la scène existante plutôt que de lancer une nouvelle génération.
Cohérence des personnages et des scènes de Gemini Omni
Les personnages introduits dans un plan Gemini Omni conservent leur visage, leurs vêtements et leur voix d'un plan à l'autre et au fil des modifications successives dans la même conversation. Le modèle maintient également l'éclairage et la continuité entre les tours, de sorte qu'un personnage introduit au plan un reste reconnaissable au plan trois.
Mouvement physiquement précis et raisonnement réel
Gemini Omni applique une compréhension de la physique, de la culture, de l'histoire et des sciences aux scènes qu'il génère. Gravité, poids, collisions et comportement des fluides suivent les règles du monde réel ; les détails historiques et culturels tiennent au lieu de dériver vers une texture IA générique. Le résultat est une image où le mouvement paraît juste, pas seulement lisse.
Références de voix pour des voix cohérentes à l'écran
Fournissez un court échantillon de voix avec le texte et les images, et Gemini Omni maintient la voix cohérente dans la vidéo générée. Utile pour les explicatifs portés par un avatar, les clips de présentateur de marque et le contenu social court où le même présentateur apparaît dans plusieurs vidéos.
Filigrane SynthID sur chaque vidéo Gemini Omni
Chaque clip produit par Gemini Omni porte le filigrane numérique imperceptible SynthID de Google pour la provenance IA. Le filigrane est invisible pour les spectateurs et survit aux transformations courantes comme le réencodage et le redimensionnement, de sorte que les contenus générés par IA restent identifiables tout au long de la chaîne.
FAQs
Gemini Omni est le premier modèle multimodal any-to-any de Google. La première version, Gemini Omni Flash, accepte le texte, les images, l'audio et la vidéo en entrée et produit de la vidéo en sortie, avec édition conversationnelle, cohérence des personnages, physique réaliste et filigrane SynthID sur chaque clip.
Ouvrez Morphic, passez la barre de prompt en mode Vidéo et choisissez Gemini Omni dans le sélecteur de modèles. Joignez du texte, une image, un extrait audio, une vidéo ou toute combinaison, puis lancez le prompt. Pour modifier le résultat, demandez-le dans le message suivant ; la scène conserve le contexte précédent.
Non. La sortie de Gemini Omni est une vidéo. Le modèle accepte les images comme l'une de ses modalités d'entrée aux côtés du texte, de l'audio et de la vidéo, mais le résultat généré est un clip vidéo. Google a indiqué que la sortie image et audio est prévue comme de futurs ajouts à la famille Gemini Omni.
Les clips Gemini Omni Flash sont limités à 10 secondes au lancement. Google a présenté ce plafond comme une décision de déploiement plutôt que comme une contrainte du modèle, et des durées Gemini Omni plus longues sont donc possibles dans les futures versions.
Gemini Omni accepte le texte, les images, l'audio et la vidéo dans n'importe quelle combinaison au sein d'un seul prompt. Les références de voix constituent la première entrée audio prise en charge au lancement ; des entrées audio plus larges figurent sur la feuille de route.
Veo 3.1 est le modèle vidéo photoréaliste de Google DeepMind avec une résolution 4K, une synthèse audio native et des clips de 8 secondes, calibré pour un réalisme de qualité broadcast. Gemini Omni Flash est son cousin any-to-any, limité à 10 secondes, centré sur le raisonnement multi-entrées, l'édition conversationnelle et la cohérence persistante des personnages au fil des modifications.
Gemini Omni et Seedance 2.0 sont tous deux des modèles vidéo multimodaux. Seedance 2.0 accepte jusqu'à 12 assets mixtes par génération avec synthèse audio native et synchronisation au beat musical en 1080p, de 4 à 15 secondes. Gemini Omni Flash se concentre sur l'édition conversationnelle tour par tour et sur la physique et le raisonnement réel de Google, actuellement limité à 10 secondes.
SynthID est le filigrane imperceptible de Google pour les contenus générés par IA. Chaque vidéo produite par Gemini Omni le porte par défaut. Le filigrane est invisible pour les spectateurs et survit aux modifications courantes comme le réencodage et le redimensionnement, de sorte que les contenus générés par IA restent identifiables tout au long de la chaîne de production.
Google a annoncé Gemini Omni à Google I/O 2026 le 19 mai 2026. Gemini Omni Flash est la première version de la famille, les sorties image et audio étant présentées comme des ajouts prévus pour l'avenir.


