Génération texte-vers-vidéo (Text-to-Video)
Qu’est-ce que Génération texte-vers-vidéo (Text-to-Video) ?
L'IA text-to-video génère un court clip vidéo à partir d'une description écrite : vous décrivez une scène, un sujet et une action, et l'IA crée des images animées correspondant à votre prompt.
En un coup d’œil
- Aussi appelé
- T2VGénération de vidéo par IAPrompt-to-video
- Utilisé pour
- Générer de courts clips vidéo à partir de descriptions écritesPrototypage visuel rapide et previz pour le cinéma et la production publicitaireCréer du contenu vidéo sans caméras, acteurs ni décors physiquesExplorer les mouvements de caméra et les compositions de scène avant de s'engager en production
- Outils courants
- Runway gen-3 alphaKlingHailuoSora (OpenAI)Veo (google)Morphic
- Termes liés
- Text-to-imageImage-to-videoDiffusion modelPrompt engineeringCamera movementVideo-to-video
- How it works in simple terms
- L'IA convertit votre prompt écrit en une représentation mathématique, puis génère une séquence d'images qui suit la logique temporelle et visuelle implicite de la description. Contrairement à la génération d'image, qui produit une seule image, la génération vidéo doit produire de nombreuses images qui s'enchaînent de manière cohérente en mouvement.
- Where you encounter this
- La génération text-to-video est la capacité centrale des plateformes vidéo IA comme Runway, Kling, Hailuo et Morphic, et s'intègre de plus en plus aux workflows professionnels de production média pour la previz, la création de contenu et la production publicitaire.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Compared with related concepts
La génération text-to-video et image-to-video diffèrent principalement par la provenance de la spécification visuelle. Le text-to-video tire toute l'information visuelle du langage : le modèle doit interpréter le prompt et générer à la fois l'apparence visuelle et le mouvement à partir de son entraînement. L'image-to-video prend une image fixe comme ancrage visuel et en génère le mouvement, fournissant au modèle des informations visuelles concrètes sur l'image de départ plutôt que d'exiger leur synthèse à partir du seul langage. L'image-to-video produit généralement des résultats visuellement plus cohérents pour des sujets et compositions spécifiques ; le text-to-video offre plus de liberté générative et convient mieux aux scènes ne nécessitant pas de visuel de départ précis.
Imaginez plutôt…
La génération text-to-video, c'est comme réaliser un film avec des mots seuls : décrire la scène, l'action, le mouvement de caméra et le style visuel à un directeur de la photographie qui produit immédiatement les images sans avoir besoin de décor, d'acteurs ni d'équipement. La qualité des images dépend entièrement de la précision et de la justesse visuelle avec lesquelles la direction a été communiquée.
Astuce de pro
Décrivez toujours explicitement le mouvement dans les prompts text-to-video : à la fois le mouvement du sujet et celui de la caméra. Les prompts qui ne décrivent qu'une scène statique produiront des images avec un mouvement générique ou minimal inféré par le modèle. Précisez ce que le sujet fait activement (« marche lentement vers la caméra », « se retourne et regarde à gauche », « tend la main vers l'objet sur la table ») et ajoutez une direction explicite de mouvement de caméra si vous voulez du mouvement caméra (« lent push in », « large arc autour du sujet », « caméra fixe »). Ces deux ajouts à eux seuls améliorent significativement l'intentionnalité et l'utilité des clips générés.
Types et variantes
- Les modèles text-to-video par diffusion étendent les approches de diffusion d'image au domaine temporel, générant de la vidéo en débruitant des séquences d'images latentes guidées par le prompt textuel.
- Les modèles de génération vidéo par transformeur traitent la vidéo comme des séquences temporelles unifiées via des mécanismes d'attention qui permettent à chaque image de se rapporter directement à toutes les autres.
- La génération image-to-video utilise une image fixe aux côtés d'un prompt textuel comme entrées conjointes de conditionnement.
- La génération conditionnée par la caméra permet de spécifier des types de mouvements de caméra particuliers en entrées structurées aux côtés du prompt textuel.
- La génération conditionnée par le style intègre des images de référence ou des paramètres de style pour guider le traitement visuel de la vidéo générée au-delà de ce que les prompts textuels seuls peuvent spécifier.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- Le text-to-video est utilisé pour le prototypage visuel rapide et la prévisualisation au cinéma et en production publicitaire ; la création de contenu vidéo pour les réseaux sociaux et le marketing à grande échelle ; la génération de b-roll et de séquences de stock ; la production de contenus animés explicatifs et éducatifs ; le développement de concepts visuels pour des pitches et présentations client ; et l'exploration de possibilités narratives et stylistiques avant d'engager des ressources de production.
- À mesure que la qualité des modèles s'améliore, il est de plus en plus utilisé dans les pipelines de production finale pour certains types de plans et environnements.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
La génération de vidéo par IA text-to-video crée de courts clips vidéo à partir de prompts textuels. L'utilisateur décrit en langage naturel une scène, un sujet, une action et un style, et le modèle IA génère une séquence d'images représentant un mouvement et un changement temporel cohérents correspondant à la description. Elle étend les principes de la génération text-to-image au domaine temporel, en ajoutant la complexité supplémentaire de générer un mouvement plausible et cohérent.
La durée des clips varie sensiblement entre modèles et plateformes. La plupart des modèles text-to-video commerciaux actuels génèrent des clips de quatre à vingt secondes par génération. Les séquences plus longues sont généralement assemblées en générant plusieurs clips puis en les montant ensemble, ou en utilisant des fonctions d'extension vidéo qui ajoutent des images au début ou à la fin de clips existants. Les capacités des modèles s'améliorent rapidement, avec la génération de clips plus longs qui devient de plus en plus accessible.
Les prompts text-to-video efficaces doivent décrire le sujet principal et son apparence, préciser ce que le sujet fait activement pendant le clip, décrire le décor et l'environnement, spécifier tout mouvement de caméra (direction, vitesse, type), définir les conditions d'éclairage et inclure des indications de style ou d'ambiance. Décrire explicitement le mouvement (à la fois celui du sujet et celui de la caméra) est particulièrement important, car les modèles inféreront le mouvement à partir du contexte s'il n'est pas spécifié, et le résultat peut ne pas correspondre à la sortie souhaitée.
Le text-to-image génère une seule image fixe à partir d'un prompt. Le text-to-video génère une séquence d'images cohérentes représentant un mouvement dans le temps : une tâche fondamentalement plus complexe qui exige du modèle d'apprendre non seulement l'apparence des choses mais aussi la manière dont elles bougent, la manière dont les caméras se déplacent dans l'espace et la manière dont la cohérence visuelle est maintenue à travers de nombreuses images séquentielles. Les modèles text-to-video sont généralement plus exigeants en calcul, et l'écart de qualité entre les meilleurs modèles et les autres est actuellement plus marqué qu'en text-to-image.
Les modèles text-to-video de premier plan en 2025 incluent notamment Runway Gen-3 Alpha, Kling, Hailuo, Sora d'OpenAI, Veo de Google et Luma Dream Machine. Chaque modèle a des forces distinctes en matière de réalisme physique, de mouvement de personnages, de qualité des mouvements de caméra, d'étendue stylistique et d'adhérence au prompt. Évaluer plusieurs modèles par rapport à vos exigences de production spécifiques en vaut la peine, car les différences de qualité entre modèles sont significatives selon les cas d'usage.
Oui. La plupart des modèles text-to-video de premier plan répondent à un langage explicite de mouvement de caméra dans les prompts. Les termes cinématographiques standard (dolly in, pull back, pan left, tilt up, plan en orbite, crane up, caméra à l'épaule) sont compris par les modèles entraînés sur des données vidéo annotées. Décrire le type, la direction et la vitesse du mouvement de caméra dans le prompt, aux côtés de la description du sujet et de la scène, produit des mouvements de caméra plus intentionnels et contrôlables dans les clips générés.
Les problèmes fréquents incluent l'incohérence temporelle (sujets ou éléments de scène changeant d'apparence de façon inattendue d'une image à l'autre), un mouvement non naturel ou physiquement implausible (objets se traversant, interactions physiques impossibles), la non-adhérence au prompt (éléments du prompt ignorés ou mal interprétés), le morphing et la dérive (sujets changeant progressivement de forme ou d'identité pendant le clip), et des artefacts aux limites des clips. Ces modes d'échec s'améliorent rapidement à mesure que les architectures et les données d'entraînement passent à l'échelle.
Les productions professionnelles utilisent le text-to-video pour la prévisualisation et l'animation de storyboards, où les clips générés remplacent des tournages de pré-production coûteux à des fins de planification. Il est utilisé pour le b-roll, les plans d'établissement et les images d'environnement qui seraient coûteuses ou logistiquement difficiles à capturer en pratique. La production publicitaire et commerciale l'utilise pour les tests de concept et la création de contenu. À mesure que la qualité et le contrôle s'améliorent, la frontière entre le text-to-video comme outil de production et comme format de livraison finale continue de se déplacer.