Kling 3.0 est le modèle de génération vidéo IA de Kuaishou qui produit des séquences cinématographiques multi-plans avec audio natif à partir d'un simple prompt texte. C'est le premier modèle vidéo à offrir un contrôle au niveau storyboard, où vous pouvez définir des plans individuels, des angles de caméra et des dialogues de personnages dans une seule génération. Ce guide couvre comment prompter Kling 3.0 pour obtenir les meilleurs résultats, ce qui a changé depuis Kling 2.6, la liste complète des capacités, les spécifications techniques et la place qu'il occupe dans différents workflows créatifs et commerciaux. Pour un aperçu rapide et les étapes pour commencer à générer, consultez la page du modèle Kling 3.0.
Qu'est-ce que Kling 3.0 ?
Kling 3.0 est un modèle de génération vidéo publié par Kuaishou en février 2026. Il a été construit en fusionnant deux modèles antérieurs, Kling Video 2.6 et Kling O1, en une architecture unifiée unique. Video 2.6 gérait la génération text-to-video et image-to-video avec contrôle du mouvement. Kling O1 se concentrait sur la qualité visuelle et la cohérence. Kling 3.0 combine les deux en un seul modèle qui génère vidéo, audio et cohérence des éléments en une seule passe.
Le résultat est un modèle qui fonctionne moins comme un générateur de clips et davantage comme un metteur en scène. Vous décrivez un récit dans votre prompt et Kling 3.0 planifie les plans, attribue les angles de caméra, génère des dialogues synchronisés avec lip-sync et maintient les personnages visuellement cohérents à chaque coupe. La sortie prend en charge des durées de 3 à 15 secondes à des résolutions allant jusqu'à la 4K native.
Sur Morphic, Kling 3.0 est disponible dans le cadre de la suite de génération vidéo. Vous pouvez l'utiliser dans le même espace de travail que les outils d'image, de musique et d'audio de Morphic, ce qui est utile lorsqu'un projet nécessite des assets sur plusieurs formats.
Comment prompter Kling 3.0
La façon dont vous rédigez votre prompt change tout dans le rendu. Kling 3.0 est un modèle vidéo, ce qui signifie qu'il répond au mouvement, au rythme et à la direction de caméra, pas seulement à l'apparence visuelle. Les prompts qui produisent les meilleurs résultats se lisent comme une description de scène pour un court-métrage, pas comme une légende pour une photographie.
Voici un cadre de prompting pour obtenir de bons résultats sur différents types de contenus vidéo.
1. Commencez par le langage de caméra
Les premiers mots de votre prompt donnent le ton visuel de toute la génération. Kling 3.0 comprend la terminologie cinématographique et y répond directement. Nommer un comportement de caméra spécifique avant de décrire quoi que ce soit d'autre verrouille le modèle sur une approche visuelle cohérente.
| Mauvais prompt | Bon prompt |
|---|---|
| "Une femme marche dans une ville la nuit, look cinématographique" | "Travelling caméra à l'épaule suivant une femme en manteau sombre marchant dans des rues urbaines luisantes de pluie la nuit, reflets néon sur la chaussée, faible profondeur de champ" |
Le premier prompt laisse entièrement le comportement de la caméra au modèle. Le second lui indique exactement comment bouger : caméra à l'épaule, travelling, suivant le sujet. Il ancre aussi la scène avec des détails environnementaux spécifiques qui informent l'éclairage et l'ambiance.
Les termes de caméra auxquels Kling 3.0 répond bien : travelling, panoramique orbital, gros plan macro, POV, whip-pan, lent push-in, plan large statique et caméra à l'épaule avec légère dérive.
2. Structurez les prompts multi-plans avec des plans étiquetés
Lorsque vous voulez plusieurs angles de caméra en une seule génération, étiquetez chaque plan explicitement. Kling 3.0 prend en charge un mode multi-plans personnalisé où vous définissez le nombre de plans, la durée de chacun et ce qui se passe dans le cadre. Plus vos étiquettes de plans sont claires, plus le modèle les suit précisément.
| Mauvais prompt | Bon prompt |
|---|---|
| "Un homme commande à manger dans un restaurant, puis le serveur apporte le plat, puis il mange" | "Plan 1 : plan moyen d'un homme en chemise marine assis à une table de restaurant, parcourant le menu, éclairage intérieur chaud. Plan 2 : gros plan par-dessus l'épaule sur le menu dans ses mains, son doigt pointant un plat. Plan 3 : plan large du serveur s'approchant de la table avec une assiette, l'homme levant les yeux. Plan 4 : gros plan de l'assiette posée sur la table, vapeur s'élevant du plat." |
Le premier prompt décrit une suite d'événements mais ne donne aucune direction visuelle au modèle. Le second décompose le récit en plans distincts, chacun avec un cadrage, une position de sujet et un détail visuel spécifiques. C'est exactement ce pour quoi le mode multi-plans personnalisé a été conçu.
3. Associez directement les locuteurs à leurs dialogues
Dans les scènes avec dialogue, Kling 3.0 a besoin de savoir quel personnage prononce quelle réplique. Sans étiquetage explicite, le modèle peut attribuer les voix aux mauvais visages ou créer une confusion entre locuteurs, surtout avec trois personnages ou plus.
| Mauvais prompt | Bon prompt |
|---|---|
| "Deux personnes sont assises à une table de café et parlent de leurs projets du week-end, s'ils devraient aller faire de la randonnée ou rester en ville" | "Une jeune femme en chemisier blanc et un homme en veste grise sont assis à une table de café en terrasse. La femme soulève sa tasse de café et dit « Je me disais qu'on pourrait faire le sentier côtier samedi. » L'homme se redresse en arrière et répond « Ça me va, mais il faudrait partir tôt avant qu'il ne fasse trop chaud. »" |
Le premier prompt résume le sujet de la conversation sans donner au modèle de dialogue réel ni d'identification des locuteurs. Le second associe chaque personnage à une description physique et à sa réplique spécifique, pour que le modèle puisse faire correspondre les mouvements des lèvres et la voix au bon visage.
4. Utilisez des images de référence pour ancrer les personnages
Lorsque vous téléversez une image de référence, Kling 3.0 l'utilise comme ancre visuelle tout au long de la génération. C'est plus fiable que de décrire l'apparence d'un personnage uniquement avec du texte, en particulier pour maintenir la cohérence à travers plusieurs plans ou générations séparées.
Pour tirer le meilleur parti des références :
- Téléversez 2 à 4 images de référence montrant le personnage sous différents angles si possible. Cela donne au modèle plus de données visuelles sur lesquelles s'appuyer.
- Si vous téléversez une référence vidéo, le modèle peut extraire à la fois l'apparence du personnage et sa tonalité vocale naturelle, en maintenant les deux cohérents tout au long de la génération.
- Pour les vidéos produits, téléversez l'image du produit en référence pour garder cohérents l'identité de marque, le texte et les couleurs pendant les mouvements de caméra.
5. Décrivez le mouvement et l'action dans le temps, pas des scènes figées
L'erreur la plus courante lors du prompting d'un modèle vidéo est d'écrire un prompt qui décrit une photographie. Kling 3.0 génère du mouvement, votre prompt doit donc décrire comment les choses évoluent sur la durée du clip : comment le sujet bouge, comment la caméra réagit et comment la scène se développe.
| Mauvais prompt | Bon prompt |
|---|---|
| "Un flacon de parfum sur une surface en velours avec un éclairage doux et des pétales de rose" | "La caméra orbite lentement autour d'un flacon de parfum en verre posé sur une surface en velours sombre, une lumière dorée douce accrochant les facettes du flacon à mesure qu'il entre en vue, des pétales de rose éparpillés bougent doucement sous le mouvement d'air, la caméra resserre progressivement d'un cadrage large à un gros plan sur l'étiquette" |
Le premier prompt décrit une image fixe. Le second décrit comment la caméra bouge, comment la lumière interagit avec l'objet dans le temps et comment le cadrage change. Cela donne au modèle une trajectoire de mouvement claire à suivre.
Nouveautés de Kling 3.0
Kling 3.0 constitue une mise à niveau significative par rapport à Kling Video 2.6. Le tableau ci-dessous montre ce qui a changé, selon la documentation officielle du modèle Kling 3.0.
| Capacité | Kling Video 2.6 | Kling Video 3.0 |
|---|---|---|
| Text-to-video | Oui | Oui |
| Image-to-video | Oui | Oui |
| Frames de début et de fin vers vidéo | Oui | Oui |
| Audio natif | Oui | Oui |
| Génération multi-plans | Non | Oui |
| Frame de début + référence d'élément | Non | Oui |
| Coréférence multi-personnages (3+) | Non | Oui |
| Support multilingue (chinois, anglais, japonais, coréen, espagnol) | Non | Oui |
| Dialectes et accents | Non | Oui |
| Durée de sortie de 15 secondes | Non | Oui |
| Durée flexible (3-15 secondes) | Non | Oui |
| Résolution 4K native | Non | Oui |
Les ajouts les plus notables sont la génération multi-plans et le système de référence d'éléments. Le multi-plans permet jusqu'à six coupes de caméra en une seule génération, ce qui élimine le besoin de générer des clips individuels et de les assembler manuellement. Le système de référence d'éléments vous permet de lier l'apparence visuelle et la tonalité vocale d'un personnage à un élément réutilisable, pour que la cohérence se maintienne à travers les plans et même à travers des générations vidéo distinctes.
Le support multilingue avec rendu de dialectes et d'accents est également nouveau. Kling 2.6 prenait en charge l'audio natif, mais la 3.0 étend cela à cinq langues avec la capacité de reproduire des accents spécifiques (américain, britannique, indien pour l'anglais ; cantonais, du Nord-Est, de Pékin, sichuanais, taïwanais pour le chinois) et de gérer l'alternance codique dans une même scène.
Capacités de Kling 3.0
Génération de storyboard multi-plans
Kling 3.0 offre deux modes pour la vidéo multi-plans. En mode automatique, vous activez l'option multi-plans et le modèle lit votre description de scène pour planifier les transitions de caméra, le cadrage des plans et le rythme par lui-même. En mode personnalisé, vous définissez chaque plan individuellement, en précisant la durée, l'angle de caméra et le contenu narratif. Le modèle suit votre storyboard à la lettre.
Le mode personnalisé est particulièrement utile pour le contenu structuré comme les publicités produits ou les séquences de dialogue où le timing de chaque coupe compte. Le mode automatique fonctionne bien lorsque vous voulez que le modèle interprète un prompt narratif et décide de la couverture visuelle.
Audio natif avec liaison vocale spécifique aux personnages
La vidéo et l'audio sont générés en une seule passe. Le modèle produit des dialogues lip-syncés, et vous pouvez contrôler quel personnage prononce quelle réplique en associant les personnages à leurs dialogues dans le prompt. Au-delà du lip-sync de base, Kling 3.0 prend en charge la création d'éléments personnages avec tonalités vocales liées. Une fois qu'une voix est liée à un élément personnage, cette voix reste cohérente chaque fois que le personnage apparaît, sans avoir besoin de la repréciser.
Le modèle prend en charge les dialogues en anglais, chinois, japonais, coréen et espagnol, avec support des dialectes et accents et alternance codique multilingue dans une même scène.
Système de référence d'éléments
Vous pouvez créer des éléments personnages réutilisables en téléversant 2 à 4 images de référence ou une courte vidéo de référence. Pour les éléments personnages, vous pouvez également assigner une tonalité vocale en téléversant de l'audio ou en sélectionnant parmi les voix disponibles. Lorsque vous utilisez un élément dans un prompt, le modèle verrouille l'apparence et la voix du personnage tout au long de la vidéo, maintenant la cohérence même à travers les mouvements de caméra, les changements de scène et les séquences multi-plans.
Ce système prend en charge trois personnages distincts ou plus dans le même cadre sans mélanger leurs traits, ce qui est crucial pour les scènes de dialogue et toute vidéo mettant en scène plusieurs personnes.
Préservation du texte et des logos
Le modèle peut identifier le contenu textuel dans les images téléversées, comme les panneaux, les étiquettes produits ou les logos, et maintenir la cohérence du texte tout au long de la vidéo. Il peut aussi générer de nouveaux contenus textuels au sein de la vidéo elle-même. Le texte reste lisible même pendant un mouvement de caméra continu, ce qui est utile pour le contenu commercial où les éléments de marque doivent rester nets et lisibles.
Durée et résolution flexibles
Kling 3.0 génère de la vidéo de 3 à 15 secondes en une seule passe, avec prise en charge de résolutions jusqu'à la 4K native. La durée étendue donne au modèle la place pour un développement narratif plus complexe, des transitions de scène et des séquences d'action qui ne tiendraient pas dans des clips plus courts. Les options de résolution incluent également le 1080p et le 720p.
Spécifications techniques de Kling 3.0
| Spécification | Détails |
|---|---|
| Modes de génération | Text-to-video, image-to-video, frames de début et de fin vers vidéo |
| Durée maximale | 15 secondes |
| Durée minimale | 3 secondes |
| Résolution maximale | 4K native |
| Autres résolutions | 1080p, 720p |
| Formats | 16:9, 9:16, 1:1 |
| Multi-plans | Jusqu'à 6 coupes de caméra par génération |
| Modes multi-plans | Automatique (le modèle planifie les plans) et Personnalisé (l'utilisateur définit chaque plan) |
| Audio natif | Dialogues lip-syncés, contrôle de tonalité vocale |
| Langues prises en charge | Anglais, chinois, japonais, coréen, espagnol |
| Support dialectes et accents | Oui (dialectes chinois et anglais, accents régionaux) |
| Alternance codique | Oui (plusieurs langues dans une même scène) |
| Éléments personnages | Créés à partir de 2-4 images ou d'une référence vidéo |
| Liaison vocale | Tonalité vocale liée aux éléments personnages |
| Coréférence multi-personnages | 3+ personnages distincts dans un même cadre |
| Préservation du texte | Lit et maintient le texte des images téléversées |
| Lignée du modèle | Unification de Kling Video 2.6 + Kling O1 |
| Date de sortie | Février 2026 |
Cas d'usage de Kling 3.0
Cinéastes de contenu court et créateurs narratifs
La génération multi-plans est ce qui rend Kling 3.0 particulièrement utile pour le contenu narratif court. Vous pouvez générer une scène complète avec dialogue en champ-contrechamp, plans d'établissement et gros plans en une seule passe. Pour les créateurs qui travaillent sur des courts-métrages, des micro-séries ou du contenu social centré sur le récit, cela élimine le travail manuel de génération de clips individuels et de montage. La durée de 15 secondes avec jusqu'à six coupes laisse suffisamment de place pour un début, un milieu et une chute dans une seule génération.
Vidéo produit et e-commerce
Les publicités produits ont besoin que la caméra se déplace autour d'un objet tandis que le texte et les logos de marque restent nets. La préservation du texte de Kling 3.0 gère cela nativement, en maintenant les étiquettes lisibles pendant les plans orbitaux et les travellings. Combiné au système de référence d'éléments, vous pouvez verrouiller l'identité visuelle d'un produit et générer plusieurs variations de publicité avec différents angles de caméra, configurations d'éclairage ou environnements de fond tandis que le produit lui-même reste cohérent. Sur Morphic, vous pouvez générer la vidéo produit puis créer des vignettes assorties ou des assets sociaux dans le même espace de travail.
Équipes de contenu pour les réseaux sociaux
La combinaison de formats flexibles (16:9, 9:16, 1:1) et d'itération rapide signifie que vous pouvez générer du contenu vidéo spécifique à chaque plateforme sans workflows de production séparés pour chaque format. Le mode multi-plans avec storyboarding automatique est utile ici : vous décrivez le concept de contenu et le modèle s'occupe de la planification des plans. Pour les équipes qui ont besoin de volume sur Instagram, TikTok, YouTube Shorts et les posts de fil, cela accélère sensiblement le cycle de création.
Contenu multilingue et localisé
Le support des dialectes et de l'alternance codique ouvre des cas d'usage que la plupart des modèles vidéo IA ne peuvent pas gérer. Une vidéo de formation où un présentateur parle coréen, une publicité touristique où les personnages passent de l'anglais à l'espagnol au milieu d'une conversation, ou un clip social mettant en vedette des accents régionaux authentiques se génèrent tous avec des mouvements labiaux naturels et des expressions faciales cohérentes. Pour les marques ciblant plusieurs marchés, cela signifie produire du contenu vidéo localisé à partir du même cadre de prompt sans réenregistrer l'audio.
Sur Morphic, vous pouvez associer Kling 3.0 aux outils d'image et d'audio de la plateforme pour construire un package de contenu complet, de la vidéo à la vignette en passant par la musique de fond, sans basculer entre des applications séparées.
Questions fréquemment posées
Kling 3.0 est disponible sur Morphic. Inscrivez-vous à un plan Morphic, sélectionnez le mode Vidéo dans la barre de prompt et choisissez Kling 3.0 dans le menu déroulant des modèles. Il côtoie les outils de génération d'images, de musique et d'audio, pour que vous puissiez travailler sur plusieurs types de contenus dans un seul espace de travail.
Les deux modèles gèrent le text-to-video et l'image-to-video, mais ils servent des cas d'usage différents. Kling 3.0 est le modèle de génération principal avec storyboarding multi-plans et audio natif. Kling 3.0 Omni étend cela avec des contrôles de cohérence des éléments plus approfondis, des références de personnages basées sur la vidéo et la liaison de tonalités vocales. Si vous avez besoin d'une seule vidéo aboutie à partir d'un prompt, Kling 3.0 est le bon choix. Si vous construisez une série où les mêmes personnages apparaissent à travers plusieurs générations, Omni vous offre les outils de cohérence pour maintenir cela.
Le modèle génère des dialogues lip-syncés en cinq langues : anglais, chinois, japonais, coréen et espagnol. Il va au-delà du support linguistique de base avec un rendu spécifique des dialectes et accents, y compris les accents américain, britannique et indien pour l'anglais, et les dialectes cantonais, du Nord-Est, de Pékin, sichuanais et taïwanais pour le chinois. Les personnages peuvent aussi changer de langue au milieu d'une conversation dans un même clip.
Le multi-plans génère jusqu'à six coupes de caméra distinctes dans une seule vidéo. Vous avez deux options : le mode automatique, où le modèle planifie les transitions de plans en fonction de votre prompt, et le mode personnalisé, où vous définissez vous-même le cadrage, la durée et l'angle de caméra de chaque plan. En mode personnalisé, le modèle suit votre storyboard à la lettre. En mode automatique, il interprète votre récit et décide de la meilleure couverture de plans. Les deux modes maintiennent la cohérence des personnages à travers toutes les coupes.
La résolution maximale est la 4K native, ce qui signifie que la vidéo est générée à cette résolution plutôt qu'upscalée. Le 1080p et le 720p sont également disponibles pour une génération plus rapide ou des fichiers de plus petite taille. La durée va de 3 à 15 secondes par génération. Les formats pris en charge sont le 16:9, le 9:16 et le 1:1, couvrant les formats écran large, vertical et carré.


