ByteDance Bernini : guide complet IA vidéo et prompts

Que peut faire Bernini ? Édition, sujet-vers-vidéo et génération

Capacité	Ce qu'elle fait	Idéal pour
Édition à cohérence verrouillée	Ajoute, supprime ou modifie des éléments dans un clip pendant que les zones intactes restent figées	Ajout/suppression d'objets, retouches propres
Édition guidée par référence	Applique une image de référence ou un second clip à la vidéo source	Changements de vêtement, insertion de produit ou d'écran
Sujet-vers-vidéo	Place une personne ou un personnage issu d'images de référence dans une nouvelle scène	Avatars, travail de personnage, contenu sérialisé
Édition de mouvement	Change ce qu'un sujet fait à l'intérieur d'un clip	Reprendre une action sans retourner le plan
Image + vidéo unifiées	Un seul modèle couvre le texte-vers-image, l'édition d'image, le texte-vers-vidéo et l'édition vidéo	Images fixes et mouvement avec un seul langage de prompt

Édition à cohérence verrouillée

Parce que le planificateur fixe la sémantique avant que le moteur de rendu ne peigne, Bernini conserve les parties d'un clip que vous n'avez pas demandé de changer. Nommez l'édition, puis nommez ce qui reste fixe, et les zones intactes restent immobiles sur toute la vidéo, sans scintillement ni dérive. C'est le trait d'édition le plus fort du modèle.

Édition guidée par référence

Fournissez une image de référence ou un second clip et Bernini l'applique à la vidéo source. Changez un vêtement sur un sujet en mouvement à partir d'une seule image fixe, ou insérez un produit ou une vidéo à l'écran pour qu'il suive le métrage d'origine. Le reste du clip source reste intact autour du changement.

Sujet-vers-vidéo

Passez des images de référence et référez-vous à chacune par son index dans le prompt (image0, image1), en précisant quel sujet ou attribut provient de laquelle. Bernini reporte le sujet dans une nouvelle scène avec un visage reconnaissable lorsqu'il bouge, son résultat marquant dans les évaluations sujet-vers-vidéo de ByteDance.

Édition de mouvement

Changez ce qu'un sujet fait à l'intérieur d'un clip existant, une personne s'accroupit au lieu de se pencher, tandis que son identité, le cadrage, l'éclairage et l'arrière-plan restent en place. Cela rejoue une action sans retourner la prise.

Image + vidéo unifiées

Un seul modèle couvre le texte-vers-image, l'édition d'image, le texte-vers-vidéo et l'édition vidéo, si bien qu'une image fixe et une édition en mouvement proviennent du même langage de prompt. Vous apprenez une seule façon de l'instruire et vous l'appliquez aux deux formats.

Ajoutez un bonhomme de neige à côté du chien et laissez le reste du clip inchangéEssayer maintenant

Cas d'usage de Bernini

Nettoyer un métrage déjà filmé

Supprimez une distraction, ajoutez un élément manquant ou restylez un détail dans un vrai clip, sans le retourner. Le verrou de cohérence garde le reste du plan identique.

Avant et après : une distraction retirée d'un clip au bord d'un lac pendant que le reste de la scène reste inchangé

Construire un personnage récurrent

Gardez le même visage à travers les épisodes, les pubs ou une série d'avatars. Le sujet-vers-vidéo reporte l'identité d'une personne depuis quelques images de référence dans de nouvelles scènes.

Le même personnage avec un visage constant montré à travers trois scènes et tenues différentes

Essayage et placement de produit

Changez un vêtement sur un sujet en mouvement à partir d'une image de référence, ou intégrez un produit ou une vidéo à l'écran dans un plan, en gardant le clip source intact.

Avant et après : le t-shirt d'un mannequin remplacé par un blazer ajusté pendant que la pose, l'éclairage et l'arrière-plan restent identiques

Modifier une performance

Rejouez une action ou ajustez le mouvement d'un sujet dans une prise, au lieu de la filmer à nouveau, pendant que l'identité, le cadrage et l'éclairage restent fixes.

Avant et après : la pose d'un sujet changée de penchée à accroupie pendant que la scène, le cadrage et l'éclairage restent identiques

Comment rédiger un prompt pour Bernini

Deux habitudes assurent l'essentiel de la qualité sur Bernini.

Écrivez une instruction, pas seulement une description. Pour les éditions, vous modifiez un clip existant, donc le prompt est une directive : quoi ajouter, supprimer ou modifier, et où. Pour la génération (texte-vers-vidéo, texte-vers-image), vous décrivez toute la scène comme d'habitude.
Nommez ce qui change, puis nommez ce qui reste. Le moteur de rendu peut toucher n'importe quelle zone, donc les éditions les plus fiables énoncent le changement puis figent tout ce qui ne doit pas bouger. Cette seconde habitude est le verrou de cohérence, abordé ensuite.

Une instruction détaillée et structurée vaut mieux qu'une instruction laconique. Le planificateur de Bernini fait mieux quand vous précisez la taille, le placement, les matériaux et la façon dont l'éclairage du nouvel élément s'accorde à la scène, plutôt que de vous appuyer sur une seule ligne.

Le verrou de cohérence : éditez une chose, gardez le reste

Le moteur de rendu conserve bien les zones intactes, mais seulement si le prompt lui dit lesquelles. Le schéma consiste à énoncer l'édition avec précision, puis à lister tout ce qui doit rester inchangé, en terminant par « inchangé ». La suppression fonctionne de la même façon, décrivez le remplissage, puis verrouillez les alentours.

Édition	Faible	Forte
Ajouter un objet	Mets un bonhomme de neige dans la vidéo	Ajoute un bonhomme de neige à trois boules au sol au centre-droit, à côté du chien, nez en carotte et boutons en charbon, accordé à la lumière couverte et aux ombres douces. Garde le chien, la route et les arbres inchangés.
Changement de vêtement	Change la chemise	Remplace la chemise extérieure par celle de l'image de référence, portée avec un drapé réaliste. Garde la pose, la caméra, l'éclairage, l'arrière-plan et le mouvement exactement tels quels.
Sujet-vers-vidéo	Utilise ces références dans une vidéo de plage	La statue d'image0, dans le short d'image3, sur le banc d'image4 au coucher du soleil, se balançant doucement sur la musique. Garde le corps en pierre de la statue d'image0 et la scène de plage d'image4 inchangés.

Sautez le verrou et le modèle est libre de redessiner l'arrière-plan. Consacrez-lui une phrase et l'édition paraît native au plan d'origine.

Erreurs de prompt courantes avec Bernini (et comment les corriger)

Pas de verrou : nommez ce qui reste inchangé, sinon l'édition déborde sur le reste du cadre.
Une instruction laconique : décrivez entièrement le nouvel élément, sa taille, son placement, ses matériaux et son éclairage, au lieu d'une commande de trois mots.
Des références vagues : pour le sujet-vers-vidéo, référez-vous à chaque image par son index (image0, image1) et dites quel attribut provient de laquelle, plutôt que « utilise ces références ».
Des éditions de mouvement qui déplacent l'identité : en changeant le mouvement, figez la personne, la garde-robe, la position et la caméra pour que seule l'action change.
Attendre de la 4K : le rendu par défaut est en 480p à 16fps, optimisé pour la fidélité d'édition plutôt que la résolution. Jugez-le à la propreté avec laquelle il conserve les zones intactes.

Caractéristiques et architecture de Bernini

Caractéristique	Bernini
Fournisseur	ByteDance
Architecture	Planificateur MLLM (Qwen2.5-VL) + moteur de rendu DiT 14B (Wan2.2)
Modes	Texte-vers-image, édition d'image, texte-vers-vidéo, édition vidéo, édition de mouvement, édition par référence, sujet-vers-vidéo
Résolution	480p (par défaut)
Fréquence d'images	16 fps
Licence	Apache 2.0, poids ouverts

Questions fréquentes

Comment obtenir les meilleurs résultats avec Bernini ?

Énoncez le changement avec précision, puis verrouillez explicitement tout ce qui doit rester inchangé, le sujet, la caméra, l'éclairage, l'arrière-plan et les ombres. Écrivez du détail plutôt qu'une seule ligne, et faites une seule édition par passe.

Qu'est-ce que le verrou de cohérence ?

C'est l'habitude de formulation qui fait briller l'édition de Bernini. Après avoir décrit l'édition, vous figez les zones intactes comme inchangées. Bernini conserve bien ces zones, mais seulement si le prompt lui dit lesquelles.

Comment référencer des images pour le sujet-vers-vidéo ?

Passez plusieurs images de référence et référez-vous à chacune par son index dans le prompt (image0, image1, image2). Précisez quel sujet ou attribut provient de quelle image, puis décrivez la nouvelle scène et le mouvement.

Quels entrées accepte Bernini ?

Du texte seul pour la génération, une vidéo plus du texte pour l'édition et l'édition de mouvement, une vidéo plus une image ou un clip de référence pour les éditions guidées par référence, et un ensemble d'images de référence plus du texte pour le sujet-vers-vidéo.

Quelle résolution et quelle fréquence d'images Bernini produit-il ?

Le réglage de rendu par défaut est 480p à 16fps. La version privilégie la fidélité d'édition et la cohérence plutôt que la résolution maximale, et des réglages plus élevés sont possibles au prix d'un calcul plus important.