Bernini est le modèle vidéo open source de ByteDance, conçu autant pour l'édition que pour la génération. Un planificateur MLLM lit votre instruction et détermine ce qui doit changer, puis un moteur de rendu DiT bâti sur Wan2.2 peint les pixels, ce qui lui permet de modifier un vrai clip tout en laissant intact tout ce que vous n'avez pas mentionné. Ce guide couvre ce que fait Bernini, ses caractéristiques, comment il lit un prompt, le verrou de cohérence derrière ses éditions propres, et la structure de prompt pour chaque tâche.
Que peut faire Bernini ? Édition, sujet-vers-vidéo et génération
| Capacité | Ce qu'elle fait | Idéal pour |
|---|---|---|
| Édition à cohérence verrouillée | Ajoute, supprime ou modifie des éléments dans un clip pendant que les zones intactes restent figées | Ajout/suppression d'objets, retouches propres |
| Édition guidée par référence | Applique une image de référence ou un second clip à la vidéo source | Changements de vêtement, insertion de produit ou d'écran |
| Sujet-vers-vidéo | Place une personne ou un personnage issu d'images de référence dans une nouvelle scène | Avatars, travail de personnage, contenu sérialisé |
| Édition de mouvement | Change ce qu'un sujet fait à l'intérieur d'un clip | Reprendre une action sans retourner le plan |
| Image + vidéo unifiées | Un seul modèle couvre le texte-vers-image, l'édition d'image, le texte-vers-vidéo et l'édition vidéo | Images fixes et mouvement avec un seul langage de prompt |
Édition à cohérence verrouillée
Parce que le planificateur fixe la sémantique avant que le moteur de rendu ne peigne, Bernini conserve les parties d'un clip que vous n'avez pas demandé de changer. Nommez l'édition, puis nommez ce qui reste fixe, et les zones intactes restent immobiles sur toute la vidéo, sans scintillement ni dérive. C'est le trait d'édition le plus fort du modèle.
Édition guidée par référence
Fournissez une image de référence ou un second clip et Bernini l'applique à la vidéo source. Changez un vêtement sur un sujet en mouvement à partir d'une seule image fixe, ou insérez un produit ou une vidéo à l'écran pour qu'il suive le métrage d'origine. Le reste du clip source reste intact autour du changement.
Sujet-vers-vidéo
Passez des images de référence et référez-vous à chacune par son index dans le prompt (image0, image1), en précisant quel sujet ou attribut provient de laquelle. Bernini reporte le sujet dans une nouvelle scène avec un visage reconnaissable lorsqu'il bouge, son résultat marquant dans les évaluations sujet-vers-vidéo de ByteDance.
Édition de mouvement
Changez ce qu'un sujet fait à l'intérieur d'un clip existant, une personne s'accroupit au lieu de se pencher, tandis que son identité, le cadrage, l'éclairage et l'arrière-plan restent en place. Cela rejoue une action sans retourner la prise.
Image + vidéo unifiées
Un seul modèle couvre le texte-vers-image, l'édition d'image, le texte-vers-vidéo et l'édition vidéo, si bien qu'une image fixe et une édition en mouvement proviennent du même langage de prompt. Vous apprenez une seule façon de l'instruire et vous l'appliquez aux deux formats.
Cas d'usage de Bernini
Nettoyer un métrage déjà filmé
Supprimez une distraction, ajoutez un élément manquant ou restylez un détail dans un vrai clip, sans le retourner. Le verrou de cohérence garde le reste du plan identique.

Construire un personnage récurrent
Gardez le même visage à travers les épisodes, les pubs ou une série d'avatars. Le sujet-vers-vidéo reporte l'identité d'une personne depuis quelques images de référence dans de nouvelles scènes.

Essayage et placement de produit
Changez un vêtement sur un sujet en mouvement à partir d'une image de référence, ou intégrez un produit ou une vidéo à l'écran dans un plan, en gardant le clip source intact.

Modifier une performance
Rejouez une action ou ajustez le mouvement d'un sujet dans une prise, au lieu de la filmer à nouveau, pendant que l'identité, le cadrage et l'éclairage restent fixes.

Comment rédiger un prompt pour Bernini
Deux habitudes assurent l'essentiel de la qualité sur Bernini.
- Écrivez une instruction, pas seulement une description. Pour les éditions, vous modifiez un clip existant, donc le prompt est une directive : quoi ajouter, supprimer ou modifier, et où. Pour la génération (texte-vers-vidéo, texte-vers-image), vous décrivez toute la scène comme d'habitude.
- Nommez ce qui change, puis nommez ce qui reste. Le moteur de rendu peut toucher n'importe quelle zone, donc les éditions les plus fiables énoncent le changement puis figent tout ce qui ne doit pas bouger. Cette seconde habitude est le verrou de cohérence, abordé ensuite.
Une instruction détaillée et structurée vaut mieux qu'une instruction laconique. Le planificateur de Bernini fait mieux quand vous précisez la taille, le placement, les matériaux et la façon dont l'éclairage du nouvel élément s'accorde à la scène, plutôt que de vous appuyer sur une seule ligne.
Le verrou de cohérence : éditez une chose, gardez le reste
Le moteur de rendu conserve bien les zones intactes, mais seulement si le prompt lui dit lesquelles. Le schéma consiste à énoncer l'édition avec précision, puis à lister tout ce qui doit rester inchangé, en terminant par « inchangé ». La suppression fonctionne de la même façon, décrivez le remplissage, puis verrouillez les alentours.
| Édition | Faible | Forte |
|---|---|---|
| Ajouter un objet | Mets un bonhomme de neige dans la vidéo | Ajoute un bonhomme de neige à trois boules au sol au centre-droit, à côté du chien, nez en carotte et boutons en charbon, accordé à la lumière couverte et aux ombres douces. Garde le chien, la route et les arbres inchangés. |
| Changement de vêtement | Change la chemise | Remplace la chemise extérieure par celle de l'image de référence, portée avec un drapé réaliste. Garde la pose, la caméra, l'éclairage, l'arrière-plan et le mouvement exactement tels quels. |
| Sujet-vers-vidéo | Utilise ces références dans une vidéo de plage | La statue d'image0, dans le short d'image3, sur le banc d'image4 au coucher du soleil, se balançant doucement sur la musique. Garde le corps en pierre de la statue d'image0 et la scène de plage d'image4 inchangés. |
Sautez le verrou et le modèle est libre de redessiner l'arrière-plan. Consacrez-lui une phrase et l'édition paraît native au plan d'origine.
Erreurs de prompt courantes avec Bernini (et comment les corriger)
- Pas de verrou : nommez ce qui reste inchangé, sinon l'édition déborde sur le reste du cadre.
- Une instruction laconique : décrivez entièrement le nouvel élément, sa taille, son placement, ses matériaux et son éclairage, au lieu d'une commande de trois mots.
- Des références vagues : pour le sujet-vers-vidéo, référez-vous à chaque image par son index (image0, image1) et dites quel attribut provient de laquelle, plutôt que « utilise ces références ».
- Des éditions de mouvement qui déplacent l'identité : en changeant le mouvement, figez la personne, la garde-robe, la position et la caméra pour que seule l'action change.
- Attendre de la 4K : le rendu par défaut est en 480p à 16fps, optimisé pour la fidélité d'édition plutôt que la résolution. Jugez-le à la propreté avec laquelle il conserve les zones intactes.
Caractéristiques et architecture de Bernini
| Caractéristique | Bernini |
|---|---|
| Fournisseur | ByteDance |
| Architecture | Planificateur MLLM (Qwen2.5-VL) + moteur de rendu DiT 14B (Wan2.2) |
| Modes | Texte-vers-image, édition d'image, texte-vers-vidéo, édition vidéo, édition de mouvement, édition par référence, sujet-vers-vidéo |
| Résolution | 480p (par défaut) |
| Fréquence d'images | 16 fps |
| Licence | Apache 2.0, poids ouverts |
Questions fréquentes
Énoncez le changement avec précision, puis verrouillez explicitement tout ce qui doit rester inchangé, le sujet, la caméra, l'éclairage, l'arrière-plan et les ombres. Écrivez du détail plutôt qu'une seule ligne, et faites une seule édition par passe.
C'est l'habitude de formulation qui fait briller l'édition de Bernini. Après avoir décrit l'édition, vous figez les zones intactes comme inchangées. Bernini conserve bien ces zones, mais seulement si le prompt lui dit lesquelles.
Passez plusieurs images de référence et référez-vous à chacune par son index dans le prompt (image0, image1, image2). Précisez quel sujet ou attribut provient de quelle image, puis décrivez la nouvelle scène et le mouvement.
Du texte seul pour la génération, une vidéo plus du texte pour l'édition et l'édition de mouvement, une vidéo plus une image ou un clip de référence pour les éditions guidées par référence, et un ensemble d'images de référence plus du texte pour le sujet-vers-vidéo.
Le réglage de rendu par défaut est 480p à 16fps. La version privilégie la fidélité d'édition et la cohérence plutôt que la résolution maximale, et des réglages plus élevés sont possibles au prix d'un calcul plus important.

