ByteDance Bernini：AI 视频完整指南与提示词

Bernini 能做什么？编辑、主体生视频与生成

能力	作用	适用场景
一致性锁定编辑	在素材中添加、移除或改动元素，同时让未触及的区域保持冻结	对象增删、干净修饰
参考引导编辑	将一张参考图或第二段素材应用到源视频上	服装替换、产品或屏幕植入
主体生视频	将参考图中的人物或角色放入新场景	数字人、角色创作、系列化内容
动作编辑	改变素材中主体正在做的动作	无需重拍即可重新设计动作
图像与视频统一	一个模型覆盖文生图、图像编辑、文生视频和视频编辑	用同一套提示词语言生成静态图与动态画面

由于规划器在渲染器绘制之前就确定了语义，Bernini 会保留你没有要求改动的部分。先说明要做的编辑，再说明哪些保持固定，未触及的区域就会在整段视频中保持静止，没有闪烁或漂移。这是该模型最强的编辑特性。

输入一张参考图或第二段素材，Bernini 会将其应用到源视频上。用一张静态图把服装替换到运动中的主体身上，或者植入一个产品或屏幕画面，使其跟随原始素材。改动之外的源素材其余部分保持完整。

传入多张参考图，并在提示词中按索引引用每一张（image0、image1），说明哪个主体或属性来自哪张图。Bernini 会把主体带入新场景，让面部在运动中依然可辨认，这是它在 ByteDance 主体生视频评测中的突出表现。

改变现有素材中主体正在做的动作，比如让人物蹲下而不是弯腰，同时其身份、构图、光线和背景保持不变。它能重新设计一个动作而无需重拍这条镜头。

一个模型覆盖文生图、图像编辑、文生视频和视频编辑，因此静态图和动态编辑都出自同一套提示词语言。你只需学会一种指令方式，即可应用于两种格式。

移除干扰物、补上缺失的元素，或重新设计真实素材中的某个细节，无需重拍。一致性锁定让镜头其余部分保持一致。

在不同剧集、广告或数字人系列中保持同一张脸。主体生视频可将一个人的身份从几张参考图带入新场景。

用参考图把服装替换到运动中的主体身上，或将产品或屏幕画面放入镜头，同时保持源素材完整。

重新设计一个动作或调整一条镜头中主体的运动，而不必再拍一遍，同时身份、构图和光线保持固定。

两个习惯决定了 Bernini 上的大部分质量。

写指令，而不只是描述。对于编辑，你是在改动一段现有素材，所以提示词是一条指令：要添加、移除或改动什么，以及改在哪里。对于生成（文生视频、文生图），照常描述整个场景即可。
先说明改什么，再说明保留什么。渲染器可以触及任何区域，所以最可靠的编辑会先陈述改动，再钉住所有不该移动的部分。第二个习惯就是一致性锁定，下文会讲到。

详细、结构化的指令胜过简短的指令。当你把大小、位置、材质，以及新元素的光线如何与场景匹配都讲清楚，而不是依赖一句话时，Bernini 的规划器表现更好。

渲染器能很好地保留未触及的区域，但前提是提示词告诉它这些区域是什么。做法是先精确陈述编辑，再列出所有必须保持不变的部分，以"保持不变"结尾。移除的写法相同，先描述填补，再锁住周围环境。

编辑	弱	强
添加对象	在视频里放个雪人	在狗旁边的中右侧地面添加一个三球雪人，配胡萝卜鼻子和煤块纽扣，与阴天光线和柔和阴影相匹配。保持狗、道路和树木不变。
服装替换	换掉衬衫	把外层衬衫替换为参考图中的那件，穿着时呈现真实的垂坠感。保持姿势、镜头、光线、背景和运动完全不变。
主体生视频	在沙滩视频里用这些参考图	image0 中的雕像，穿着 image3 中的短裤，在 image4 的长椅上日落时分，随音乐轻轻摇摆。保持 image0 中雕像的石质身体和 image4 中的沙滩场景不变。

跳过锁定，模型就可以随意重绘背景。花一句话锁住它，编辑看起来就像原镜头里本来就有的一样。

规格	Bernini
提供方	ByteDance
架构	MLLM 规划器（Qwen2.5-VL）+ 14B DiT 渲染器（Wan2.2）
模式	文生图、图像编辑、文生视频、视频编辑、动作编辑、参考编辑、主体生视频
分辨率	480p（默认）
帧率	16 fps
许可证	Apache 2.0，开放权重

如何用 Bernini 取得最佳效果？

精确陈述改动，然后明确锁住所有应保持不变的部分，包括主体、镜头、光线、背景和阴影。写出细节而非一句话，并且每次只做一处编辑。

什么是一致性锁定？

这是让 Bernini 编辑出彩的措辞习惯。描述完编辑后，把未触及的区域钉为保持不变。Bernini 能很好地保留这些区域，但前提是提示词告诉它这些区域是什么。

主体生视频要如何引用图像？

传入多张参考图，并在提示词中按索引引用每一张（image0、image1、image2）。说明哪个主体或属性来自哪张图，然后描述新场景和运动。

Bernini 接受哪些输入？

生成时只需文本；编辑和动作编辑需要视频加文本；参考引导编辑需要视频加一张参考图或一段素材；主体生视频需要一组参考图加文本。

Bernini 输出什么分辨率和帧率？

默认渲染设置为 480p、16fps。该版本优先考虑编辑保真度与一致性，而非最高分辨率，更高的设置在更大算力开销下也可实现。