Bernini 是 ByteDance 的开源视频模型,围绕编辑与生成同等打造。一个 MLLM 规划器读取你的指令,判断应该改动什么,再由基于 Wan2.2 的 DiT 渲染器绘制像素,因此它能改动真实素材,同时让你没有提到的部分保持不变。本指南涵盖 Bernini 能做什么、技术规格、如何解读提示词、干净编辑背后的一致性锁定,以及每项任务的提示词结构。
Bernini 能做什么?编辑、主体生视频与生成
| 能力 | 作用 | 适用场景 |
|---|---|---|
| 一致性锁定编辑 | 在素材中添加、移除或改动元素,同时让未触及的区域保持冻结 | 对象增删、干净修饰 |
| 参考引导编辑 | 将一张参考图或第二段素材应用到源视频上 | 服装替换、产品或屏幕植入 |
| 主体生视频 | 将参考图中的人物或角色放入新场景 | 数字人、角色创作、系列化内容 |
| 动作编辑 | 改变素材中主体正在做的动作 | 无需重拍即可重新设计动作 |
| 图像与视频统一 | 一个模型覆盖文生图、图像编辑、文生视频和视频编辑 | 用同一套提示词语言生成静态图与动态画面 |
一致性锁定编辑
由于规划器在渲染器绘制之前就确定了语义,Bernini 会保留你没有要求改动的部分。先说明要做的编辑,再说明哪些保持固定,未触及的区域就会在整段视频中保持静止,没有闪烁或漂移。这是该模型最强的编辑特性。
参考引导编辑
输入一张参考图或第二段素材,Bernini 会将其应用到源视频上。用一张静态图把服装替换到运动中的主体身上,或者植入一个产品或屏幕画面,使其跟随原始素材。改动之外的源素材其余部分保持完整。
主体生视频
传入多张参考图,并在提示词中按索引引用每一张(image0、image1),说明哪个主体或属性来自哪张图。Bernini 会把主体带入新场景,让面部在运动中依然可辨认,这是它在 ByteDance 主体生视频评测中的突出表现。
动作编辑
改变现有素材中主体正在做的动作,比如让人物蹲下而不是弯腰,同时其身份、构图、光线和背景保持不变。它能重新设计一个动作而无需重拍这条镜头。
图像与视频统一
一个模型覆盖文生图、图像编辑、文生视频和视频编辑,因此静态图和动态编辑都出自同一套提示词语言。你只需学会一种指令方式,即可应用于两种格式。
Bernini 使用场景
清理已拍好的素材
移除干扰物、补上缺失的元素,或重新设计真实素材中的某个细节,无需重拍。一致性锁定让镜头其余部分保持一致。

打造反复出现的角色
在不同剧集、广告或数字人系列中保持同一张脸。主体生视频可将一个人的身份从几张参考图带入新场景。

试穿与产品植入
用参考图把服装替换到运动中的主体身上,或将产品或屏幕画面放入镜头,同时保持源素材完整。

改变一段表演
重新设计一个动作或调整一条镜头中主体的运动,而不必再拍一遍,同时身份、构图和光线保持固定。

如何为 Bernini 写提示词
两个习惯决定了 Bernini 上的大部分质量。
- 写指令,而不只是描述。对于编辑,你是在改动一段现有素材,所以提示词是一条指令:要添加、移除或改动什么,以及改在哪里。对于生成(文生视频、文生图),照常描述整个场景即可。
- 先说明改什么,再说明保留什么。渲染器可以触及任何区域,所以最可靠的编辑会先陈述改动,再钉住所有不该移动的部分。第二个习惯就是一致性锁定,下文会讲到。
详细、结构化的指令胜过简短的指令。当你把大小、位置、材质,以及新元素的光线如何与场景匹配都讲清楚,而不是依赖一句话时,Bernini 的规划器表现更好。
一致性锁定:只改一处,其余保留
渲染器能很好地保留未触及的区域,但前提是提示词告诉它这些区域是什么。做法是先精确陈述编辑,再列出所有必须保持不变的部分,以"保持不变"结尾。移除的写法相同,先描述填补,再锁住周围环境。
| 编辑 | 弱 | 强 |
|---|---|---|
| 添加对象 | 在视频里放个雪人 | 在狗旁边的中右侧地面添加一个三球雪人,配胡萝卜鼻子和煤块纽扣,与阴天光线和柔和阴影相匹配。保持狗、道路和树木不变。 |
| 服装替换 | 换掉衬衫 | 把外层衬衫替换为参考图中的那件,穿着时呈现真实的垂坠感。保持姿势、镜头、光线、背景和运动完全不变。 |
| 主体生视频 | 在沙滩视频里用这些参考图 | image0 中的雕像,穿着 image3 中的短裤,在 image4 的长椅上日落时分,随音乐轻轻摇摆。保持 image0 中雕像的石质身体和 image4 中的沙滩场景不变。 |
跳过锁定,模型就可以随意重绘背景。花一句话锁住它,编辑看起来就像原镜头里本来就有的一样。
常见的 Bernini 提示词错误(以及如何修正)
- 没有锁定:说明哪些保持不变,否则编辑会渗入画面其余部分。
- 指令过简:完整描述新元素的大小、位置、材质和光线,而不是一句三个词的命令。
- 参考含糊:对于主体生视频,按索引引用每张图(image0、image1),并说明哪个属性来自哪张图,而不是只说"用这些参考"。
- 动作编辑动到了身份:改动作时,钉住人物、服装、位置和镜头,让只有动作发生变化。
- 期待 4K:默认渲染为 480p、16fps,为编辑保真度而非分辨率而调校。请以它保持未触及区域有多干净来评判它。
Bernini 规格与架构
| 规格 | Bernini |
|---|---|
| 提供方 | ByteDance |
| 架构 | MLLM 规划器(Qwen2.5-VL)+ 14B DiT 渲染器(Wan2.2) |
| 模式 | 文生图、图像编辑、文生视频、视频编辑、动作编辑、参考编辑、主体生视频 |
| 分辨率 | 480p(默认) |
| 帧率 | 16 fps |
| 许可证 | Apache 2.0,开放权重 |
常见问题
精确陈述改动,然后明确锁住所有应保持不变的部分,包括主体、镜头、光线、背景和阴影。写出细节而非一句话,并且每次只做一处编辑。
这是让 Bernini 编辑出彩的措辞习惯。描述完编辑后,把未触及的区域钉为保持不变。Bernini 能很好地保留这些区域,但前提是提示词告诉它这些区域是什么。
传入多张参考图,并在提示词中按索引引用每一张(image0、image1、image2)。说明哪个主体或属性来自哪张图,然后描述新场景和运动。
生成时只需文本;编辑和动作编辑需要视频加文本;参考引导编辑需要视频加一张参考图或一段素材;主体生视频需要一组参考图加文本。
默认渲染设置为 480p、16fps。该版本优先考虑编辑保真度与一致性,而非最高分辨率,更高的设置在更大算力开销下也可实现。

