ByteDance Bernini:AI 视频编辑与提示词完整指南

开源 AI 视频模型 ByteDance Bernini 的完整指南:它能做什么、技术规格、如何解读提示词、干净编辑背后的一致性锁定,以及按任务划分的提示词结构。

ByteDance Bernini:AI 视频编辑与提示词完整指南

Bernini 是 ByteDance 的开源视频模型,围绕编辑与生成同等打造。一个 MLLM 规划器读取你的指令,判断应该改动什么,再由基于 Wan2.2 的 DiT 渲染器绘制像素,因此它能改动真实素材,同时让你没有提到的部分保持不变。本指南涵盖 Bernini 能做什么、技术规格、如何解读提示词、干净编辑背后的一致性锁定,以及每项任务的提示词结构。

Bernini 能做什么?编辑、主体生视频与生成

能力作用适用场景
一致性锁定编辑在素材中添加、移除或改动元素,同时让未触及的区域保持冻结对象增删、干净修饰
参考引导编辑将一张参考图或第二段素材应用到源视频上服装替换、产品或屏幕植入
主体生视频将参考图中的人物或角色放入新场景数字人、角色创作、系列化内容
动作编辑改变素材中主体正在做的动作无需重拍即可重新设计动作
图像与视频统一一个模型覆盖文生图、图像编辑、文生视频和视频编辑用同一套提示词语言生成静态图与动态画面

一致性锁定编辑

由于规划器在渲染器绘制之前就确定了语义,Bernini 会保留你没有要求改动的部分。先说明要做的编辑,再说明哪些保持固定,未触及的区域就会在整段视频中保持静止,没有闪烁或漂移。这是该模型最强的编辑特性。

参考引导编辑

输入一张参考图或第二段素材,Bernini 会将其应用到源视频上。用一张静态图把服装替换到运动中的主体身上,或者植入一个产品或屏幕画面,使其跟随原始素材。改动之外的源素材其余部分保持完整。

主体生视频

传入多张参考图,并在提示词中按索引引用每一张(image0、image1),说明哪个主体或属性来自哪张图。Bernini 会把主体带入新场景,让面部在运动中依然可辨认,这是它在 ByteDance 主体生视频评测中的突出表现。

动作编辑

改变现有素材中主体正在做的动作,比如让人物蹲下而不是弯腰,同时其身份、构图、光线和背景保持不变。它能重新设计一个动作而无需重拍这条镜头。

图像与视频统一

一个模型覆盖文生图、图像编辑、文生视频和视频编辑,因此静态图和动态编辑都出自同一套提示词语言。你只需学会一种指令方式,即可应用于两种格式。

Bernini 使用场景

清理已拍好的素材

移除干扰物、补上缺失的元素,或重新设计真实素材中的某个细节,无需重拍。一致性锁定让镜头其余部分保持一致。

前后对比:从湖边素材中移除一个干扰物,场景其余部分保持不变

打造反复出现的角色

在不同剧集、广告或数字人系列中保持同一张脸。主体生视频可将一个人的身份从几张参考图带入新场景。

同一个角色以一致的面部出现在三个不同的场景和服装中

试穿与产品植入

用参考图把服装替换到运动中的主体身上,或将产品或屏幕画面放入镜头,同时保持源素材完整。

前后对比:模特的 T 恤被替换成修身西装外套,而姿势、光线和背景保持不变

改变一段表演

重新设计一个动作或调整一条镜头中主体的运动,而不必再拍一遍,同时身份、构图和光线保持固定。

前后对比:主体的姿势从弯腰变为蹲下,而场景、构图和光线保持不变

如何为 Bernini 写提示词

两个习惯决定了 Bernini 上的大部分质量。

  • 写指令,而不只是描述。对于编辑,你是在改动一段现有素材,所以提示词是一条指令:要添加、移除或改动什么,以及改在哪里。对于生成(文生视频、文生图),照常描述整个场景即可。
  • 先说明改什么,再说明保留什么。渲染器可以触及任何区域,所以最可靠的编辑会先陈述改动,再钉住所有不该移动的部分。第二个习惯就是一致性锁定,下文会讲到。

详细、结构化的指令胜过简短的指令。当你把大小、位置、材质,以及新元素的光线如何与场景匹配都讲清楚,而不是依赖一句话时,Bernini 的规划器表现更好。

一致性锁定:只改一处,其余保留

渲染器能很好地保留未触及的区域,但前提是提示词告诉它这些区域是什么。做法是先精确陈述编辑,再列出所有必须保持不变的部分,以"保持不变"结尾。移除的写法相同,先描述填补,再锁住周围环境。

编辑
添加对象在视频里放个雪人在狗旁边的中右侧地面添加一个三球雪人,配胡萝卜鼻子和煤块纽扣,与阴天光线和柔和阴影相匹配。保持狗、道路和树木不变。
服装替换换掉衬衫把外层衬衫替换为参考图中的那件,穿着时呈现真实的垂坠感。保持姿势、镜头、光线、背景和运动完全不变。
主体生视频在沙滩视频里用这些参考图image0 中的雕像,穿着 image3 中的短裤,在 image4 的长椅上日落时分,随音乐轻轻摇摆。保持 image0 中雕像的石质身体和 image4 中的沙滩场景不变。

跳过锁定,模型就可以随意重绘背景。花一句话锁住它,编辑看起来就像原镜头里本来就有的一样。

常见的 Bernini 提示词错误(以及如何修正)

  • 没有锁定:说明哪些保持不变,否则编辑会渗入画面其余部分。
  • 指令过简:完整描述新元素的大小、位置、材质和光线,而不是一句三个词的命令。
  • 参考含糊:对于主体生视频,按索引引用每张图(image0、image1),并说明哪个属性来自哪张图,而不是只说"用这些参考"。
  • 动作编辑动到了身份:改动作时,钉住人物、服装、位置和镜头,让只有动作发生变化。
  • 期待 4K:默认渲染为 480p、16fps,为编辑保真度而非分辨率而调校。请以它保持未触及区域有多干净来评判它。

Bernini 规格与架构

规格Bernini
提供方ByteDance
架构MLLM 规划器(Qwen2.5-VL)+ 14B DiT 渲染器(Wan2.2)
模式文生图、图像编辑、文生视频、视频编辑、动作编辑、参考编辑、主体生视频
分辨率480p(默认)
帧率16 fps
许可证Apache 2.0,开放权重

常见问题

如何用 Bernini 取得最佳效果?

精确陈述改动,然后明确锁住所有应保持不变的部分,包括主体、镜头、光线、背景和阴影。写出细节而非一句话,并且每次只做一处编辑。

什么是一致性锁定?

这是让 Bernini 编辑出彩的措辞习惯。描述完编辑后,把未触及的区域钉为保持不变。Bernini 能很好地保留这些区域,但前提是提示词告诉它这些区域是什么。

主体生视频要如何引用图像?

传入多张参考图,并在提示词中按索引引用每一张(image0、image1、image2)。说明哪个主体或属性来自哪张图,然后描述新场景和运动。

Bernini 接受哪些输入?

生成时只需文本;编辑和动作编辑需要视频加文本;参考引导编辑需要视频加一张参考图或一段素材;主体生视频需要一组参考图加文本。

Bernini 输出什么分辨率和帧率?

默认渲染设置为 480p、16fps。该版本优先考虑编辑保真度与一致性,而非最高分辨率,更高的设置在更大算力开销下也可实现。

chair
让您的故事栩栩如生
无需下载,无需安装。加入使用 Morphic 将想法转化为精美故事的不断增长的创作者社区。