视频生成

Bernini

由 ByteDance 提供

字节跳动开源视频模型。
基于指令编辑，保留主体身份。

核心功能

基于指令的视频编辑

用自然语言告诉 Bernini 要在片段中添加、移除或更改什么，它就只做这一处改动。规划器先理解编辑的含义，再由渲染器绘制出来。

锁定的场景一致性

凡是你没有指定的内容都保持冻结。未改动的区域在整个片段中保持不变，不抖动不漂移，这是该模型最强的编辑特性。

参考引导的替换与插入

提供一张参考图或第二段片段来引导编辑。将一件服装换到运动中的主体身上，或插入产品或屏幕内容视频，使其跟随源画面。

主体到视频的身份保持

将参考图中的人物或角色置入新场景，面部在其移动过程中仍可辨认。身份保留是该模型在字节跳动主体到视频评测中的突出表现。

动作改向

改变主体在已有片段中正在做的事，例如让人从弯腰改为蹲下，同时姿态连续性、光照和背景保持不变。

开源权重模型系列

一个 MLLM 规划器搭配基于 Wan2.2 构建的 14B DiT 渲染器，以 Apache 2.0 协议发布。权重可在你自己的硬件上自托管。

在小狗旁边加一个雪人，片段其余部分保持不变立即试用

技术规格

Planner + DiT

Qwen2.5-VL 规划器，14B Wan2.2 渲染器

Edit, Generate, R2V

编辑、生成、主体到视频

480p / 16fps

默认渲染设置

Apache 2.0

开源权重，可自托管

应用场景

增强实拍素材

无需重拍即可在片段中添加或移除道具、修正某个细节，或重新风格化某个元素。一致性锁定让镜头其余部分保持一致，编辑看起来浑然天成。

复现角色与数字人

在多集内容、广告或数字人系列中保持同一张面孔。主体到视频能从几张参考图保留人物身份，让其穿行于新场景之中。

虚拟试穿与产品植入

依据参考图将服装换到运动中的模特身上，或将产品或屏幕内视频置入镜头，用于需要保留源片段的时尚与广告制作。

重新设计动作

改变某人在一条镜头中正在做的事，例如从站立变为蹲下，而无需重拍。动作编辑改变行为，同时身份、构图和光照保持固定。

提示词示例

一致性编辑

在雪地小路上的狗旁边加一个雪人，并让狗、道路和树木保持不变

Edit prompt

锁定身份的主体

将这个人置于夜晚的霓虹城市天台，缓缓转向镜头，保留其面部和夹克

Edit prompt

参考替换

将外衣换成参考图中的那件，姿态、光照和动作完全保持不变

Edit prompt

简单定价

今天就免费开始，随时可以升级或取消。

Basic

/ 月

账单金额为 $0 每年

900 每月信用

1 个用户

所有模型

工作流

Standard

/ 月

账单金额为 $0 每年

3200 每月信用

1 个用户

所有模型

工作流

Pro

/ 月

账单金额为 $0 每年

6200 共享每月信用

1 用户

+ 最多 4 人额外付费可增加

所有模型

工作流

Pro Max

/ 月

账单金额为 $0 每年

24000 共享每月信用

1 用户

+ 最多 9 人额外付费可增加

所有模型

工作流

Enterprise

更高的限制

自定义

定价和账单条款

大容量信用

自定义席位限制

所有模型

工作流

Free

For playing around

forever free

最多 20 积分

仅1个用户

部分模型

工作流

比较方案详情

常见问题

Bernini 是什么？

Bernini 是字节跳动用于视频生成与编辑的开源统一框架。它将基于 MLLM 的语义规划器与基于 DiT、构建于 Wan2.2 之上的渲染器相结合，于 2026 年 6 月以 Apache 2.0 协议发布。

Bernini 能做什么？

它支持文本到图像、图像编辑、文本到视频、基于指令的视频编辑、参考引导编辑（如服装替换与视频插入），以及将人物或角色置入新场景的主体到视频。

Bernini 与标准视频模型有何不同？

大多数视频模型从零生成。Bernini 将工作拆分：MLLM 规划器决定语义，渲染器再绘制像素。这种设计带来了强大的编辑一致性，片段中未改动的部分保持冻结，以及主体到视频中强大的身份保留。

Bernini 是开源的吗？

是的。推理代码和渲染器权重以 Apache 2.0 协议公开发布在 GitHub 和 Hugging Face 上。你可以在自己的硬件上运行；建议使用 Hopper 级 GPU，视频则建议使用多块 GPU。

Bernini 保留主体身份的效果如何？

身份保留是它的突出表现。在 ByteDance 的 subject-to-video 评测中，它在面部相似度上领先于同类系统，在主体移动时保持可辨认的面孔，因此适合数字人、角色制作以及需要同一张面孔反复出现的连续剧集内容。

Bernini 输出什么分辨率？

默认渲染设置为 480p / 16fps。该版本将编辑保真度和一致性置于最高分辨率之上，更高的设置在更大算力成本下也可实现。

Bernini

核心功能

基于指令的视频编辑

锁定的场景一致性

参考引导的替换与插入

主体到视频的身份保持

动作改向

开源权重模型系列

技术规格

应用场景

增强实拍素材

复现角色与数字人

虚拟试穿与产品植入

重新设计动作

提示词示例

一致性编辑

锁定身份的主体

参考替换

简单定价

常见问题

进一步了解 Bernini

其他模型