可灵 O3
可灵 O3是什么?
可灵 O3 是可灵的顶级版本,可生成带多个相机切换和匹配声音的 4K 视频,并能从参考视频中复制真人的外观与声音,在新的 AI 生成场景中一致地重现他们。
一图看懂
- Type of model
- 统一的多模态 AI 视频生成与编辑模型
- Developed by
- 快手科技(Kuaishou Technology)
- Key capability
- 60fps 的 4K 输出、视觉链式思考推理、基于参考视频的角色与声音克隆、最多 6 个镜头切换的多镜头分镜,以及带对口型的原生多语言音频
- How it fits in AI workflow
- 作为面向高保真多镜头叙事视频的完整 AI 制作系统,以单一统一工作流取代单独的生成、角色一致性、音频和编辑工具
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
可灵 O3 vs 可灵 3.
实用提示
在使用可灵 O3 的参考视频提取进行角色克隆时,录制或挑选一段在中性光照下、面部清晰可见并带有一段自然语音的参考片段:参考越干净,模型在新生成场景中提取并复现嗓音音色、言语节奏和视觉外观时就越准确。
类型与变体
- 可灵 O3(Video 3.
- 0 Omni)是可灵 3.
- 0 系列的进阶档位,与标准 Video 3.
- 0 模型互为补充。其关键区别在于源自可灵 O1 Elements 能力的完善的基于参考的生成系统,该系统在 O3 中得到显著扩展,加入了从参考视频中提取声音特征的能力。可灵 3.
- 0 系列还包括 Image 3.
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
可灵 O3 用于需要跨多个镜头和场景保持一致角色的专业 AI 电影制作、具有持久角色身份和声音的品牌内容制作、跨不同语言版本带自然对口型的多语言广告、受益于多镜头导演控制的叙事短片制作,以及需要广播级 4K AI 视频输出的企业媒体制作。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
O3 代表 Omni 3,表明可灵 O3 是快手 Omni 多模态模型线的第三次迭代。它承接可灵 O1,在音频能力、分辨率和基于参考的生成方面相比其前代有显著进步。
可灵 O3 作为可灵 AI 3.0 模型系列的一部分,于 2026 年 2 月 4 日发布。
视觉链式思考(vCoT)推理意味着模型在生成之前先分析和规划一个场景。它将提示拆解为各组成元素、规划相机运动、评估光照一致性并对空间关系建模,然后用这种生成前的推理产出更流畅、物理上更准确的视频输出。
可灵 O3 可以接受一段参考视频作为输入,并用它提取角色的视觉外观、运动风格、嗓音特征和言语节奏。这些提取出的特征随后会在新生成的场景中一致地应用,从而实现高度忠实的角色复现,无需为每个镜头重新提示外观细节。
可灵 O3 支持最高原生 4K 分辨率、60 帧每秒的输出,使其成为截至 2026 年初 AI 视频生成模型中可用的最高质量输出之一。
可灵 O3 支持多种语言,包括英语、中文、日语、韩语和西班牙语,并支持美式、英式和印度英语等地区口音变体。
可灵 O1 开创了统一的 MVL 多模态架构,并引入了基于参考的 Elements 系统。可灵 O3 在此基础上大幅扩展,加入了原生音频生成、延长至 15 秒的片段时长、4K 分辨率、最多 6 个镜头切换的多镜头分镜,以及从参考视频中同时提取视觉与声音特征的能力,这些都是 O1 中所不具备的。