可灵 O3

可灵 O3是什么?

可灵 O3 是可灵的顶级版本,可生成带多个相机切换和匹配声音的 4K 视频,并能从参考视频中复制真人的外观与声音,在新的 AI 生成场景中一致地重现他们。

一图看懂

Type of model
统一的多模态 AI 视频生成与编辑模型
Developed by
快手科技(Kuaishou Technology)
Key capability
60fps 的 4K 输出、视觉链式思考推理、基于参考视频的角色与声音克隆、最多 6 个镜头切换的多镜头分镜,以及带对口型的原生多语言音频
How it fits in AI workflow
作为面向高保真多镜头叙事视频的完整 AI 制作系统,以单一统一工作流取代单独的生成、角色一致性、音频和编辑工具
相关术语
Kling 3.0Kling 2.6Kling O1KlingMultimodal AIAudio-visual generationMVL framework

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

对比与差异

对比与差异

Compared with related concepts

可灵 O3 vs 可灵 3.


实用提示

在使用可灵 O3 的参考视频提取进行角色克隆时,录制或挑选一段在中性光照下、面部清晰可见并带有一段自然语音的参考片段:参考越干净,模型在新生成场景中提取并复现嗓音音色、言语节奏和视觉外观时就越准确。

类型与变体

  • 可灵 O3(Video 3.
  • 0 Omni)是可灵 3.
  • 0 系列的进阶档位,与标准 Video 3.
  • 0 模型互为补充。其关键区别在于源自可灵 O1 Elements 能力的完善的基于参考的生成系统,该系统在 O3 中得到显著扩展,加入了从参考视频中提取声音特征的能力。可灵 3.
  • 0 系列还包括 Image 3.

准备好在 Morphic 里做第一个场景了吗?

试用 Morphic

常见使用场景

可灵 O3 用于需要跨多个镜头和场景保持一致角色的专业 AI 电影制作、具有持久角色身份和声音的品牌内容制作、跨不同语言版本带自然对口型的多语言广告、受益于多镜头导演控制的叙事短片制作,以及需要广播级 4K AI 视频输出的企业媒体制作。

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

常见问题(FAQ)

可灵 O3 中的 "O3" 代表什么?

O3 代表 Omni 3,表明可灵 O3 是快手 Omni 多模态模型线的第三次迭代。它承接可灵 O1,在音频能力、分辨率和基于参考的生成方面相比其前代有显著进步。

可灵 O3 何时发布?

可灵 O3 作为可灵 AI 3.0 模型系列的一部分,于 2026 年 2 月 4 日发布。

可灵 O3 中的视觉链式思考推理是什么?

视觉链式思考(vCoT)推理意味着模型在生成之前先分析和规划一个场景。它将提示拆解为各组成元素、规划相机运动、评估光照一致性并对空间关系建模,然后用这种生成前的推理产出更流畅、物理上更准确的视频输出。

可灵 O3 如何从参考视频中提取角色特征?

可灵 O3 可以接受一段参考视频作为输入,并用它提取角色的视觉外观、运动风格、嗓音特征和言语节奏。这些提取出的特征随后会在新生成的场景中一致地应用,从而实现高度忠实的角色复现,无需为每个镜头重新提示外观细节。

可灵 O3 支持什么分辨率和帧率?

可灵 O3 支持最高原生 4K 分辨率、60 帧每秒的输出,使其成为截至 2026 年初 AI 视频生成模型中可用的最高质量输出之一。

可灵 O3 的音频生成支持多少种语言?

可灵 O3 支持多种语言,包括英语、中文、日语、韩语和西班牙语,并支持美式、英式和印度英语等地区口音变体。

可灵 O3 与可灵 O1 有何不同?

可灵 O1 开创了统一的 MVL 多模态架构,并引入了基于参考的 Elements 系统。可灵 O3 在此基础上大幅扩展,加入了原生音频生成、延长至 15 秒的片段时长、4K 分辨率、最多 6 个镜头切换的多镜头分镜,以及从参考视频中同时提取视觉与声音特征的能力,这些都是 O1 中所不具备的。

Can't find what you are looking for?
Contact us and let us know.
bg