Question 1

可灵 O3 中的 "O3" 代表什么?

Accepted Answer

O3 代表 Omni 3,表明可灵 O3 是快手 Omni 多模态模型线的第三次迭代。它承接可灵 O1,在音频能力、分辨率和基于参考的生成方面相比其前代有显著进步。

Question 2

可灵 O3 何时发布?

Accepted Answer

可灵 O3 作为可灵 AI 3.0 模型系列的一部分,于 2026 年 2 月 4 日发布。

Question 3

可灵 O3 中的视觉链式思考推理是什么?

Accepted Answer

视觉链式思考(vCoT)推理意味着模型在生成之前先分析和规划一个场景。它将提示拆解为各组成元素、规划相机运动、评估光照一致性并对空间关系建模,然后用这种生成前的推理产出更流畅、物理上更准确的视频输出。

Question 4

可灵 O3 如何从参考视频中提取角色特征?

Accepted Answer

可灵 O3 可以接受一段参考视频作为输入,并用它提取角色的视觉外观、运动风格、嗓音特征和言语节奏。这些提取出的特征随后会在新生成的场景中一致地应用,从而实现高度忠实的角色复现,无需为每个镜头重新提示外观细节。

Question 5

可灵 O3 支持什么分辨率和帧率?

Accepted Answer

可灵 O3 支持最高原生 4K 分辨率、60 帧每秒的输出,使其成为截至 2026 年初 AI 视频生成模型中可用的最高质量输出之一。

Question 6

可灵 O3 的音频生成支持多少种语言?

Accepted Answer

可灵 O3 支持多种语言,包括英语、中文、日语、韩语和西班牙语,并支持美式、英式和印度英语等地区口音变体。

Question 7

可灵 O3 与可灵 O1 有何不同?

Accepted Answer

可灵 O1 开创了统一的 MVL 多模态架构,并引入了基于参考的 Elements 系统。可灵 O3 在此基础上大幅扩展,加入了原生音频生成、延长至 15 秒的片段时长、4K 分辨率、最多 6 个镜头切换的多镜头分镜,以及从参考视频中同时提取视觉与声音特征的能力,这些都是 O1 中所不具备的。

可灵 O3

可灵 O3是什么？