Kling 3.0 是快手推出的 AI 视频生成模型,只需一段文字 Prompt,就能生成带原生音频的电影级多镜头序列。它是首款提供分镜级控制的视频模型——你可以在同一次生成中定义各个镜头、机位角度和角色对白。本指南涵盖如何针对 Kling 3.0 编写 Prompt 以获得最佳效果、相比 Kling 2.6 的变化、全部能力清单、技术规格,以及它在各类创意与商业工作流中的定位。如需简要概览和上手步骤,请参阅 Kling 3.0 模型介绍页。
什么是 Kling 3.0?
Kling 3.0 是快手于 2026 年 2 月发布的视频生成模型。它通过将两个前代模型——Kling Video 2.6 和 Kling O1——合并为一个统一架构而来。Video 2.6 负责文生视频与图生视频,并带运动控制;Kling O1 则专注于画质与一致性。Kling 3.0 把两者融合进同一个模型,能够在单次生成中同时处理视频、音频与元素一致性。
最终呈现的是一款不像片段生成器、更像场景导演的模型。你在 Prompt 中描述一段叙事,Kling 3.0 会规划镜头、指派机位角度、生成与口型同步的对白,并在每一个切换中保持角色外形一致。输出时长可在 3 到 15 秒之间选择,分辨率最高支持原生 4K。
在 Morphic 上,Kling 3.0 作为视频生成套件的一部分提供。你可以在同一个工作区里同时使用 Morphic 的图像、音乐和音频工具,当一个项目需要跨多种格式的素材时尤其方便。
如何为 Kling 3.0 编写 Prompt
Prompt 的写法会彻底改变输出效果。Kling 3.0 是视频模型,它响应的是运动、节奏和运镜方向,而不仅仅是视觉外观。真正能产出优质结果的 Prompt,读起来更像一段短片的场景描述,而不是照片的说明文字。
下面是一套 Prompt 框架,能帮助你在不同类型的视频内容中稳定获得好结果。
1. 用运镜语言开头
Prompt 的开头几个词会为整段生成奠定视觉基调。Kling 3.0 理解电影术语,并能直接响应。在描述其他内容之前先指明具体的摄影机行为,会把模型锁定在统一的视觉处理上。
| 不佳的 Prompt | 优秀的 Prompt |
|---|---|
| "一个女人夜晚在城市中行走,电影感的画面" | "手持跟拍镜头,跟随一位身穿黑色大衣的女子走过夜色中被雨水打湿的城市街道,霓虹在路面上反光,浅景深" |
第一个 Prompt 把摄影机行为完全交给模型。第二个明确告诉它怎么运镜:手持、跟拍、跟随主体。它也用具体的环境细节为场景定调,顺带决定了光线与氛围。
Kling 3.0 响应良好的运镜术语包括:跟拍、环绕镜头、微距特写、主观镜头(POV)、急摇、缓慢推镜、静态全景、带轻微漂移的手持。
2. 用标注的方式组织多镜头 Prompt
当你想在一次生成中呈现多个机位时,请显式地为每个镜头打标签。Kling 3.0 的自定义多镜头模式允许你定义镜头数量、每个镜头的时长以及画面中的内容。镜头标注越清晰,模型就越精确地执行。
| 不佳的 Prompt | 优秀的 Prompt |
|---|---|
| "一个男人在餐厅点餐,然后服务员端上菜,然后他开始吃" | "Shot 1:一名身穿深蓝色衬衫的男人坐在餐桌旁看菜单的中景,室内暖光。Shot 2:越肩镜头特写他手中的菜单,手指正指向某一项。Shot 3:服务员端着一盘菜走向餐桌的广角,男人抬头看。Shot 4:盘子被放到桌上的特写,食物冒着热气。" |
第一个 Prompt 描述了事件顺序,但没有给模型任何视觉指引。第二个把叙事拆分为不同镜头,每个镜头都有明确的构图、人物位置和视觉细节。自定义多镜头模式就是为这种写法设计的。
3. 把说话人与对白直接配对
在有对白的场景中,Kling 3.0 需要知道哪一位角色说了哪一句话。如果没有明确标注,模型可能把声音分配到错误的面孔上,尤其在三个或更多角色时容易发生说话人混乱。
| 不佳的 Prompt | 优秀的 Prompt |
|---|---|
| "两个人坐在咖啡馆的桌子旁讨论周末计划,是去徒步还是留在城里" | "一位身穿白色衬衫的年轻女子和一位身穿灰色夹克的男子坐在户外咖啡桌旁。女人端起咖啡杯说'我在想我们周六可以去走海岸步道。'男人往后靠着回答'可以,但我们要早点出发,免得太热。'" |
第一个 Prompt 概括了对话主题,但没有给模型真正的对白或说话人标识。第二个把每个角色的外形描述与其具体台词配对,模型就能把口型和声音匹配到正确的面孔上。
4. 用参考图锚定角色
上传参考图时,Kling 3.0 会把它作为整段生成过程中的视觉锚点。相比只在文字里描述角色外形,这种方式更可靠,尤其在多个镜头之间或多次独立生成之间保持一致时。
要最大化利用参考图:
- 尽可能上传 2 到 4 张从不同角度展示角色的参考图。这会给模型更多视觉数据以锁定角色特征。
- 若上传视频参考,模型可同时提取角色的外形和自然声线,并在整段生成中保持两者一致。
- 产品视频请将产品图作为参考上传,在运镜过程中保持品牌、文字和颜色的一致。
5. 描述随时间推移的运动与动作,而不是静态画面
为视频模型写 Prompt 时最常见的错误,是把它写得像一张照片。Kling 3.0 生成的是运动,因此你的 Prompt 需要描述画面在整个片段的时间内如何变化:主体怎么动、摄影机如何响应、场景如何发展。
| 不佳的 Prompt | 优秀的 Prompt |
|---|---|
| "一瓶香水放在丝绒表面上,柔和灯光,散落玫瑰花瓣" | "镜头缓慢环绕一只置于深色丝绒表面上的玻璃香水瓶,柔和的金色光线在瓶身切面上随旋转闪动,散落的玫瑰花瓣被气流轻轻吹动,镜头从全景逐渐推近到标签特写" |
第一个 Prompt 描述的是一张静态画面。第二个描述了摄影机如何移动、光线如何随时间与物体互动、构图如何变化。这给了模型一条清晰的运动路径去跟随。
Kling 3.0 的新变化
Kling 3.0 相比 Kling Video 2.6 是一次显著升级。下表基于官方 Kling 3.0 模型文档,列出了关键变化。
| 能力 | Kling Video 2.6 | Kling Video 3.0 |
|---|---|---|
| 文生视频 | 支持 | 支持 |
| 图生视频 | 支持 | 支持 |
| 首末帧生视频 | 支持 | 支持 |
| 原生音频 | 支持 | 支持 |
| 多镜头生成 | 不支持 | 支持 |
| 首帧 + 元素参考 | 不支持 | 支持 |
| 多角色共现(3 个及以上) | 不支持 | 支持 |
| 多语言支持(中、英、日、韩、西班牙语) | 不支持 | 支持 |
| 方言与口音 | 不支持 | 支持 |
| 15 秒输出时长 | 不支持 | 支持 |
| 灵活时长(3–15 秒) | 不支持 | 支持 |
| 原生 4K 分辨率 | 不支持 | 支持 |
最值得关注的新能力是多镜头生成和元素参考系统。多镜头允许在一次生成中拥有最多六个镜头切换,省去了单独生成片段再手动拼接的过程。元素参考系统让你能把角色的视觉外形和声线绑定到一个可复用的元素上,一致性不仅能在镜头之间保持,还能延续到不同的独立生成中。
带方言与口音渲染的多语言支持也是全新能力。Kling 2.6 已支持原生音频,但 3.0 将其扩展到五种语言,能够还原特定口音(英语包括美式、英式、印度;中文包括粤语、东北、北京、四川、台湾腔),并在同一场景中处理多语混说。
Kling 3.0 能力详解
多镜头分镜生成
Kling 3.0 提供两种多镜头模式。在自动模式下,你打开多镜头开关,模型会阅读你的场景描述,自主规划镜头切换、构图与节奏。在自定义模式下,你逐个定义每个镜头,指定时长、机位角度和叙事内容,模型会严格遵循你的分镜。
自定义模式对产品广告或对白段落这类结构化内容尤为有用,因为每个切换的时机都很关键。当你想让模型解读叙事性 Prompt 并自行决定视觉覆盖时,自动模式表现更好。
带角色声线绑定的原生音频
视频和音频在单次生成中同时产出。模型生成与口型同步的对白,你可以在 Prompt 中把角色与其台词配对,来控制由谁来说哪句话。除了基本的口型同步,Kling 3.0 还支持创建带声线绑定的角色元素。一旦你把某个声线绑定到某个角色元素上,只要这个角色出场,声线就保持一致,不需要反复指定。
模型支持英语、中文、日语、韩语和西班牙语的对白,具备方言和口音支持,并能在同一场景中实现多语混说。
元素参考系统
你可以通过上传 2 到 4 张参考图或一小段参考视频,创建可复用的角色元素。对角色元素而言,你还可以通过上传音频或从现有声音中选择来指派声线。当你在 Prompt 中使用某个元素时,模型会在整段视频中锁定其外形与声线,即便经历运镜变化、场景切换和多镜头序列也能保持一致。
该系统支持同一画面中出现三个及以上不同角色而不混淆特征,这对对白场景以及任何涉及多人的视频至关重要。
文字与 Logo 的保持
模型能够识别上传图像中的文字内容,例如招牌、产品标签或 Logo,并在整段视频中保持文字一致。它也能在视频内部生成新的文字。即便摄影机持续运动,文字也保持清晰可读,这对需要品牌元素始终锐利可识的商业内容十分有用。
灵活的时长与分辨率
Kling 3.0 单次生成 3 到 15 秒的视频,分辨率最高支持原生 4K。延长的时长让模型有余地铺展更复杂的叙事、场景切换和动作段落,这些内容在更短的片段里是放不下的。分辨率还可选 1080p 和 720p。
Kling 3.0 技术规格
| 规格 | 详情 |
|---|---|
| 生成模式 | 文生视频、图生视频、首末帧生视频 |
| 最大时长 | 15 秒 |
| 最小时长 | 3 秒 |
| 最高分辨率 | 原生 4K |
| 其他分辨率 | 1080p、720p |
| 画幅比例 | 16:9、9:16、1:1 |
| 多镜头 | 单次生成最多 6 个镜头切换 |
| 多镜头模式 | 自动(模型规划镜头)与自定义(用户定义每个镜头) |
| 原生音频 | 对口型对白、声线控制 |
| 支持语言 | 英语、中文、日语、韩语、西班牙语 |
| 方言与口音支持 | 支持(中英方言与地区口音) |
| 多语混说 | 支持(同一场景中多种语言) |
| 角色元素 | 由 2 到 4 张图片或视频参考创建 |
| 声线绑定 | 声线可绑定到角色元素 |
| 多角色共现 | 同一画面 3 个及以上不同角色 |
| 文字保持 | 读取并保留上传图像中的文字 |
| 模型谱系 | 由 Kling Video 2.6 + Kling O1 合并而来 |
| 发布日期 | 2026 年 2 月 |
Kling 3.0 应用场景
短片创作者与叙事型创作者
多镜头生成让 Kling 3.0 对短叙事内容格外实用。你可以在一次生成中完成一整个带正反打对白、建立镜头和特写的场景。对于从事短剧、微剧集或故事型社交内容的创作者而言,这省去了逐片段生成再拼接的手工工作。15 秒的时长加上最多六个切换,足以在一次生成中呈现开端、发展与落点。
产品与电商视频
产品广告需要摄影机围绕物体运动,同时让品牌文字与 Logo 保持锐利。Kling 3.0 的文字保持能力原生解决这一点,在环绕镜头和跟拍中都能让标签保持可读。配合元素参考系统,你可以锁定产品的视觉标识,再生成不同机位、打光或背景环境的多个广告版本,而产品本身保持一致。在 Morphic 上,你还能在同一工作区里为产品视频制作配套的缩略图和社交素材。
社媒内容团队
灵活的画幅比例(16:9、9:16、1:1)加上快速迭代,意味着你可以直接生成适配各平台的视频内容,不必为每种格式分开搭建生产流程。自动多镜头模式在这里很实用:你只需描述内容构思,模型会自行规划镜头。对需要在 Instagram、TikTok、YouTube Shorts 与信息流中大量产出内容的团队来说,整个创作循环会明显加快。
多语言与本地化内容
方言和多语混说的支持,让 Kling 3.0 能胜任多数 AI 视频模型处理不了的场景。讲师用韩语讲解的培训视频、角色在英语和西班牙语之间切换的旅游广告,或是带真实地区口音的社交片段,都可以生成自然的口型与连贯的表情。对面向多个市场的品牌而言,这意味着可以基于同一套 Prompt 框架产出本地化视频内容,而不必重新录制音频。
在 Morphic 上,你可以把 Kling 3.0 与平台的图像和音频工具搭配使用,从视频到缩略图再到背景音乐,一整套内容打包完成,无需在多款应用之间来回切换。
常见问题
Kling 3.0 已在 Morphic 上可用。注册 Morphic 套餐,在 Prompt 栏选择视频模式,然后在模型下拉菜单中选择 Kling 3.0。它与图像、音乐和音频生成工具并肩提供,你可以在同一工作区跨多种内容形式协作。
两个模型都支持文生视频和图生视频,但定位不同。Kling 3.0 是核心生成模型,具备多镜头分镜与原生音频。Kling 3.0 Omni 在此之上增加了更深度的元素一致性控制、基于视频的角色参考,以及声线绑定。如果你需要从 Prompt 生成一段成品视频,选 Kling 3.0 即可;如果你正在打造一个让同一批角色在多次生成中反复出现的系列内容,Omni 提供的一致性工具更适合你。
模型可生成五种语言的对口型对白:英语、中文、日语、韩语和西班牙语。除了基础语言支持,它还具备具体的方言与口音还原能力,英语覆盖美式、英式、印度口音,中文覆盖粤语、东北、北京、四川和台湾腔。同一片段中,角色还可以在对话中途切换语言。
多镜头可在一次视频中生成最多六个不同的镜头切换。你有两种选择:自动模式,模型根据你的 Prompt 规划切换;或自定义模式,由你定义每个镜头的构图、时长和机位。在自定义模式下,模型严格遵循你的分镜;在自动模式下,它会解读你的叙事并决定最佳视觉覆盖。两种模式都会在所有切换中保持角色一致。
最高分辨率为原生 4K,也就是在该分辨率下直接生成,而不是从低分辨率放大得到的。同时也提供 1080p 和 720p,可用于更快生成或更小的文件体积。每次生成时长在 3 到 15 秒之间。支持的画幅比例为 16:9、9:16 和 1:1,分别对应宽屏、竖屏和方形格式。


