Morphic 上的 Kling 3.0:功能、多镜头视频与原生音频

在 Morphic 上使用 Kling 3.0 生成电影感 AI 视频。支持多镜头分镜、原生 4K、内置音频,每段最长 15 秒。

Morphic 上的 Kling 3.0:功能、多镜头视频与原生音频

Kling 3.0 是一款 AI 视频模型,能把一段文字 Prompt 变成一组经过导演式编排的视频。它由快手打造,于 2026 年 2 月发布,将过去需要多款工具和手工剪辑才能完成的工作合而为一:一次生成最多六个镜头切换的多镜头分镜,支持五种语言的对口型对白原生音频,并在所有角度下保持角色一致。输出最高支持原生 4K 分辨率,时长可在 3 到 15 秒之间灵活选择。现已在 Morphic 上线,与平台完整的图像、音乐和音频生成工具并肩提供。

如何在 Morphic 上使用 Kling 3.0

1. 选择视频模式

在 Prompt 栏中选择视频模式。界面会切换到视频生成状态,你可以在这里配置分辨率、时长以及是否包含原生音频等选项。

2. 选择 Kling 3.0 作为模型

打开模型下拉菜单,从可用的视频模型列表中选择 Kling 3.0。Morphic 提供多款视频模型,你可以在同一平台里对比不同生成器的输出,无需切换工具。

3. 填写你的 Prompt

描述你想要的场景。写清楚主体、环境、运镜、光线以及任何对白细节。像导演而不是摄影师那样思考:描述随时间变化的过程,而不只是一帧静态画面。如果你需要多个镜头,打开多镜头开关,或在 Prompt 中为每个镜头单独标注。

4. 开始生成

运行 Prompt。Kling 3.0 会生成 3 到 15 秒的视频片段,启用音频时一并生成原生音频。查看结果,必要时调整 Prompt,直至得到满意的片段。

什么是 Kling 3.0?

Kling 3.0 是快手于 2026 年 2 月发布的最新 AI 视频生成模型。它在 Kling Video 2.6 和 Kling O1 的基础上构建,将两者合并为一个统一的多模态架构,可在单次生成中同时处理视频、音频与文本。

过去的 AI 视频模型只能产出独立的单镜头片段,并且没有声音。Kling 3.0 则能生成同步对白和原生音频的多镜头序列。它理解电影语言(跟拍镜头、特写、正反打),当你在 Prompt 中描述一段叙事时,它能自行规划场景转换。

Kling 3.0 作为 Morphic 视频生成套件的一部分上线,这意味着你可以在同一个工作区里,将它与 Morphic 的图像、音乐和音频工具配合使用。

Kling 3.0 的功能与能力

多镜头分镜生成,支持两种控制模式

这是目前其他 AI 视频模型都不具备的关键能力。它可以在一次生成中产出最多六个镜头切换,并提供两种控制方式:

  • 自动多镜头:打开多镜头开关,模型会根据你的 Prompt 自主规划镜头切换。它会阅读你的场景描述,决定在哪里剪辑、使用什么角度、如何把握节奏。
  • 自定义多镜头:由你手动定义每一个镜头。设置镜头数量、每个镜头的时长、机位角度以及画面中要发生的内容。模型会严格按照你的分镜执行。

当你需要从叙事性 Prompt 快速得到结果时,自动模式表现很好。当你需要精细控制,例如制作按镜头节奏要求的产品广告,自定义模式更合适。

带声音绑定的元素参考

大多数 AI 视频模型允许上传参考图来锁定角色外观。Kling 3.0 更进一步。你可以上传一小段视频片段作为参考,模型会同时提取角色的视觉外形和自然声线。声线会被绑定到角色元素上,此后每当这个角色开口,声音都会保持一致,不需要你再在 Prompt 里反复指定。

你也可以用 2 到 4 张参考图创建元素,并单独通过上传音频或从现有声音中挑选来指派声线。这在多次生成中需要反复出现的角色时尤为有用。

方言、口音与多语种混说

Kling 3.0 的原生音频支持五种语言:英语、中文、日语、韩语和西班牙语。但它的能力不止于基本语言支持。模型能够还原特定方言和口音,中文方面包括粤语、东北话、四川话和北京话,英语方面包括美式、英式和印度口音。

它同时支持多语言混说,角色可以在同一段视频的对话中自然切换语言。双语商务会议、游客用蹩脚西班牙语问路,或是带方言混杂的家庭场景,都能生成自然的口型和连贯的面部表情。

原生 4K 视频输出

模型原生支持最高 4K 分辨率,不是从低分辨率放大得到的。这意味着纹理、皮肤细节以及面料纹路和发丝等细小元素能保留真实的细节感,而不是放大常带来的柔化与涂抹感。同时也可选 1080p 和 720p 分辨率,并支持 16:9、9:16 和 1:1 画幅比例。

运镜过程中的文字与 Logo 保持

Kling 3.0 能读取上传图像中的文字内容——招牌、产品标签或 Logo——并在整个视频过程中即使机位运动也保持文字清晰。它也能在视频内部生成新的文字内容。对需要品牌文字在产品环绕或跟拍镜头中保持锐利的商业项目来说,这省去了后期再加文字叠层的步骤。

多镜头序列下的角色一致性

上传参考图或一小段参考视频,模型就能在整段片段中锁定角色外形。面孔、服装、比例以及各种辨识性细节,都会在推镜、横摇、俯仰等机位运动中保持稳定。模型支持同一场景中三个及以上的不同角色而不混淆特征,这对对白场景以及任何有多个人物的视频都至关重要。

3 至 15 秒的灵活时长

单次生成可产出 3 到 15 秒的连续视频。延长的时长不只是单纯的片段变长,它给了模型更大空间来铺展复杂动作、建立场景转换、让叙事弧线充分展开,而不必在 5 秒处就匆匆收尾。

常见问题

Morphic 上可以使用 Kling 3.0 吗?

Kling 3.0 已作为视频生成套件的一部分在 Morphic 上可用。开始生成只需注册 Morphic 套餐,在 Prompt 栏选择视频模式,在模型下拉菜单中选择 Kling 3.0 即可。Morphic 让你在使用 Kling 3.0 的同时,也能调用图像、音乐和音频生成工具,整个创作流程在同一处完成。

Kling 3.0 与 Kling 3.0 Omni 有什么区别?

Kling 3.0 是核心视频生成模型,覆盖文生视频和图生视频,具备多镜头分镜与原生音频能力。Kling 3.0 Omni 在此基础上进一步强化了角色一致性控制,并支持通过视频参考把声线绑定到特定角色。对多数视频生成需求而言,Kling 3.0 是合适的起点;当跨多次生成都要保持角色一致时,Omni 更值得选择。

音频支持哪些语言和口音?

Kling 3.0 可生成五种语言的对口型对白:英语、中文、日语、韩语和西班牙语。除了标准语言支持,模型还能还原特定口音与方言,英语涵盖美式、英式和印度口音,中文涵盖粤语、东北话、北京话、四川话和台湾腔。同一片段中,角色还可以在对话中途切换语言。

Kling 3.0 支持哪些分辨率和时长?

输出最高支持原生 4K 分辨率,同时也提供 1080p 和 720p。每次生成时长在 3 到 15 秒之间。画幅比例包括宽屏 16:9、竖屏 9:16(适合社交媒体)和方形 1:1。

如何让 Kling 3.0 的生成效果更好?

从图像 Prompt 切换到视频 Prompt,最大的变化是要描述运动,而不仅是外观。有几点能显著提升输出质量:

  • 用电影化的运镜语言开头。Prompt 以"手持跟拍镜头"或"缓慢环绕镜头"开头,会为整段生成奠定视觉基调。
  • 多角色场景中请明确标注说话人。在 Prompt 里把每个角色与其对白直接配对,模型就能把声音与正确的面孔对齐。
  • 当你需要精确控制每个镜头的时长、构图和机位角度时,使用自定义多镜头模式。
  • 为保持角色一致性,上传参考图或视频。创建一个同时绑定外形与声线的元素,为反复出现的角色提供明确锚点。

在 Morphic 上,你可以在同一个工作区里快速调整 Prompt 并重新生成,无需切换工具。如需更深入的讲解和 Prompt 示例,请参阅完整的 Kling 3.0 使用指南

chair
让您的故事栩栩如生
无需下载,无需安装。加入使用 Morphic 将想法转化为精美故事的不断增长的创作者社区。