如何用 Happy Horse 1.1 获得最佳效果？

在每条提示词中都点明音频，因为 Happy Horse 1.1 会随视频生成声音。描述运动而非静止帧，并给出景别加一个镜头运动。多角色场景中，把每个主体编为 character1、character2，并让台词简短以求干净对口型。先用 720p 打草稿，再把选中的镜头以 1080p 重跑一次。

Happy Horse 1.1 会生成音频吗？

会。Happy Horse 1.1 在一次生成中随视频产出音频，因此与运动保持同步。一次生成可包含对口型对白、音效、环境声和音乐，具备跨七种语言的原生对口型，且无需单独的音频步骤。

Happy Horse 1.1 的 reference-to-video 如何运作？

传入最多九张参考图，并按你提供的顺序，将每张以 character1 到 character9 按索引指代。说明哪个主体来自哪张图，再描述场景和动作。Happy Horse 1.1 会把每个主体带入新场景，让一支阵容在不同镜头间保持可辨认。

Happy Horse 1.1 支持哪些分辨率、时长和画面比例？

Happy Horse 1.1 以 720p 或 1080p 输出，片段时长 3 到 15 秒，默认 5 秒。它支持九种画面比例，包括 16:9、9:16 和超宽 21:9，外加 9:21、5:4 和 4:5。先选比例，因为取景会改变你调度动作的方式。

如何在 Morphic 上使用 Happy Horse 1.1？

打开 Morphic，把提示词栏切换到 Video 模式，选择 Happy Horse 1.1。描述场景，为 image-to-video 附上一张静止图，或为 reference-to-video 附上最多九张参考图，选择分辨率和画面比例，然后运行提示词。音频在同一次生成中产出。

Happy Horse 1.1：完整指南、提示词与功能

Happy Horse 1.1 功能与能力

Happy Horse 1.1 是阿里巴巴的视频模型，在 fal 上提供，并可在 Morphic 上使用。它在一次生成中同时产出视频和音频，具备跨七种语言的原生对口型，支持最多九个主体、九种画面比例以及 1080p 输出的 reference-to-video。

功能	作用	适合
音视频联合生成	在一次生成中产出片段及其同步音频，无需单独的音频步骤	对话场景、音乐片段、口播头像
多语言对口型	用 7 种语言说话并对口型，口型贴合语音音素	本地化广告、多语言主持人
reference-to-video，最多 9 个	将最多九个参考主体带入新场景，每个按索引调用	群像场景、角色一致的系列
image-to-video	把静止首帧动画化为带音频的 1080p 运动片段	产品镜头、主视觉、照片动画化
九种画面比例	从 16:9、9:16 到超宽 21:9，共九种比例交付	电影感、竖屏与方形交付

一次生成同时产出音频和视频

Happy Horse 把画面和声音一起生成，而不是事后添加音频。带对口型的对白、室内环境声、音效和音乐都出自同一次生成，因此从第一帧起运动与声音就对齐。你在描述动作的同一条提示词里描述声音。

多语言原生对口型

该模型可用英语、普通话、粤语、日语、韩语、德语和法语说话并对口型。口型遵循所说语言的音素，而非近似处理，因此适合对话场景以及同一镜头的本地化版本。

最多 9 个主体的 reference-to-video

传入最多九张参考图，并在提示词中按你提供的顺序，将每个主体用 character1 到 character9 按索引指代。有了最多九个主体，整支阵容都能在不同镜头间保持可辨认。先描述每个主体，再描述场景和动作。

image-to-video

提供一张静止首帧，比如产品镜头或角色帧，加上描述运动和声音的提示词，模型便从该图像向外动画化，同时保留其光照和细节。当你没有起始图像时，它也能进行 text-to-video。

九种画面比例

以九种比例交付：16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4 和 4:5。同一套提示词框架可产出超宽电影感剪辑和竖屏社交剪辑，无需为每种格式另设流程。

Happy Horse 1.1 技术规格

规格	Happy Horse 1.1
提供方	阿里巴巴（在 fal 上提供）
模式	text-to-video、image-to-video、reference-to-video
音频	原生、同步、多语言对口型
语言	7（英语、普通话、粤语、日语、韩语、德语、法语）
分辨率	720p 或 1080p
时长	3 到 15 秒（默认 5 秒）
画面比例	16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5
参考图	最多 9 张（character1 到 character9）
提示词长度	最多 2,500 characters
发布	2026 年 6 月

新闻主播播报晚间头条，同步的演播室音频立即试用

Happy Horse 1.1 应用场景

对话与口播头像场景

角色伴随同步口型、室内声和节奏说话，一次生成完成。把台词写进提示词，音频便随运动一起返回。

多角色群像场景

把参考图中的最多九个主体带入同一场景，按索引调用每个主体，让整支阵容在不同镜头间保持可辨认。

音乐视频与表演片段

由于视频和音频一起生成，运动从第一次生成起就踩在节拍上。用配乐和同步动作在一次生成中做出一段表演片段。

超宽电影感剪辑

用 21:9 比例做宽银幕电影感画面，再用同一条提示词把同一场景以 9:16 竖屏交付。

多语言广告本地化

保持同一场景和角色，跨语言替换对白并配原生对口型，让一套创意发往多个市场。

如何充分发挥 Happy Horse 1.1

Happy Horse 偏爱把运动和声音一起点明的简报，以及在角色需要保持一致时一套干净的参考图。几条做法决定了大部分质量：

始终点明音频。用平实的语言写出对白、音效、环境声或音乐，让模型随运动生成声音，而不是无声片段。
写运动，不是写照片。描述主体和镜头在整段片段中如何移动，而不只是某一瞬间画面的样子。
给参考图编索引。做 reference-to-video 时，按你提供参考图的顺序，把每个主体指代为 character1、character2，依此类推。
台词保持简短以求干净对口型。对说话的角色，用露出嘴部的正面画面，并让每句台词简短。
一段片段一个节拍。把单个动作放进几秒，而不是把好几个塞进一次生成。
提前选好比例。电影感剪辑选 21:9，竖屏选 9:16，因为取景会改变你调度动作的方式。

Happy Horse 1.1 提示词指南

好的提示词读起来像一份简短的镜头简报，而非一句图说。决定结果的有两点：清楚列出镜头包含什么，以及用具体措辞取代含糊措辞。

提示词里要放什么

要素	要包含的内容	示例
主体	画面中是谁或什么，具体描述	玻璃办公桌前一位身穿藏青西装的新闻主播
运动	什么在动，如何动	他转向第二台机位并做手势
镜头	景别加一个运动	中景，缓慢推进
音频	对白、音效、环境声或音乐	他说"晚上好"；轻柔的演播室室内声
格式	时长和画面比例	10 秒，16:9

参考与对白语法

做 reference-to-video 时，按你提供参考图的顺序，把每个主体指代为 character1、character2，依此类推。对于带时间的对白，把所说台词标注在片段时间轴上，让对口型落在你想要的位置。

参考与带时间对白

character1 与 character2 隔着咖啡馆小桌相对而坐，温暖的窗光。0-4s：character1 用法语说「Tu as vu ça?」；4-8s：character2 笑着回应「Incroyable.」。轻柔的咖啡馆环境声，手持镜头带一点自然晃动。

编辑提示词

弱提示词与强提示词

点明镜头、运动及其时间、音频，而不是听天由命。

重点	弱	强
镜头	夜里城市中的一位女子	手持跟拍一位女子穿过被雨水浸湿的街道，店铺灯光映在路面上，浅景深
运动与时间	门开了，有人走进来	门缓缓打开，一个身影顿了一拍后穿过，随后镜头落定为中景
音频	一位厨师在装盘	厨师装盘的特写，热气升腾。音频：煎锅的滋滋声、轻柔的厨房环境声，以及"上菜。"

常见错误

让提示词无声：模型会随视频生成音频，所以始终至少写一条声音提示。
镜头含糊："电影感"什么也没告诉模型；点明景别和运动。
参考未编索引：做 reference-to-video 时，把每个主体标为 character1、character2，而不是"用这些参考"。
一段片段塞太多：每段片段保持一个动作，并让台词简短以求干净对口型。