Happy Horse 1.1 功能与能力
Happy Horse 1.1 是阿里巴巴的视频模型,在 fal 上提供,并可在 Morphic 上使用。它在一次生成中同时产出视频和音频,具备跨七种语言的原生对口型,支持最多九个主体、九种画面比例以及 1080p 输出的 reference-to-video。
| 功能 | 作用 | 适合 |
|---|---|---|
| 音视频联合生成 | 在一次生成中产出片段及其同步音频,无需单独的音频步骤 | 对话场景、音乐片段、口播头像 |
| 多语言对口型 | 用 7 种语言说话并对口型,口型贴合语音音素 | 本地化广告、多语言主持人 |
| reference-to-video,最多 9 个 | 将最多九个参考主体带入新场景,每个按索引调用 | 群像场景、角色一致的系列 |
| image-to-video | 把静止首帧动画化为带音频的 1080p 运动片段 | 产品镜头、主视觉、照片动画化 |
| 九种画面比例 | 从 16:9、9:16 到超宽 21:9,共九种比例交付 | 电影感、竖屏与方形交付 |
一次生成同时产出音频和视频
Happy Horse 把画面和声音一起生成,而不是事后添加音频。带对口型的对白、室内环境声、音效和音乐都出自同一次生成,因此从第一帧起运动与声音就对齐。你在描述动作的同一条提示词里描述声音。
多语言原生对口型
该模型可用英语、普通话、粤语、日语、韩语、德语和法语说话并对口型。口型遵循所说语言的音素,而非近似处理,因此适合对话场景以及同一镜头的本地化版本。
最多 9 个主体的 reference-to-video
传入最多九张参考图,并在提示词中按你提供的顺序,将每个主体用 character1 到 character9 按索引指代。有了最多九个主体,整支阵容都能在不同镜头间保持可辨认。先描述每个主体,再描述场景和动作。
image-to-video
提供一张静止首帧,比如产品镜头或角色帧,加上描述运动和声音的提示词,模型便从该图像向外动画化,同时保留其光照和细节。当你没有起始图像时,它也能进行 text-to-video。
九种画面比例
以九种比例交付:16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4 和 4:5。同一套提示词框架可产出超宽电影感剪辑和竖屏社交剪辑,无需为每种格式另设流程。
Happy Horse 1.1 技术规格
| 规格 | Happy Horse 1.1 |
|---|---|
| 提供方 | 阿里巴巴(在 fal 上提供) |
| 模式 | text-to-video、image-to-video、reference-to-video |
| 音频 | 原生、同步、多语言对口型 |
| 语言 | 7(英语、普通话、粤语、日语、韩语、德语、法语) |
| 分辨率 | 720p 或 1080p |
| 时长 | 3 到 15 秒(默认 5 秒) |
| 画面比例 | 16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5 |
| 参考图 | 最多 9 张(character1 到 character9) |
| 提示词长度 | 最多 2,500 characters |
| 发布 | 2026 年 6 月 |
Happy Horse 1.1 应用场景
对话与口播头像场景
角色伴随同步口型、室内声和节奏说话,一次生成完成。把台词写进提示词,音频便随运动一起返回。
多角色群像场景
把参考图中的最多九个主体带入同一场景,按索引调用每个主体,让整支阵容在不同镜头间保持可辨认。
音乐视频与表演片段
由于视频和音频一起生成,运动从第一次生成起就踩在节拍上。用配乐和同步动作在一次生成中做出一段表演片段。
超宽电影感剪辑
用 21:9 比例做宽银幕电影感画面,再用同一条提示词把同一场景以 9:16 竖屏交付。
多语言广告本地化
保持同一场景和角色,跨语言替换对白并配原生对口型,让一套创意发往多个市场。
如何充分发挥 Happy Horse 1.1
Happy Horse 偏爱把运动和声音一起点明的简报,以及在角色需要保持一致时一套干净的参考图。几条做法决定了大部分质量:
- 始终点明音频。用平实的语言写出对白、音效、环境声或音乐,让模型随运动生成声音,而不是无声片段。
- 写运动,不是写照片。描述主体和镜头在整段片段中如何移动,而不只是某一瞬间画面的样子。
- 给参考图编索引。做 reference-to-video 时,按你提供参考图的顺序,把每个主体指代为 character1、character2,依此类推。
- 台词保持简短以求干净对口型。对说话的角色,用露出嘴部的正面画面,并让每句台词简短。
- 一段片段一个节拍。把单个动作放进几秒,而不是把好几个塞进一次生成。
- 提前选好比例。电影感剪辑选 21:9,竖屏选 9:16,因为取景会改变你调度动作的方式。
Happy Horse 1.1 提示词指南
好的提示词读起来像一份简短的镜头简报,而非一句图说。决定结果的有两点:清楚列出镜头包含什么,以及用具体措辞取代含糊措辞。
提示词里要放什么
| 要素 | 要包含的内容 | 示例 |
|---|---|---|
| 主体 | 画面中是谁或什么,具体描述 | 玻璃办公桌前一位身穿藏青西装的新闻主播 |
| 运动 | 什么在动,如何动 | 他转向第二台机位并做手势 |
| 镜头 | 景别加一个运动 | 中景,缓慢推进 |
| 音频 | 对白、音效、环境声或音乐 | 他说"晚上好";轻柔的演播室室内声 |
| 格式 | 时长和画面比例 | 10 秒,16:9 |
参考与对白语法
做 reference-to-video 时,按你提供参考图的顺序,把每个主体指代为 character1、character2,依此类推。对于带时间的对白,把所说台词标注在片段时间轴上,让对口型落在你想要的位置。
character1 and character2 sit across a café table, warm window light. 0-4s: character1 says in French, "Tu as vu ça?"; 4-8s: character2 laughs and replies, "Incroyable." Soft café ambience, gentle handheld.
弱提示词与强提示词
点明镜头、运动及其时间、音频,而不是听天由命。
| 重点 | 弱 | 强 |
|---|---|---|
| 镜头 | 夜里城市中的一位女子 | 手持跟拍一位女子穿过被雨水浸湿的街道,店铺灯光映在路面上,浅景深 |
| 运动与时间 | 门开了,有人走进来 | 门缓缓打开,一个身影顿了一拍后穿过,随后镜头落定为中景 |
| 音频 | 一位厨师在装盘 | 厨师装盘的特写,热气升腾。音频:煎锅的滋滋声、轻柔的厨房环境声,以及"上菜。" |
常见错误
- 让提示词无声:模型会随视频生成音频,所以始终至少写一条声音提示。
- 镜头含糊:"电影感"什么也没告诉模型;点明景别和运动。
- 参考未编索引:做 reference-to-video 时,把每个主体标为 character1、character2,而不是"用这些参考"。
- 一段片段塞太多:每段片段保持一个动作,并让台词简短以求干净对口型。
常见问题
在每条提示词中都点明音频,因为 Happy Horse 1.1 会随视频生成声音。描述运动而非静止帧,并给出景别加一个镜头运动。多角色场景中,把每个主体编为 character1、character2,并让台词简短以求干净对口型。先用 720p 打草稿,再把选中的镜头以 1080p 重跑一次。
会。Happy Horse 1.1 在一次生成中随视频产出音频,因此与运动保持同步。一次生成可包含对口型对白、音效、环境声和音乐,具备跨七种语言的原生对口型,且无需单独的音频步骤。
传入最多九张参考图,并按你提供的顺序,将每张以 character1 到 character9 按索引指代。说明哪个主体来自哪张图,再描述场景和动作。Happy Horse 1.1 会把每个主体带入新场景,让一支阵容在不同镜头间保持可辨认。
Happy Horse 1.1 以 720p 或 1080p 输出,片段时长 3 到 15 秒,默认 5 秒。它支持九种画面比例,包括 16:9、9:16 和超宽 21:9,外加 9:21、5:4 和 4:5。先选比例,因为取景会改变你调度动作的方式。
打开 Morphic,把提示词栏切换到 Video 模式,选择 Happy Horse 1.1。描述场景,为 image-to-video 附上一张静止图,或为 reference-to-video 附上最多九张参考图,选择分辨率和画面比例,然后运行提示词。音频在同一次生成中产出。

