Happy Horse 1.0 是 Artificial Analysis Video Arena 上排名第一的 AI 视频模型,而平庸结果与出色结果之间的差别,几乎总是取决于你如何编写提示词。本指南把最实用的 Happy Horse 1.0 技巧放在最前面,让你能立刻获得更好的效果,模型的完整功能解析则放在后面供参考。Happy Horse 1.0 与其他领先的视频模型一起,可在 Morphic 上使用。
Happy Horse 1.0 如何读取你的提示词
在进入具体技巧之前,先理解一下内部发生了什么会有帮助。Happy Horse 1.0 是一个统一的 Transformer,在一次处理中同时处理文本、图像、视频和音频 token。这意味着你的提示词不只是一份创意简报,而是一组争夺有限 token 预算的指令。你写下的每个词都会占用本可用于渲染质量的容量。
这带来一个实际后果:模型奖励简练。一条点出正确细节的紧凑 20 词提示词,会持续胜过一条试图描述一切的 60 词提示词。当提示词变得太长时,模型开始做出取舍,而最先退化的就是面部的一致表现、手部几何结构和自然步态。
本份 Happy Horse 1.0 指南的其余部分都建立在这一原则之上。
Happy Horse 1.0 提示词结构:什么内容放在哪里
Happy Horse 1.0 会根据位置对提示词元素赋予不同权重。位于提示词开头的元素锚定视觉主体。位于结尾的元素对运动和镜头行为影响最大。了解这一点,你就能把最高优先级的指令放在最能发挥作用的位置。
| 位置 | 放在这里的内容 | 为什么重要 |
|---|---|---|
| 开头 | 主体与动作 | 锚定模型最先渲染的对象 |
| 中间 | 环境与光照 | 在不与主体或镜头争夺的情况下设定场景 |
| 结尾 | 镜头指令 | 在运动行为上获得最高权重 |
并非每条提示词都需要每个元素。对于人物特写镜头,主体和镜头也许就够了。对于氛围场景,环境和光照支撑整个镜头。上面的表格是优先级排序,而不是清单。
下面看看实际效果:
一位玻璃工匠在昏暗的工坊里塑造熔融的玻璃,炉火的光照亮他的脸,缓慢推轨至特写。
主体与动作(玻璃工匠塑造熔融的玻璃)位于开头。环境与光照(昏暗的工坊、炉火的光)位于中间。镜头(缓慢推轨至特写)位于结尾,在那里获得最高权重。
能产生可靠结果的 Happy Horse 1.0 镜头指令
镜头语言正是 Happy Horse 1.0 区别于其他视频模型的地方。这个模型不只是添加泛泛的运动,它会解读具体的摄影术语,并产生清晰、可重复的镜头行为。
| 镜头指令 | 产生的效果 | 搭配得当的场景 |
|---|---|---|
| Steadicam push | 穿过场景的平滑前进运动 | 行走的主体、建筑展示 |
| 缓慢推轨 | 从中景到近景的逐步过渡 | 情感节点、产品聚焦 |
| 横向环绕 | 带视差景深的左右弧线 | 产品展示、人像 |
| 直升机航拍 | 高角度的扫掠运动 | 风景、城市定场镜头 |
| 固定取景 | 完全静止的镜头 | 对话、采访布置、美食内容 |
| 跟踪镜头 | 镜头跟随移动的主体 | 动作段落、街头场景 |
| 升降机上升 | 垂直上升展现整个场景 | 结尾、转场、规模展示 |
| 甩镜头 | 在主体之间快速水平切换 | 节奏感强的剪辑、喜剧节奏 |
有两条规则能让这些指令始终有效。第一,把镜头指令放在提示词结尾。第二,每个镜头限用一条指令,若彼此兼容最多两条(例如"带缓慢推轨的跟踪镜头")。堆叠三条或更多会产生相互冲突的指令,Happy Horse 1.0 会通过把它们平均成一团模糊来化解冲突。
在 Happy Horse 1.0 提示词中调度音频
Happy Horse 1.0 同时生成音频和视频,而非先后生成。这意味着声音不是叠加在画面之上的。它与画面一同生成,因而默认就能紧密同步。但"默认"也意味着,如果你不给出指令,模型就会自行推测。
把 Happy Horse 1.0 提示词中的音频部分,像电影声音设计师对待场景那样,按层次来思考。
| 层次 | 要描述的内容 | 示例 |
|---|---|---|
| 前景 | 观众应当注意到的主要声音 | 法语对白:"Bonjour, comment ça va?" |
| 中景 | 与可见动作相关的声音 | 陶瓷杯碰撞声、咖啡机的嘶嘶声 |
| 背景 | 充满空间的环境音 | 餐厅交谈的轻柔嗡声、远处街道的车流 |
并非每条提示词都需要这三层。对于产品镜头,仅中景也许就够了。对于带对白的叙事场景,三层共同营造出令人信服的声场。
把对白放进引号并明确指出语言。Happy Horse 1.0 支持七种语言(英语、普通话、粤语、日语、韩语、德语、法语)的原生唇形同步,但需要你指定具体是哪一种。
Happy Horse 1.0 image-to-video:为运动而非外观编写提示词
使用 image-to-video 模式时,你上传的图像已经告诉 Happy Horse 1.0 场景是什么样子。在提示词里重复这些信息会浪费 token,并可能在图像与文本之间制造冲突。
相反,只描述发生变化的部分:
| 提示词焦点 | 好的 image-to-video 提示词 | 为什么有效 |
|---|---|---|
| 镜头运动 | 缓慢横向环绕,前景物体产生视差 | 为静态构图增添景深与运动 |
| 主体运动 | 主体把头转向右侧,头发被风吹起 | 在不重新描述主体的情况下告诉模型要让什么动起来 |
| 光照变化 | 随着日出,光线从冷蓝过渡到暖金 | 营造图像本身无法传达的时间弧线 |
| 音频层 | 环境海浪声、远处的海鸥 | 为原本无声的动画加入声音设计 |
一条实用经验:图像已经展示的就不要写。图像无法展示的(运动、声音、时间流逝),正是你的 Happy Horse 1.0 提示词该做的事。
Happy Horse 1.0 多镜头提示词
Happy Horse 1.0 是唯一具备原生多镜头生成能力的 AI 视频模型。单条提示词就能产生一连串前后衔接的镜头,其中人物、场景和音频在切换之间保持延续。这对广告创意、简短的叙事段落,以及任何无需手动剪辑就需要视觉连续性的成品都很有用。
把每个镜头构造成带时间区间的标注节拍:
镜头 1(0-2秒):阳光洒落的店铺里,花艺师整理花束的全景,舒缓的原声吉他。 镜头 2(2-5秒):中景跟踪镜头跟随她把花束捧到柜台,木地板上的脚步声。 镜头 3(5-8秒):完成的花束放到顾客面前的特写,轻柔的笑声,自然的室内环境声。
每个镜头都有各自的镜头指令和音频提示。Happy Horse 1.0 在三个镜头中始终保持花艺师的外形、店铺环境和音频脉络。给每个节拍一个不同的镜头角度,结果就会像一段剪辑后的序列,而不是一次连续拍摄。
Happy Horse 1.0 常见错误及修正方法
| 错误 | 会发生什么 | 修正方法 |
|---|---|---|
| 提示词超过 60 词 | 面部漂移、运动变平、手部失去几何结构 | 削减到 20 词。若场景需要更多内容,使用带时间码的多镜头 |
| Booru 风格的标签罗列 | 相比把同样内容写成句子,模型表现更差 | 把标签改写成平实的英文散文 |
| JSON 或加权括号 | 模型忽略或误解该结构 | 去掉所有格式语法,自然地书写 |
| 模糊措辞("电影感"、"史诗") | 对结果没有实质影响 | 替换为具体技法("缓慢推轨"、"温暖的琥珀色逆光") |
| 堆叠 3 条以上镜头指令 | 指令冲突并被平均成平庸的运动 | 选一条强指令,最多两条 |
| 在 image-to-video 模式下重新描述图像 | 图像与文本冲突,浪费 token 预算 | 只描述运动、声音和光照的变化 |
| 没有音频指令 | 模型根据画面推测,往往流于平庸 | 至少加入一层音频(前景或环境音) |
Happy Horse 1.0 是什么
Happy Horse 1.0 是由阿里巴巴淘天未来生活实验室打造的 150 亿参数 AI 视频生成模型。它采用统一的 40 层单流 Transformer 架构,同时处理文本、图像、视频和音频 token,通过一次前向传递生成视频和同步音频。该模型是开源的。
Happy Horse 1.0 目前在 Artificial Analysis Video Arena 的 text-to-video 和 image-to-video 两项基准上均位列第一。它支持四种生成模式(text-to-video、image-to-video、视频编辑、reference-to-video),输出最高 1080p,片段长五到八秒,并具备七种语言的原生唇形同步。
Happy Horse 1.0 核心功能
| 功能 | 详情 |
|---|---|
| 架构 | 统一 40 层单流 Transformer,150 亿参数 |
| 模式 | Text-to-video、image-to-video、视频编辑、reference-to-video |
| 输出分辨率 | 最高 1080p |
| 片段时长 | 5 到 8 秒 |
| 音频 | 原生联合生成(对白、拟音、环境音) |
| 唇形同步语言 | 英语、普通话、粤语、日语、韩语、德语、法语 |
| 画面比例 | 16:9、9:16、4:3、21:9、1:1 |
| 速度 | 在 H100 上生成 1080p 片段约半分钟(通过 DMD-2 进行 8 步去噪) |
| 开源 | 是 |
业界对 Happy Horse 1.0 的评价
Happy Horse 1.0 在还没人知道是谁打造的时候就上了头条。该模型于 2026 年 4 月 7 日匿名出现在 Artificial Analysis Video Arena 上,并在数天内攀升到 text-to-video 和 image-to-video 两项排名的第一位,而这一切都来自那些根本不知道自己评判的成品出自哪个模型的用户的盲测偏好投票。
当阿里巴巴三天后确认其归属时,它已经撼动了市场。阿里巴巴股价仅凭猜测就最高上涨了 8%。Jefferies 分析师 Thomas Chong 在那一周的报告中称这个模型是阿里巴巴的"一次成功"。Bloomberg 打出标题:"阿里巴巴的 Happy Horse AI 模型为中国赢得视频创作王冠。"
在 Artificial Analysis 排行榜上,Happy Horse 1.0 在 text-to-video(无音频)排行榜上的 Elo 评分为 1,374,比 ByteDance 的 Seedance 2.0(1,273)高出 101 分。在盲测视频生成基准中,这样的差距意义重大。
在 Morphic 上试用 Happy Horse 1.0
你已经掌握了提示词技巧、镜头词汇和音频调度方法。看到 Happy Horse 1.0 效果最快的方式就是亲自试一试。
常见问题
大多数单镜头约 20 词。统一架构意味着每个 token 都在争夺渲染容量,因此带有具体细节的较短提示词会持续胜过较长的。对于包含多个节拍的复杂场景,请使用带时间码的多镜头格式,而不是写一大段长段落。
会。音频和视频在同一次前向传递中生成,因此默认就是同步的。你可以通过在提示词中描述具体的声音、对白和环境层来调度音频。如果省略音频指令,模型会根据它从画面中推断出的内容生成声音。
七种:英语、普通话、粤语、日语、韩语、德语和法语。为获得最佳视觉效果,请用英语编写提示词,并在提示词中指定对白语言(例如"韩语对白:'...'")。
可以。上传一张图像,并为你想要的运动编写提示词,而不是重新描述图像内容。在 Morphic 上,可直接从视频生成器使用 image-to-video 模式。
产品镜头是它最出色的输出之一。主体在整段片段中保持出色的稳定性,横向环绕和推轨指令能产生精致的产品展示效果。请使用配上产品照片的 image-to-video 模式作为最佳起点。
把同一张参考图像传入每个片段,并让主体描述在各条提示词之间逐字保持一致。对于较长的序列,请使用多镜头格式,让人物身份在一次生成内得到保持,而不是在多次单独生成之间重新拼合。
