Happy Horse 1.1 の機能と性能
Happy Horse 1.1 は Alibaba の映像モデルで、fal 上で提供され、Morphic で利用できます。映像と音声を1回の生成で同時に作り出し、7言語にわたるネイティブなリップシンクを備え、最大9体までの被写体、9種類のアスペクト比、1080p 出力に対応した reference-to-video をサポートします。
| 機能 | できること | 向いている用途 |
|---|---|---|
| 音声と映像の同時生成 | クリップと同期した音声を1回の生成で作り、別の音声工程が不要 | 会話シーン、音楽クリップ、トーキングヘッド |
| 多言語リップシンク | 7言語で話してリップシンクし、口の形が音素に合う | ローカライズ広告、多言語のプレゼンター |
| reference-to-video、最大9体 | 最大9体の参照被写体を新しいシーンへ引き継ぎ、各被写体をインデックスで指定 | アンサンブルシーン、キャラクター一貫のシリーズ |
| image-to-video | 静止した最初のフレームを音声付きの動く 1080p クリップへアニメート | 商品ショット、キービジュアル、写真のアニメ化 |
| 9種類のアスペクト比 | 16:9 や 9:16 から ウルトラワイド 21:9 まで、9種類で出力 | シネマ向け、縦型、正方形の納品 |
音声と映像を1回の生成で同時に
Happy Horse は音声を後から足すのではなく、映像とサウンドを一緒に生成します。リップシンク付きの会話、室内の環境音、効果音、音楽がすべて同じ生成から出てくるので、最初のフレームから動きとサウンドがそろいます。サウンドはアクションと同じプロンプトに書きます。
多言語ネイティブリップシンク
このモデルは英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語で話し、リップシンクします。口の形は近似ではなく話す言語の音素に従うため、会話シーンや同じショットのローカライズ版に向いています。
最大9体までの被写体での reference-to-video
最大9体の参照画像を渡し、プロンプト内で各被写体を character1 から character9 まで、渡した順番に合わせてインデックスで指定します。最大9体なら、キャスト全員がショットをまたいで見分けられます。各被写体を説明し、次にシーンとアクションを書きます。
image-to-video
商品ショットやキャラクターのフレームなど、静止した最初のフレームを用意し、動きとサウンドを説明するプロンプトを加えると、モデルはそのライティングとディテールを保ちながら画像から外側へアニメートします。最初の画像がないときは text-to-video も実行します。
9種類のアスペクト比
9種類の比率で納品します:16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5。同じプロンプトの枠組みで、ウルトラワイドのシネマ用カットと縦型のソーシャル用カットを、フォーマットごとに別ワークフローを組まずに作れます。
Happy Horse 1.1 の技術スペック
| スペック | Happy Horse 1.1 |
|---|---|
| 提供元 | Alibaba(fal 上で提供) |
| モード | text-to-video、image-to-video、reference-to-video |
| 音声 | ネイティブ・同期・多言語リップシンク対応 |
| 言語 | 7(英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語) |
| 解像度 | 720p または 1080p |
| 長さ | 3〜15秒(デフォルト5秒) |
| アスペクト比 | 16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5 |
| 参照画像 | 最大9枚(character1〜character9) |
| プロンプト長 | 最大 2,500 characters |
| リリース | 2026年6月 |
Happy Horse 1.1 の活用例
会話とトーキングヘッドのシーン
キャラクターが同期した口の動き、室内音、タイミングとともに話し、1回の生成で作られます。セリフをプロンプトに書けば、音声が動きと一緒に返ってきます。
複数キャラクターのアンサンブルシーン
参照画像から最大9体の被写体を1つのシーンへ引き継ぎ、各被写体をインデックスで呼び出して、キャスト全員がショットをまたいで見分けられるようにします。
ミュージックビデオとパフォーマンスクリップ
映像と音声が一緒に生成されるため、動きは最初の生成からビートに乗ります。スコアと同期した動きのパフォーマンスクリップを1回の生成で作れます。
ウルトラワイドのシネマカット
21:9 の比率でワイドスクリーンのシネマ的なフレームにし、同じプロンプトから同じシーンを 9:16 の縦型として納品します。
多言語広告のローカライズ
同じシーンとキャラクターを保ったままセリフを言語ごとに差し替え、ネイティブリップシンクで、1つの企画を複数の市場へ展開します。
Happy Horse 1.1 を最大限に活かす方法
Happy Horse は、動きとサウンドを一緒に名指しするブリーフと、キャラクターを一貫させる必要があるときの整理された参照画像のセットを評価します。いくつかの実践がクオリティの大半を担います:
- 必ず音声を名指しする。会話、効果音、環境音、音楽を平易な言葉で書き、無音のクリップではなくモデルが動きとともにサウンドを生成するようにします。
- 写真ではなく動きを書く。1つの瞬間にフレームがどう見えるかだけでなく、被写体とカメラがクリップ全体でどう動くかを説明します。
- 参照にインデックスを付ける。reference-to-video では、参照画像を渡す順番に合わせて各被写体を character1、character2 のように指定します。
- きれいなリップシンクのためにセリフは短く。話すキャラクターには口が見える正面のフレームを使い、各セリフを短く保ちます。
- 1クリップに1動作。1つのアクションを数秒に収め、いくつもを1回の生成に詰め込みません。
- 比率は先に決める。シネマカットなら 21:9、縦型なら 9:16 を選びます。フレーミングがアクションの演出を変えるからです。
Happy Horse 1.1 プロンプトガイド
良いプロンプトはキャプションではなく短いショットブリーフのように読めます。結果を左右するのは2つ。ショットに何が含まれるかの明確なリストと、曖昧な言葉に代わる具体的な言葉づかいです。
プロンプトに入れるもの
| 要素 | 含めること | 例 |
|---|---|---|
| 被写体 | フレームに誰が・何があるか、具体的に | ガラスのデスクに座る紺のスーツのニュースキャスター |
| 動き | 何が、どう動くか | 彼が2台目のカメラへ向き直り、身ぶりをする |
| カメラ | ショットの種類に動き1つ | ミディアムショット、ゆっくり寄る |
| 音声 | 会話、効果音、環境音、音楽 | 彼が「こんばんは」と言う。柔らかなスタジオの室内音 |
| フォーマット | 長さとアスペクト比 | 10秒、16:9 |
参照とセリフの記法
reference-to-video では、参照画像を渡す順番に合わせて各被写体を character1、character2 のように指定します。タイミング付きのセリフは、リップシンクが狙った位置に来るよう、話すセリフをクリップのタイムラインに合わせて記します。
character1 and character2 sit across a café table, warm window light. 0-4s: character1 says in French, "Tu as vu ça?"; 4-8s: character2 laughs and replies, "Incroyable." Soft café ambience, gentle handheld.
弱いプロンプト vs 強いプロンプト
カメラ、動きとそのタイミング、音声を運任せにせず名指しします。
| 焦点 | 弱い | 強い |
|---|---|---|
| カメラ | 夜の街にいる女性 | 雨に濡れた通りを歩く女性を追う手持ちのトラッキングショット、店明かりが舗道に反射、浅い被写界深度 |
| 動きとタイミング | ドアが開いて誰かが入ってくる | ドアがゆっくり開き、一拍おいて人影が通り抜け、それからカメラがミディアムショットに落ち着く |
| 音声 | 皿に料理を盛り付けるシェフ | 皿に料理を盛り付けるシェフのクローズアップ、立ちのぼる湯気。音声:フライパンのジュージュー音、柔らかな厨房の環境音、そして「サービス。」 |
よくある間違い
- プロンプトを無音にする:モデルは音声を映像とともに生成するため、必ず少なくとも1つのサウンドの指示を書きます。
- 曖昧なカメラ:「シネマ的」はモデルに何も伝えません。ショットと動きを名指しします。
- インデックスのない参照:reference-to-video では「これらの参照を使って」ではなく、各被写体を character1、character2 とラベル付けします。
- 1クリップに詰め込みすぎ:1クリップに1アクションを保ち、きれいなリップシンクのためにセリフは短く保ちます。
よくある質問
Happy Horse 1.1 は音声を映像とともに生成するので、どのプロンプトでも音声を名指ししてください。静止フレームではなく動きを説明し、ショットの種類とカメラの動き1つを与えます。複数キャラクターのシーンでは各被写体を character1、character2 とインデックス付けし、きれいなリップシンクのためにセリフは短く保ちます。720p で下書きし、採用カットを 1080p で再生成します。
はい。Happy Horse 1.1 は音声を映像とともに1回の生成で作るので、動きと同期したままになります。1回の生成にリップシンクした会話、効果音、環境音、音楽を含められ、7言語にわたるネイティブなリップシンクを備え、別の音声工程は不要です。
最大9枚の参照画像を渡し、渡した順番に合わせて各被写体を character1 から character9 までインデックスで指定します。どの被写体がどの画像から来るかを述べ、次にシーンとアクションを説明します。Happy Horse 1.1 は各被写体を新しいシーンへ引き継ぎ、キャストがショットをまたいで見分けられるようにします。
Happy Horse 1.1 は 720p または 1080p を、3〜15秒のクリップで出力し、デフォルトは5秒です。16:9、9:16、ウルトラワイド 21:9 に加え、9:21、5:4、4:5 を含む9種類のアスペクト比に対応します。フレーミングがアクションの演出を変えるので、比率を先に選びます。
Morphic を開き、プロンプトバーを Video モードに切り替え、Happy Horse 1.1 を選びます。シーンを説明し、image-to-video には静止画を、reference-to-video には最大9枚の参照画像を添付し、解像度とアスペクト比を選んでプロンプトを実行します。音声は同じ生成で作られます。

