Happy Horse 1.1:完全ガイド、プロンプト、機能

Happy Horse 1.1:完全ガイド、プロンプト、機能

Morphic で使える Happy Horse 1.1 の完全ガイド。Alibaba の音声・映像同時生成モデルの機能、スペック、ネイティブ音声とリップシンク、最大9体までの reference-to-video、例付きのプロンプト作成を解説します。

Happy Horse 1.1 の機能と性能

Happy Horse 1.1 は Alibaba の映像モデルで、fal 上で提供され、Morphic で利用できます。映像と音声を1回の生成で同時に作り出し、7言語にわたるネイティブなリップシンクを備え、最大9体までの被写体、9種類のアスペクト比、1080p 出力に対応した reference-to-video をサポートします。

機能できること向いている用途
音声と映像の同時生成クリップと同期した音声を1回の生成で作り、別の音声工程が不要会話シーン、音楽クリップ、トーキングヘッド
多言語リップシンク7言語で話してリップシンクし、口の形が音素に合うローカライズ広告、多言語のプレゼンター
reference-to-video、最大9体最大9体の参照被写体を新しいシーンへ引き継ぎ、各被写体をインデックスで指定アンサンブルシーン、キャラクター一貫のシリーズ
image-to-video静止した最初のフレームを音声付きの動く 1080p クリップへアニメート商品ショット、キービジュアル、写真のアニメ化
9種類のアスペクト比16:9 や 9:16 から ウルトラワイド 21:9 まで、9種類で出力シネマ向け、縦型、正方形の納品

音声と映像を1回の生成で同時に

Happy Horse は音声を後から足すのではなく、映像とサウンドを一緒に生成します。リップシンク付きの会話、室内の環境音、効果音、音楽がすべて同じ生成から出てくるので、最初のフレームから動きとサウンドがそろいます。サウンドはアクションと同じプロンプトに書きます。

多言語ネイティブリップシンク

このモデルは英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語で話し、リップシンクします。口の形は近似ではなく話す言語の音素に従うため、会話シーンや同じショットのローカライズ版に向いています。

最大9体までの被写体での reference-to-video

最大9体の参照画像を渡し、プロンプト内で各被写体を character1 から character9 まで、渡した順番に合わせてインデックスで指定します。最大9体なら、キャスト全員がショットをまたいで見分けられます。各被写体を説明し、次にシーンとアクションを書きます。

image-to-video

商品ショットやキャラクターのフレームなど、静止した最初のフレームを用意し、動きとサウンドを説明するプロンプトを加えると、モデルはそのライティングとディテールを保ちながら画像から外側へアニメートします。最初の画像がないときは text-to-video も実行します。

9種類のアスペクト比

9種類の比率で納品します:16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5。同じプロンプトの枠組みで、ウルトラワイドのシネマ用カットと縦型のソーシャル用カットを、フォーマットごとに別ワークフローを組まずに作れます。

Happy Horse 1.1 の技術スペック

スペックHappy Horse 1.1
提供元Alibaba(fal 上で提供)
モードtext-to-video、image-to-video、reference-to-video
音声ネイティブ・同期・多言語リップシンク対応
言語7(英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語)
解像度720p または 1080p
長さ3〜15秒(デフォルト5秒)
アスペクト比16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5
参照画像最大9枚(character1〜character9)
プロンプト長最大 2,500 characters
リリース2026年6月

Happy Horse 1.1 の活用例

会話とトーキングヘッドのシーン

キャラクターが同期した口の動き、室内音、タイミングとともに話し、1回の生成で作られます。セリフをプロンプトに書けば、音声が動きと一緒に返ってきます。

複数キャラクターのアンサンブルシーン

参照画像から最大9体の被写体を1つのシーンへ引き継ぎ、各被写体をインデックスで呼び出して、キャスト全員がショットをまたいで見分けられるようにします。

ミュージックビデオとパフォーマンスクリップ

映像と音声が一緒に生成されるため、動きは最初の生成からビートに乗ります。スコアと同期した動きのパフォーマンスクリップを1回の生成で作れます。

ウルトラワイドのシネマカット

21:9 の比率でワイドスクリーンのシネマ的なフレームにし、同じプロンプトから同じシーンを 9:16 の縦型として納品します。

多言語広告のローカライズ

同じシーンとキャラクターを保ったままセリフを言語ごとに差し替え、ネイティブリップシンクで、1つの企画を複数の市場へ展開します。

Happy Horse 1.1 を最大限に活かす方法

Happy Horse は、動きとサウンドを一緒に名指しするブリーフと、キャラクターを一貫させる必要があるときの整理された参照画像のセットを評価します。いくつかの実践がクオリティの大半を担います:

  • 必ず音声を名指しする。会話、効果音、環境音、音楽を平易な言葉で書き、無音のクリップではなくモデルが動きとともにサウンドを生成するようにします。
  • 写真ではなく動きを書く。1つの瞬間にフレームがどう見えるかだけでなく、被写体とカメラがクリップ全体でどう動くかを説明します。
  • 参照にインデックスを付ける。reference-to-video では、参照画像を渡す順番に合わせて各被写体を character1、character2 のように指定します。
  • きれいなリップシンクのためにセリフは短く。話すキャラクターには口が見える正面のフレームを使い、各セリフを短く保ちます。
  • 1クリップに1動作。1つのアクションを数秒に収め、いくつもを1回の生成に詰め込みません。
  • 比率は先に決める。シネマカットなら 21:9、縦型なら 9:16 を選びます。フレーミングがアクションの演出を変えるからです。

Happy Horse 1.1 プロンプトガイド

良いプロンプトはキャプションではなく短いショットブリーフのように読めます。結果を左右するのは2つ。ショットに何が含まれるかの明確なリストと、曖昧な言葉に代わる具体的な言葉づかいです。

プロンプトに入れるもの

要素含めること
被写体フレームに誰が・何があるか、具体的にガラスのデスクに座る紺のスーツのニュースキャスター
動き何が、どう動くか彼が2台目のカメラへ向き直り、身ぶりをする
カメラショットの種類に動き1つミディアムショット、ゆっくり寄る
音声会話、効果音、環境音、音楽彼が「こんばんは」と言う。柔らかなスタジオの室内音
フォーマット長さとアスペクト比10秒、16:9

参照とセリフの記法

reference-to-video では、参照画像を渡す順番に合わせて各被写体を character1、character2 のように指定します。タイミング付きのセリフは、リップシンクが狙った位置に来るよう、話すセリフをクリップのタイムラインに合わせて記します。

参照とタイミング付きセリフ

character1 and character2 sit across a café table, warm window light. 0-4s: character1 says in French, "Tu as vu ça?"; 4-8s: character2 laughs and replies, "Incroyable." Soft café ambience, gentle handheld.

弱いプロンプト vs 強いプロンプト

カメラ、動きとそのタイミング、音声を運任せにせず名指しします。

焦点弱い強い
カメラ夜の街にいる女性雨に濡れた通りを歩く女性を追う手持ちのトラッキングショット、店明かりが舗道に反射、浅い被写界深度
動きとタイミングドアが開いて誰かが入ってくるドアがゆっくり開き、一拍おいて人影が通り抜け、それからカメラがミディアムショットに落ち着く
音声皿に料理を盛り付けるシェフ皿に料理を盛り付けるシェフのクローズアップ、立ちのぼる湯気。音声:フライパンのジュージュー音、柔らかな厨房の環境音、そして「サービス。」

よくある間違い

  • プロンプトを無音にする:モデルは音声を映像とともに生成するため、必ず少なくとも1つのサウンドの指示を書きます。
  • 曖昧なカメラ:「シネマ的」はモデルに何も伝えません。ショットと動きを名指しします。
  • インデックスのない参照:reference-to-video では「これらの参照を使って」ではなく、各被写体を character1、character2 とラベル付けします。
  • 1クリップに詰め込みすぎ:1クリップに1アクションを保ち、きれいなリップシンクのためにセリフは短く保ちます。

よくある質問

Happy Horse 1.1 で最良の結果を得るには?

Happy Horse 1.1 は音声を映像とともに生成するので、どのプロンプトでも音声を名指ししてください。静止フレームではなく動きを説明し、ショットの種類とカメラの動き1つを与えます。複数キャラクターのシーンでは各被写体を character1、character2 とインデックス付けし、きれいなリップシンクのためにセリフは短く保ちます。720p で下書きし、採用カットを 1080p で再生成します。

Happy Horse 1.1 は音声を生成しますか?

はい。Happy Horse 1.1 は音声を映像とともに1回の生成で作るので、動きと同期したままになります。1回の生成にリップシンクした会話、効果音、環境音、音楽を含められ、7言語にわたるネイティブなリップシンクを備え、別の音声工程は不要です。

Happy Horse 1.1 の reference-to-video はどう動きますか?

最大9枚の参照画像を渡し、渡した順番に合わせて各被写体を character1 から character9 までインデックスで指定します。どの被写体がどの画像から来るかを述べ、次にシーンとアクションを説明します。Happy Horse 1.1 は各被写体を新しいシーンへ引き継ぎ、キャストがショットをまたいで見分けられるようにします。

Happy Horse 1.1 が対応する解像度・長さ・アスペクト比は?

Happy Horse 1.1 は 720p または 1080p を、3〜15秒のクリップで出力し、デフォルトは5秒です。16:9、9:16、ウルトラワイド 21:9 に加え、9:21、5:4、4:5 を含む9種類のアスペクト比に対応します。フレーミングがアクションの演出を変えるので、比率を先に選びます。

Morphic で Happy Horse 1.1 を使うには?

Morphic を開き、プロンプトバーを Video モードに切り替え、Happy Horse 1.1 を選びます。シーンを説明し、image-to-video には静止画を、reference-to-video には最大9枚の参照画像を添付し、解像度とアスペクト比を選んでプロンプトを実行します。音声は同じ生成で作られます。

シンプルな料金体系

今すぐ無料で始めて、いつでもアップグレードまたはキャンセルできます。

Basic

$0/
請求額は $0

900 月 クレジット

1 ユーザーのみ

すべてのモデル

ワークフロー

Standard

$0/
請求額は $0

3200 月 クレジット

1 ユーザーのみ

すべてのモデル

ワークフロー

Pro

$0/
請求額は $0

6200 共有 月 クレジット

1 ユーザー

+ 最大 4 名まで追加費用

すべてのモデル

ワークフロー

Pro Max

$0/
請求額は $0

24000 共有 月 クレジット

1 ユーザー

+ 最大 9 名まで追加費用

すべてのモデル

ワークフロー

Enterprise

より高い制限のために

カスタム

料金と請求条件

無制限クレジット
カスタムシート制限
すべてのモデル
ワークフロー
Pricing Gradient

Free

For playing around

$0

forever free

最大20クレジット
1ユーザーのみ
一部のモデル
ワークフロー