Happy Horse 1.0はArtificial Analysis Video Arenaで第1位にランクされたAI動画モデルであり、平均的な出力と優れた出力の差は、ほぼ常にプロンプトの書き方で決まります。このガイドでは、最も役立つHappy Horse 1.0のテクニックを先に紹介し、すぐに結果を改善できるようにしています。モデルの機能の詳細は参考として後半に掲載しています。Happy Horse 1.0は、他の主要な動画モデルと並んでMorphicで利用できます。
Happy Horse 1.0がプロンプトをどう読み取るか
具体的なコツに入る前に、内部で何が起きているかを理解しておくと役立ちます。Happy Horse 1.0は、テキスト、画像、動画、音声のトークンを一度に処理する統合Transformerです。つまり、あなたのプロンプトは単なるクリエイティブな指示書ではありません。限られたトークン予算を奪い合う一連の指示なのです。含める単語の一つひとつが、レンダリング品質に割けるキャパシティを奪います。
これには実用的な帰結があります。モデルは簡潔さを評価します。適切な細部を指定した引き締まった20語のプロンプトは、すべてを描写しようとする60語のプロンプトを一貫して上回ります。プロンプトが長すぎると、モデルはトレードオフを始め、最初に劣化するのは顔の一貫した描写、手の形状、自然な歩様です。
このHappy Horse 1.0ガイドの残りの部分は、この原則の上に成り立っています。
Happy Horse 1.0のプロンプト構造:どこに何を置くか
Happy Horse 1.0は、プロンプト要素を位置に応じて異なる重みで扱います。プロンプトの冒頭にある要素は視覚的な被写体を固定します。末尾にある要素は、動きとカメラの挙動に最も大きな影響を与えます。これを知っていれば、最優先の指示を最も効果が出る位置に置けます。
| 位置 | ここに置くもの | なぜ重要か |
|---|---|---|
| 冒頭 | 被写体とアクション | モデルが最初に描画する対象を固定する |
| 中間 | 環境と照明 | 被写体やカメラと競合せずにシーンを設定する |
| 末尾 | カメラ指示 | 動きの挙動に最も高い重みが与えられる |
すべてのプロンプトにすべての要素が必要なわけではありません。トーキングヘッドのショットなら、被写体とカメラだけで十分かもしれません。雰囲気重視のシーンなら、環境と照明がショットを支えます。上記の表は優先順位であって、チェックリストではありません。
実際の例を見てみましょう。
薄暗い工房でガラス職人が溶けたガラスを成形し、炉の輝きが顔を照らす、ゆっくりとしたドリーインでクローズアップへ。
被写体とアクション(ガラス職人が溶けたガラスを成形する)が冒頭に来ます。環境と照明(薄暗い工房、炉の輝き)が中間に置かれます。カメラ(ゆっくりとしたドリーインでクローズアップへ)は最も重みが与えられる末尾に来ます。
信頼できる結果を生むHappy Horse 1.0のカメラ指示
カメラ言語こそ、Happy Horse 1.0が他の動画モデルと一線を画す部分です。このモデルは単に汎用的な動きを加えるのではありません。具体的な映像撮影の用語を解釈し、明確で再現可能なカメラの挙動を生み出します。
| カメラ指示 | 生み出すもの | 相性が良い場面 |
|---|---|---|
| Steadicam push | シーンを通り抜ける滑らかな前進移動 | 歩く被写体、建築物の見せ方 |
| ゆっくりとしたドリーイン | ミドルからクローズへの段階的な移行 | 感情的な場面、製品へのフォーカス |
| 横方向の旋回 | 視差の奥行きを伴う左右の弧 | 製品紹介、ポートレート |
| ヘリコプター空撮 | ハイアングルの掃くような動き | 風景、街の状況説明ショット |
| 固定フレーミング | 完全に静止したカメラ | 対話、インタビューの構成、料理コンテンツ |
| トラッキングショット | 動く被写体をカメラが追う | アクションシーン、街のシーン |
| クレーンアップ | シーン全体を見せる垂直の上昇 | エンディング、トランジション、スケールの見せ方 |
| ウィップパン | 被写体間の素早い水平スナップ | 勢いのあるカット、コメディのタイミング |
これらを一貫して機能させるには2つのルールがあります。第一に、カメラ指示はプロンプトの末尾に置くこと。第二に、1ショットにつき1つの指示に絞ること、互換性があれば最大でも2つまで(例:「ゆっくりとしたドリーインを伴うトラッキングショット」)。3つ以上重ねると指示が矛盾し、Happy Horse 1.0はそれらを平均化してぼやけた結果にして矛盾を解消します。
Happy Horse 1.0のプロンプトで音声を演出する
Happy Horse 1.0は音声と動画を順番にではなく、同時に生成します。つまり、音声は映像の上に後から重ねられるものではありません。映像と並行して生成されるため、デフォルトで緊密に同期します。ただし「デフォルト」とは、指示を与えなければモデルが推測するという意味でもあります。
Happy Horse 1.0のプロンプトの音声部分は、映画のサウンドデザイナーがシーンを捉えるように、レイヤーで考えましょう。
| レイヤー | 描写するもの | 例 |
|---|---|---|
| 前景 | 視聴者が気づくべき主要な音 | フランス語の対話:「Bonjour, comment ça va ?」 |
| 中景 | 見える動作に結びついた音 | 陶器のカップが触れ合う音、エスプレッソマシンのシューという音 |
| 背景 | 空間を満たす環境音 | レストランの談笑の柔らかなざわめき、遠くの通りの車の音 |
すべてのプロンプトに3つのレイヤーが必要なわけではありません。製品ショットなら、中景だけで十分かもしれません。対話を含む物語的なシーンでは、3つすべてが説得力のある音響空間を作ります。
対話は引用符で囲み、言語を明示してください。Happy Horse 1.0は7言語(英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語)でネイティブのリップシンクに対応していますが、どの言語かを指定する必要があります。
Happy Horse 1.0のimage-to-video:見た目ではなく動きをプロンプトに
image-to-videoモードを使うとき、アップロードした画像がすでにシーンの見た目をHappy Horse 1.0に伝えています。その情報をプロンプトで繰り返すとトークンを浪費し、画像とテキストの間に矛盾を生むことがあります。
代わりに、変化する部分だけを描写しましょう。
| プロンプトの焦点 | 良いimage-to-videoプロンプト | なぜ機能するか |
|---|---|---|
| カメラの動き | ゆっくりとした横方向の旋回、前景オブジェクトの視差 | 静的な構図に奥行きと動きを加える |
| 被写体の動き | 被写体が頭を右に向け、髪が風になびく | 被写体を描写し直さずに、何をアニメートするかをモデルに伝える |
| 照明の変化 | 日の出とともに光が冷たい青から暖かい金色へ移る | 画像だけでは伝えられない時間的な流れを作る |
| 音声レイヤー | 環境音の海の波、遠くのカモメ | 本来なら無音のアニメーションにサウンドデザインを加える |
経験則として、画像がすでに示しているなら書かないこと。画像が示せないもの(動き、音、時間の経過)こそ、あなたのHappy Horse 1.0プロンプトの役割です。
Happy Horse 1.0のマルチショットプロンプト
Happy Horse 1.0は、ネイティブのマルチショット生成を備えた唯一のAI動画モデルです。単一のプロンプトで、キャラクター、設定、音声がカットをまたいで保たれる、まとまりのある一連のショットを生成できます。これは広告クリエイティブ、短い物語シーケンス、手動編集なしで視覚的な連続性を必要とするあらゆる出力に役立ちます。
各ショットを時間範囲付きのラベルされたビートとして構成しましょう。
ショット1(0-2秒):日差しの差し込む店内で花束を整える花屋のワイドショット、アコースティックギターの環境音。 ショット2(2-5秒):花束をカウンターへ運ぶ彼女を追うミディアムのトラッキングショット、フローリングを歩く足音。 ショット3(5-8秒):客の前に置かれた完成した花束のクローズアップ、柔らかな笑い声、自然な部屋の空気感。
各ショットには独自のカメラ指示と音声の手がかりが与えられます。Happy Horse 1.0は花屋の外見、店内の環境、音声の流れを3つすべてにわたって維持します。各ビートに異なるカメラアングルを与えると、1回の連続した撮影ではなく、編集されたシーケンスのように感じられる結果になります。
Happy Horse 1.0でよくある間違いとその直し方
| 間違い | 起きること | 直し方 |
|---|---|---|
| 60語を超えるプロンプト | 顔がぶれ、動きが平坦になり、手が形を失う | 20語に削る。シーンにもっと必要ならタイムコード付きのマルチショットを使う |
| Booru形式のタグの羅列 | 同じ内容を文章にした場合よりモデルの性能が落ちる | タグを平易な英語の文章に書き直す |
| JSONや重み付き括弧 | モデルが構造を無視するか誤解釈する | すべての書式構文を取り除き、自然に書く |
| 曖昧な語(「シネマティック」「壮大」) | 出力に意味のある効果がない | 具体的な技法に置き換える(「ゆっくりとしたドリーイン」「暖かい琥珀色の逆光」) |
| カメラ指示を3つ以上重ねる | 指示が衝突し、平均化されて凡庸な動きになる | 強い指示を1つ、多くても2つ選ぶ |
| image-to-videoモードで画像を描写し直す | 画像とテキストの矛盾、トークン予算の浪費 | 動き、音、照明の変化だけを描写する |
| 音声の指示がない | モデルが映像から推測し、しばしば凡庸になる | 少なくとも1つの音声レイヤー(前景または環境音)を加える |
Happy Horse 1.0とは
Happy Horse 1.0は、AlibabaのTaotian Future Life Labが構築した150億パラメータのAI動画生成モデルです。テキスト、画像、動画、音声のトークンを一緒に処理する統合40層シングルストリームTransformerアーキテクチャを使用し、1回のフォワードパスから動画と同期した音声を生成します。このモデルはオープンソースです。
Happy Horse 1.0は現在、Artificial Analysis Video Arenaのtext-to-videoとimage-to-videoの両ベンチマークで第1位を占めています。4つの生成モード(text-to-video、image-to-video、動画編集、reference-to-video)に対応し、最大1080pの出力、5~8秒のクリップ、7言語のネイティブリップシンクをサポートします。
Happy Horse 1.0の主な機能
| 機能 | 詳細 |
|---|---|
| アーキテクチャ | 統合40層シングルストリームTransformer、150億パラメータ |
| モード | Text-to-video、image-to-video、動画編集、reference-to-video |
| 出力解像度 | 最大1080p |
| クリップの長さ | 5~8秒 |
| 音声 | ネイティブの同時生成(対話、効果音、環境音) |
| リップシンク対応言語 | 英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語 |
| アスペクト比 | 16:9、9:16、4:3、21:9、1:1 |
| 速度 | H100で1080pクリップを約30秒(DMD-2による8ステップのデノイズ) |
| オープンソース | はい |
業界がHappy Horse 1.0について語っていること
Happy Horse 1.0は、誰が構築したのか分かる前から話題になりました。このモデルは2026年4月7日にArtificial Analysis Video Arenaに匿名で登場し、数日のうちにtext-to-videoとimage-to-videoの両ランキングで第1位に上り詰めました。これはすべて、どのモデルが判定対象の出力を生成したのか知らないユーザーたちのブラインド選好投票によるものでした。
3日後にAlibabaが所有を認めたとき、すでに市場を動かした後でした。Alibaba株は憶測だけで最大8%上昇しました。Jefferiesのアナリスト、Thomas Chong氏はその週のノートで、このモデルをAlibabaにとっての「成功」と評しました。Bloombergは「AlibabaのHappy Horse AIモデルが中国に動画制作の王座をもたらす」という見出しを掲げました。
Artificial Analysisのリーダーボードでは、Happy Horse 1.0はtext-to-video(音声なし)リーダーボードでEloレーティング1,374を保持しており、ByteDanceのSeedance 2.0の1,273を101ポイント上回っています。ブラインドの動画生成ベンチマークにおいて、この規模の差は大きな意味を持ちます。
MorphicでHappy Horse 1.0を試す
プロンプトのテクニック、カメラの語彙、音声の演出方法は揃いました。Happy Horse 1.0の結果を確かめる最も早い方法は、自分で試してみることです。
よくある質問
ほとんどの単一ショットでは約20語です。統合アーキテクチャでは各トークンがレンダリングのキャパシティを奪い合うため、具体的な細部を持つ短いプロンプトが長いものを一貫して上回ります。複数のビートを持つ複雑なシーンでは、1つの長い段落を書くのではなく、タイムコード付きのマルチショット形式を使ってください。
はい。音声と動画は同じフォワードパスで生成されるため、デフォルトで同期します。プロンプト内で特定の音、対話、環境音のレイヤーを描写することで音声を演出できます。音声の指示を省くと、モデルは映像から推測した音を生成します。
7言語です:英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語。視覚的に最高の結果を得るにはプロンプトを英語で書き、対話の言語をプロンプト内で指定してください(例:「韓国語の対話:『...』」)。
はい。画像をアップロードし、画像の内容を描写し直すのではなく、求める動きをプロンプトで指定してください。Morphicでは、image-to-videoモードは動画ジェネレーターから直接利用できます。
製品ショットはその最も得意とする出力の一つです。被写体の安定性はクリップ全体を通して非常に高く、横方向の旋回やドリーインの指示は洗練された製品紹介の結果を生み出します。最良の出発点として、製品写真を使ったimage-to-videoモードを利用してください。
同じ参照画像をすべてのクリップに渡し、被写体の説明をプロンプト間で一字一句同じに保ってください。より長いシーケンスでは、マルチショット形式を使うことで、別々の生成にわたって組み立て直すのではなく、1回の生成内でキャラクターの同一性が維持されます。
