Happy Horse 1.0:プロンプト、機能、コツの完全ガイド

Happy Horse 1.0で最高のAI動画結果を得るためのプロンプトの書き方を学びましょう。機能、プロンプトのコツ、カメラ指示、音声、Morphicでのベストプラクティスを解説します。

Morphic上のHappy Horse 1.0

Happy Horse 1.0はArtificial Analysis Video Arenaで第1位にランクされたAI動画モデルであり、平均的な出力と優れた出力の差は、ほぼ常にプロンプトの書き方で決まります。このガイドでは、最も役立つHappy Horse 1.0のテクニックを先に紹介し、すぐに結果を改善できるようにしています。モデルの機能の詳細は参考として後半に掲載しています。Happy Horse 1.0は、他の主要な動画モデルと並んでMorphicで利用できます。

Happy Horse 1.0がプロンプトをどう読み取るか

具体的なコツに入る前に、内部で何が起きているかを理解しておくと役立ちます。Happy Horse 1.0は、テキスト、画像、動画、音声のトークンを一度に処理する統合Transformerです。つまり、あなたのプロンプトは単なるクリエイティブな指示書ではありません。限られたトークン予算を奪い合う一連の指示なのです。含める単語の一つひとつが、レンダリング品質に割けるキャパシティを奪います。

これには実用的な帰結があります。モデルは簡潔さを評価します。適切な細部を指定した引き締まった20語のプロンプトは、すべてを描写しようとする60語のプロンプトを一貫して上回ります。プロンプトが長すぎると、モデルはトレードオフを始め、最初に劣化するのは顔の一貫した描写、手の形状、自然な歩様です。

このHappy Horse 1.0ガイドの残りの部分は、この原則の上に成り立っています。

Happy Horse 1.0のプロンプト構造:どこに何を置くか

Happy Horse 1.0は、プロンプト要素を位置に応じて異なる重みで扱います。プロンプトの冒頭にある要素は視覚的な被写体を固定します。末尾にある要素は、動きとカメラの挙動に最も大きな影響を与えます。これを知っていれば、最優先の指示を最も効果が出る位置に置けます。

位置ここに置くものなぜ重要か
冒頭被写体とアクションモデルが最初に描画する対象を固定する
中間環境と照明被写体やカメラと競合せずにシーンを設定する
末尾カメラ指示動きの挙動に最も高い重みが与えられる

すべてのプロンプトにすべての要素が必要なわけではありません。トーキングヘッドのショットなら、被写体とカメラだけで十分かもしれません。雰囲気重視のシーンなら、環境と照明がショットを支えます。上記の表は優先順位であって、チェックリストではありません。

実際の例を見てみましょう。

構造の実例

薄暗い工房でガラス職人が溶けたガラスを成形し、炉の輝きが顔を照らす、ゆっくりとしたドリーインでクローズアップへ。

被写体とアクション(ガラス職人が溶けたガラスを成形する)が冒頭に来ます。環境と照明(薄暗い工房、炉の輝き)が中間に置かれます。カメラ(ゆっくりとしたドリーインでクローズアップへ)は最も重みが与えられる末尾に来ます。

信頼できる結果を生むHappy Horse 1.0のカメラ指示

カメラ言語こそ、Happy Horse 1.0が他の動画モデルと一線を画す部分です。このモデルは単に汎用的な動きを加えるのではありません。具体的な映像撮影の用語を解釈し、明確で再現可能なカメラの挙動を生み出します。

カメラ指示生み出すもの相性が良い場面
Steadicam pushシーンを通り抜ける滑らかな前進移動歩く被写体、建築物の見せ方
ゆっくりとしたドリーインミドルからクローズへの段階的な移行感情的な場面、製品へのフォーカス
横方向の旋回視差の奥行きを伴う左右の弧製品紹介、ポートレート
ヘリコプター空撮ハイアングルの掃くような動き風景、街の状況説明ショット
固定フレーミング完全に静止したカメラ対話、インタビューの構成、料理コンテンツ
トラッキングショット動く被写体をカメラが追うアクションシーン、街のシーン
クレーンアップシーン全体を見せる垂直の上昇エンディング、トランジション、スケールの見せ方
ウィップパン被写体間の素早い水平スナップ勢いのあるカット、コメディのタイミング

これらを一貫して機能させるには2つのルールがあります。第一に、カメラ指示はプロンプトの末尾に置くこと。第二に、1ショットにつき1つの指示に絞ること、互換性があれば最大でも2つまで(例:「ゆっくりとしたドリーインを伴うトラッキングショット」)。3つ以上重ねると指示が矛盾し、Happy Horse 1.0はそれらを平均化してぼやけた結果にして矛盾を解消します。

Happy Horse 1.0のプロンプトで音声を演出する

Happy Horse 1.0は音声と動画を順番にではなく、同時に生成します。つまり、音声は映像の上に後から重ねられるものではありません。映像と並行して生成されるため、デフォルトで緊密に同期します。ただし「デフォルト」とは、指示を与えなければモデルが推測するという意味でもあります。

Happy Horse 1.0のプロンプトの音声部分は、映画のサウンドデザイナーがシーンを捉えるように、レイヤーで考えましょう。

レイヤー描写するもの
前景視聴者が気づくべき主要な音フランス語の対話:「Bonjour, comment ça va ?」
中景見える動作に結びついた音陶器のカップが触れ合う音、エスプレッソマシンのシューという音
背景空間を満たす環境音レストランの談笑の柔らかなざわめき、遠くの通りの車の音

すべてのプロンプトに3つのレイヤーが必要なわけではありません。製品ショットなら、中景だけで十分かもしれません。対話を含む物語的なシーンでは、3つすべてが説得力のある音響空間を作ります。

対話は引用符で囲み、言語を明示してください。Happy Horse 1.0は7言語(英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語)でネイティブのリップシンクに対応していますが、どの言語かを指定する必要があります。

Happy Horse 1.0のimage-to-video:見た目ではなく動きをプロンプトに

image-to-videoモードを使うとき、アップロードした画像がすでにシーンの見た目をHappy Horse 1.0に伝えています。その情報をプロンプトで繰り返すとトークンを浪費し、画像とテキストの間に矛盾を生むことがあります。

代わりに、変化する部分だけを描写しましょう。

プロンプトの焦点良いimage-to-videoプロンプトなぜ機能するか
カメラの動きゆっくりとした横方向の旋回、前景オブジェクトの視差静的な構図に奥行きと動きを加える
被写体の動き被写体が頭を右に向け、髪が風になびく被写体を描写し直さずに、何をアニメートするかをモデルに伝える
照明の変化日の出とともに光が冷たい青から暖かい金色へ移る画像だけでは伝えられない時間的な流れを作る
音声レイヤー環境音の海の波、遠くのカモメ本来なら無音のアニメーションにサウンドデザインを加える

経験則として、画像がすでに示しているなら書かないこと。画像が示せないもの(動き、音、時間の経過)こそ、あなたのHappy Horse 1.0プロンプトの役割です。

Happy Horse 1.0のマルチショットプロンプト

Happy Horse 1.0は、ネイティブのマルチショット生成を備えた唯一のAI動画モデルです。単一のプロンプトで、キャラクター、設定、音声がカットをまたいで保たれる、まとまりのある一連のショットを生成できます。これは広告クリエイティブ、短い物語シーケンス、手動編集なしで視覚的な連続性を必要とするあらゆる出力に役立ちます。

各ショットを時間範囲付きのラベルされたビートとして構成しましょう。

連続性のあるマルチショット

ショット1(0-2秒):日差しの差し込む店内で花束を整える花屋のワイドショット、アコースティックギターの環境音。 ショット2(2-5秒):花束をカウンターへ運ぶ彼女を追うミディアムのトラッキングショット、フローリングを歩く足音。 ショット3(5-8秒):客の前に置かれた完成した花束のクローズアップ、柔らかな笑い声、自然な部屋の空気感。

各ショットには独自のカメラ指示と音声の手がかりが与えられます。Happy Horse 1.0は花屋の外見、店内の環境、音声の流れを3つすべてにわたって維持します。各ビートに異なるカメラアングルを与えると、1回の連続した撮影ではなく、編集されたシーケンスのように感じられる結果になります。

Happy Horse 1.0でよくある間違いとその直し方

間違い起きること直し方
60語を超えるプロンプト顔がぶれ、動きが平坦になり、手が形を失う20語に削る。シーンにもっと必要ならタイムコード付きのマルチショットを使う
Booru形式のタグの羅列同じ内容を文章にした場合よりモデルの性能が落ちるタグを平易な英語の文章に書き直す
JSONや重み付き括弧モデルが構造を無視するか誤解釈するすべての書式構文を取り除き、自然に書く
曖昧な語(「シネマティック」「壮大」)出力に意味のある効果がない具体的な技法に置き換える(「ゆっくりとしたドリーイン」「暖かい琥珀色の逆光」)
カメラ指示を3つ以上重ねる指示が衝突し、平均化されて凡庸な動きになる強い指示を1つ、多くても2つ選ぶ
image-to-videoモードで画像を描写し直す画像とテキストの矛盾、トークン予算の浪費動き、音、照明の変化だけを描写する
音声の指示がないモデルが映像から推測し、しばしば凡庸になる少なくとも1つの音声レイヤー(前景または環境音)を加える

Happy Horse 1.0とは

Happy Horse 1.0は、AlibabaのTaotian Future Life Labが構築した150億パラメータのAI動画生成モデルです。テキスト、画像、動画、音声のトークンを一緒に処理する統合40層シングルストリームTransformerアーキテクチャを使用し、1回のフォワードパスから動画と同期した音声を生成します。このモデルはオープンソースです。

Happy Horse 1.0は現在、Artificial Analysis Video Arenaのtext-to-videoとimage-to-videoの両ベンチマークで第1位を占めています。4つの生成モード(text-to-video、image-to-video、動画編集、reference-to-video)に対応し、最大1080pの出力、5~8秒のクリップ、7言語のネイティブリップシンクをサポートします。

Happy Horse 1.0の主な機能

機能詳細
アーキテクチャ統合40層シングルストリームTransformer、150億パラメータ
モードText-to-video、image-to-video、動画編集、reference-to-video
出力解像度最大1080p
クリップの長さ5~8秒
音声ネイティブの同時生成(対話、効果音、環境音)
リップシンク対応言語英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語
アスペクト比16:9、9:16、4:3、21:9、1:1
速度H100で1080pクリップを約30秒(DMD-2による8ステップのデノイズ)
オープンソースはい

業界がHappy Horse 1.0について語っていること

Happy Horse 1.0は、誰が構築したのか分かる前から話題になりました。このモデルは2026年4月7日にArtificial Analysis Video Arenaに匿名で登場し、数日のうちにtext-to-videoとimage-to-videoの両ランキングで第1位に上り詰めました。これはすべて、どのモデルが判定対象の出力を生成したのか知らないユーザーたちのブラインド選好投票によるものでした。

3日後にAlibabaが所有を認めたとき、すでに市場を動かした後でした。Alibaba株は憶測だけで最大8%上昇しました。Jefferiesのアナリスト、Thomas Chong氏はその週のノートで、このモデルをAlibabaにとっての「成功」と評しました。Bloombergは「AlibabaのHappy Horse AIモデルが中国に動画制作の王座をもたらす」という見出しを掲げました。

Artificial Analysisのリーダーボードでは、Happy Horse 1.0はtext-to-video(音声なし)リーダーボードでEloレーティング1,374を保持しており、ByteDanceのSeedance 2.0の1,273を101ポイント上回っています。ブラインドの動画生成ベンチマークにおいて、この規模の差は大きな意味を持ちます。

MorphicでHappy Horse 1.0を試す

プロンプトのテクニック、カメラの語彙、音声の演出方法は揃いました。Happy Horse 1.0の結果を確かめる最も早い方法は、自分で試してみることです。

よくある質問

Happy Horse 1.0に最適なプロンプトの長さは?

ほとんどの単一ショットでは約20語です。統合アーキテクチャでは各トークンがレンダリングのキャパシティを奪い合うため、具体的な細部を持つ短いプロンプトが長いものを一貫して上回ります。複数のビートを持つ複雑なシーンでは、1つの長い段落を書くのではなく、タイムコード付きのマルチショット形式を使ってください。

Happy Horse 1.0は音声を自動的に生成しますか?

はい。音声と動画は同じフォワードパスで生成されるため、デフォルトで同期します。プロンプト内で特定の音、対話、環境音のレイヤーを描写することで音声を演出できます。音声の指示を省くと、モデルは映像から推測した音を生成します。

Happy Horse 1.0はリップシンクでどの言語に対応していますか?

7言語です:英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語。視覚的に最高の結果を得るにはプロンプトを英語で書き、対話の言語をプロンプト内で指定してください(例:「韓国語の対話:『...』」)。

Happy Horse 1.0をimage-to-videoに使えますか?

はい。画像をアップロードし、画像の内容を描写し直すのではなく、求める動きをプロンプトで指定してください。Morphicでは、image-to-videoモードは動画ジェネレーターから直接利用できます。

Happy Horse 1.0は製品動画に向いていますか?

製品ショットはその最も得意とする出力の一つです。被写体の安定性はクリップ全体を通して非常に高く、横方向の旋回やドリーインの指示は洗練された製品紹介の結果を生み出します。最良の出発点として、製品写真を使ったimage-to-videoモードを利用してください。

Happy Horse 1.0の生成全体でキャラクターを一貫させるには?

同じ参照画像をすべてのクリップに渡し、被写体の説明をプロンプト間で一字一句同じに保ってください。より長いシーケンスでは、マルチショット形式を使うことで、別々の生成にわたって組み立て直すのではなく、1回の生成内でキャラクターの同一性が維持されます。