Kling 3.0は、Kuaishouが開発したAI動画生成モデルで、単一のテキストプロンプトからネイティブ音声付きのマルチショット映画的シーケンスを生成します。ストーリーボードレベルの制御を提供する初の動画モデルであり、個々のショット、カメラアングル、キャラクターのダイアログまで1回の生成でまとめて指定できます。本ガイドでは、最良の結果を得るためのKling 3.0のプロンプト方法、Kling 2.6からの変更点、機能の全リスト、技術仕様、そしてさまざまなクリエイティブ・コマーシャルワークフローでの位置付けを解説します。概要と生成を始める手順については、Kling 3.0 モデルページ をご覧ください。
Kling 3.0 とは?
Kling 3.0は、Kuaishouが2026年2月にリリースした動画生成モデルです。先行する2つのモデル、Kling Video 2.6とKling O1を統合し、単一のアーキテクチャにまとめ直して構築されました。Video 2.6はモーションコントロール付きのテキストから動画・画像から動画の生成を担い、Kling O1はビジュアル品質と一貫性にフォーカスしていました。Kling 3.0はこの両方を1つのモデルに統合し、動画・音声・エレメントの一貫性を1回のパスで生成します。
結果として、このモデルはクリップジェネレーターというより、シーンのディレクターに近い動きをします。プロンプトで物語を記述すると、Kling 3.0がショットを計画し、カメラアングルを割り当て、リップシンク付きのダイアログを生成し、すべてのカットにまたがってキャラクターの見た目を一貫させます。出力は3〜15秒の長さに対応し、ネイティブ4Kまでの解像度で生成可能です。
MorphicではKling 3.0が動画生成スイートの一部として利用でき、Morphicの画像・音楽・音声ツールと同じワークスペースで扱えます。複数フォーマットにわたるアセットが必要なプロジェクトで特に便利です。
Kling 3.0 のプロンプトの書き方
プロンプトの書き方が、出力を大きく左右します。Kling 3.0は動画モデルであり、見た目だけでなく、動き、タイミング、カメラ演出に反応します。良い結果を生むプロンプトは、写真のキャプションというより、短編映画のシーン記述のように読めるものです。
ここでは、さまざまな種類の動画コンテンツで安定した結果を得るためのプロンプトフレームワークを紹介します。
1. カメラ用語で書き始める
プロンプトの最初の言葉が、生成全体のビジュアルトーンを決めます。Kling 3.0は映画用語を理解し、直接それに反応します。他の要素を描写する前にカメラの具体的な挙動を名付けることで、モデルの視覚的アプローチが安定します。
| 悪いプロンプト | 良いプロンプト |
|---|---|
| 「夜の街を歩く女性、映画のような雰囲気」 | 「夜、雨で濡れた街路を歩く黒いコートの女性を追う手持ちのトラッキングショット、舗装に映るネオンの反射、浅い被写界深度」 |
1つ目のプロンプトは、カメラの挙動をすべてモデル任せにしています。2つ目は、手持ちで、トラッキングし、被写体を追うというようにカメラの動きを明確に指定しています。また、環境の具体的な描写によってライティングやムードの手がかりが与えられています。
Kling 3.0が反応しやすいカメラ用語:トラッキングショット、オービタルパン、マクロクローズアップ、POV、ウィップパン、スロープッシュイン、静的なワイドショット、軽くドリフトする手持ち撮影など。
2. マルチショットのプロンプトはショットごとにラベル付けする
1回の生成で複数のカメラアングルを盛り込みたいときは、各ショットに明示的にラベルを付けます。Kling 3.0のカスタムマルチショットモードでは、ショット数、各ショットの長さ、フレーム内の出来事を定義でき、ショットラベルが明確であるほどモデルはそれに忠実に従います。
| 悪いプロンプト | 良いプロンプト |
|---|---|
| 「男性がレストランで注文し、店員が料理を運び、男性が食べる」 | 「ショット1:ネイビーのシャツを着た男性がレストランのテーブルに座り、メニューに目を通すミディアムショット、暖色の室内照明。ショット2:男性の手にあるメニューのオーバー・ザ・ショルダークローズアップ、指が1つのアイテムを指している。ショット3:店員が皿を持ってテーブルに近づくワイドショット、男性が顔を上げる。ショット4:テーブルに皿が置かれるクローズアップ、料理から湯気が立ち上る。」 |
1つ目のプロンプトは出来事の流れを記述しているだけで、ビジュアルの指示がありません。2つ目はナラティブを明確なショットに分解し、それぞれにフレーミング、被写体の位置、ビジュアルの詳細を与えています。これこそがカスタムマルチショットモードの本来の使い方です。
3. 話者とダイアログを直接タグ付けする
ダイアログのあるシーンでは、どのキャラクターがどの台詞を話しているかをKling 3.0に伝える必要があります。明示的なタグ付けがないと、特に3人以上が登場する場面で、モデルが声を別の顔に割り当ててしまったり、話者の取り違えが起きたりします。
| 悪いプロンプト | 良いプロンプト |
|---|---|
| 「2人がカフェのテーブルに座り、週末の予定について話し、ハイキングに行くか街に残るかを相談する」 | 「白いブラウスを着た若い女性とグレーのジャケットを着た男性が屋外のカフェのテーブルに座っている。女性はコーヒーカップを持ち上げて『土曜日はコースタルトレイルに行ってみようかと思うんだけど』と言う。男性は背もたれに寄りかかり『いいね、でも暑くなる前に早めに出発した方がいい』と返す。」 |
1つ目のプロンプトは会話のトピックを要約しているだけで、実際のダイアログや話者の識別情報がありません。2つ目は各キャラクターを身体的な特徴と具体的な台詞とペアにしているため、モデルがリップシンクと声を正しい顔に合わせられます。
4. 参照画像でキャラクターを固定する
参照画像をアップロードすると、Kling 3.0はそれを生成全体を通じた視覚的なアンカーとして利用します。これはキャラクターの見た目をテキストだけで描写するより信頼性が高く、特に複数ショットや別々の生成にまたがって一貫性を維持したい場合に有効です。
リファレンスを最大限活かすには以下の点を意識してください。
- 可能であればキャラクターを複数のアングルから写した2〜4枚の参照画像をアップロードする。モデルが固定すべき視覚情報が増えます。
- 動画リファレンスをアップロードすると、モデルはキャラクターの外見と自然な声色の両方を抽出し、生成全体を通じて両方を一貫させます。
- 商品動画では、商品画像をリファレンスとしてアップロードすると、カメラ移動中もブランド、テキスト、色合いが一貫します。
5. 時間の流れの中での動きとアクションを描写する、静止シーンではなく
動画モデルにプロンプトを書くときに最も多い失敗は、写真を描写するようなプロンプトを書いてしまうことです。Kling 3.0は動きを生成するので、プロンプトでは、被写体がどう動き、カメラがどう反応し、シーンがどう展開するか、クリップの長さの中で物事がどう変化していくかを記述する必要があります。
| 悪いプロンプト | 良いプロンプト |
|---|---|
| 「ベルベットの上に置かれた香水瓶、柔らかなライティングとバラの花びら」 | 「ダークベルベットの上に置かれたガラスの香水瓶の周囲をカメラがゆっくりとオービット、フレームに入ってくるにつれて柔らかなゴールデンライトがボトルのファセットに反射し、散りばめられたバラの花びらが空気の動きに合わせてかすかに揺れる、カメラは広いフレーミングから徐々にラベルのクローズアップへと寄っていく」 |
1つ目のプロンプトは静止画を描写しています。2つ目は、カメラがどう動き、光が時間の流れの中で被写体とどう作用し、フレーミングがどう変化するかを描写しています。これによってモデルは従うべき明確なモーションパスを得られます。
Kling 3.0 の新機能
Kling 3.0は、Kling Video 2.6からの大幅なアップグレードです。公式のKling 3.0モデルドキュメントに基づく変更点を、以下の表にまとめます。
| 機能 | Kling Video 2.6 | Kling Video 3.0 |
|---|---|---|
| テキストから動画 | 対応 | 対応 |
| 画像から動画 | 対応 | 対応 |
| 開始・終了フレームから動画 | 対応 | 対応 |
| ネイティブ音声 | 対応 | 対応 |
| マルチショット生成 | 非対応 | 対応 |
| 開始フレーム+エレメントリファレンス | 非対応 | 対応 |
| マルチキャラクターの相互参照(3人以上) | 非対応 | 対応 |
| 多言語対応(中国語、英語、日本語、韓国語、スペイン語) | 非対応 | 対応 |
| 方言とアクセント | 非対応 | 対応 |
| 15秒の出力長 | 非対応 | 対応 |
| 柔軟な長さ(3〜15秒) | 非対応 | 対応 |
| ネイティブ4K解像度 | 非対応 | 対応 |
特に大きな追加はマルチショット生成とエレメントリファレンスシステムです。マルチショットでは1回の生成で最大6つのカメラカットが可能になり、個別のクリップを生成して手作業でつなぎ合わせる必要がなくなります。エレメントリファレンスシステムでは、キャラクターの外見と声色を再利用可能なエレメントにバインドでき、ショット間だけでなく、別々の動画生成間でも一貫性を持たせられます。
方言・アクセントレンダリングを含む多言語対応も新機能です。Kling 2.6もネイティブ音声をサポートしていましたが、3.0ではそれを5言語に拡張し、特定のアクセント(英語のアメリカ・イギリス・インド、中国語の広東語・東北語・北京語・四川語・台湾語)の再現や、同一シーン内でのコードスイッチングにも対応しました。
Kling 3.0 の機能
マルチショットのストーリーボード生成
Kling 3.0はマルチショット動画に2つのモードを用意しています。自動モードでは、マルチショットのトグルを有効にすると、モデルがシーン記述を読み取り、カメラ遷移、ショットのフレーミング、テンポを自ら計画します。カスタムモードでは、各ショットを個別に定義し、長さ、カメラアングル、ナラティブの内容を指定すると、モデルはストーリーボードに正確に従います。
カスタムモードは、商品広告やダイアログシーケンスのように、各カットのタイミングが重要な構造化コンテンツに特に有用です。自動モードは、ナラティブなプロンプトを解釈してモデルに視覚的なカバレッジを任せたいときに向いています。
キャラクター別音声バインディング付きのネイティブ音声
動画と音声は1回のパスで生成されます。モデルはリップシンク付きのダイアログを生成し、キャラクターとダイアログをプロンプト内でペアにすることで、どのキャラクターがどの台詞を話すかをコントロールできます。基本的なリップシンクにとどまらず、Kling 3.0は声色がバインドされたキャラクターエレメントを作成できます。いったんキャラクターエレメントに声をバインドすると、そのキャラクターが登場するたびに再指定することなく同じ声が維持されます。
モデルは英語、中国語、日本語、韓国語、スペイン語でのダイアログに対応し、方言・アクセントのサポートと同一シーン内での多言語コードスイッチングも扱えます。
エレメントリファレンスシステム
2〜4枚の参照画像、または短い参照動画をアップロードして、再利用可能なキャラクターエレメントを作成できます。キャラクターエレメントには、オーディオのアップロードや用意された音声からの選択で声色を割り当てることも可能です。プロンプトでエレメントを使うと、モデルはキャラクターの外見と声を動画全体で固定し、カメラワーク、シーン切り替え、マルチショットを挟んでも一貫性を保ちます。
このシステムは同じフレーム内に3人以上の異なるキャラクターを登場させても特徴が混ざらないため、ダイアログシーンや複数人が登場する動画に欠かせません。
テキストとロゴの保持
モデルはアップロードされた画像内のテキスト(看板、商品ラベル、ロゴなど)を認識し、動画全体を通じてテキストの一貫性を維持できます。動画内で新しいテキストを生成することも可能です。連続するカメラワークの最中もテキストが読みやすく保たれるため、ブランド要素をシャープで読みやすく残したいコマーシャルコンテンツに適しています。
柔軟な長さと解像度
Kling 3.0は1回のパスで3〜15秒の動画を生成し、ネイティブ4Kまでの解像度に対応します。長さの拡張により、より複雑なナラティブの展開、シーン遷移、短いクリップでは収まらないアクションシーケンスに十分な時間を確保できます。解像度は1080pと720pも選べます。
Kling 3.0 の技術仕様
| 項目 | 詳細 |
|---|---|
| 生成モード | テキストから動画、画像から動画、開始・終了フレームから動画 |
| 最大長 | 15秒 |
| 最短長 | 3秒 |
| 最大解像度 | ネイティブ4K |
| その他の解像度 | 1080p、720p |
| アスペクト比 | 16:9、9:16、1:1 |
| マルチショット | 1回の生成で最大6カット |
| マルチショットのモード | 自動(モデルがショットを計画)とカスタム(ユーザーが各ショットを定義) |
| ネイティブ音声 | リップシンク付きダイアログ、声色コントロール |
| 対応言語 | 英語、中国語、日本語、韓国語、スペイン語 |
| 方言とアクセントの対応 | 対応(中国語・英語の方言、地域アクセント) |
| コードスイッチング | 対応(1つのシーンで複数言語) |
| キャラクターエレメント | 2〜4枚の画像または動画リファレンスから作成 |
| 音声バインディング | キャラクターエレメントに声色をバインド |
| マルチキャラクターの相互参照 | 同一フレームに3人以上の異なるキャラクター |
| テキスト保持 | アップロード画像のテキストを読み取り、保持 |
| モデル系譜 | Kling Video 2.6 と Kling O1 を統合 |
| リリース日 | 2026年2月 |
Kling 3.0 のユースケース
ショートフィルムとナラティブクリエイター
マルチショット生成は、ショート形式のナラティブコンテンツでKling 3.0が特に有用な理由です。ショット・リバースショットのダイアログ、エスタブリッシングショット、クローズアップを組み合わせた完結したシーンを1回のパスで生成できます。短編ドラマ、マイクロシリーズ、ストーリー重視のソーシャルコンテンツを制作するクリエイターにとって、個別のクリップを生成してつなぎ合わせる手作業が不要になります。最大6カット・15秒の長さは、1回の生成の中に序盤・中盤・落ちを収めるのに十分な余裕があります。
商品・EC動画
商品広告では、カメラがオブジェクトの周りを動きつつ、ブランドテキストとロゴをシャープに保つ必要があります。Kling 3.0のテキスト保持はこれをネイティブに処理し、オービットやトラッキング中もラベルを読みやすく維持します。エレメントリファレンスシステムと組み合わせれば、商品のビジュアルアイデンティティを固定したまま、カメラアングル、ライティング、背景環境を変えた複数の広告バリエーションを、商品自体を一貫させながら生成できます。Morphicなら商品動画を生成した後、そのままワークスペース内でマッチするサムネイルやソーシャル向けアセットを作成できます。
ソーシャルメディアのコンテンツチーム
柔軟なアスペクト比(16:9、9:16、1:1)と素早いイテレーションの組み合わせにより、フォーマットごとに別々の制作ワークフローを用意せずとも、プラットフォームに合わせた動画コンテンツを生成できます。ここでは自動ストーリーボード付きのマルチショットモードが便利で、コンテンツのコンセプトを記述するだけで、モデルがショット構成を組み立てます。Instagram、TikTok、YouTube Shorts、フィード投稿で大量のバリエーションを作る必要があるチームにとって、制作サイクルは大幅に短縮されます。
多言語・ローカライズドコンテンツ
方言とコードスイッチングのサポートは、ほとんどのAI動画モデルが扱えないユースケースを開きます。プレゼンターが韓国語で話すトレーニング動画、登場人物が会話の途中で英語とスペイン語を切り替える観光広告、本物の地域アクセントを使ったソーシャルクリップなどが、自然なリップシンクと一貫した表情を伴って生成できます。複数市場をターゲットとするブランドにとっては、音声を録り直さずに同じプロンプト枠組みからローカライズド動画を生み出せる、ということを意味します。
Morphicでは、Kling 3.0とプラットフォームの画像・音声ツールを組み合わせ、動画からサムネイル、バックグラウンドミュージックまで、複数のアプリケーションを切り替えることなく完結したコンテンツパッケージを作れます。
よくある質問
Kling 3.0はMorphicで利用できます。Morphicのプランにサインアップし、プロンプトバーからVideoモードを選び、モデルのドロップダウンでKling 3.0を選択してください。画像・音楽・音声の生成ツールと同じワークスペースに用意されているので、複数のコンテンツタイプをまたいで1か所で作業できます。
どちらのモデルもテキストから動画・画像から動画を扱いますが、ターゲットとするユースケースが異なります。Kling 3.0はマルチショットのストーリーボードとネイティブ音声を備えたコアの生成モデルです。Kling 3.0 Omniはそれを拡張し、より深いエレメント一貫性コントロール、動画ベースのキャラクターリファレンス、声色のバインディングを提供します。1つのプロンプトから完成度の高い単独動画が必要ならKling 3.0、同じキャラクターが複数の生成にまたがって登場するシリーズを作るならOmniが適しています。
モデルは英語、中国語、日本語、韓国語、スペイン語の5言語でリップシンク付きのダイアログを生成します。基本的な言語対応に加え、特定の方言・アクセントを再現でき、英語ではアメリカ・イギリス・インド、中国語では広東語・東北語・北京語・四川語・台湾語に対応します。登場人物が同じクリップ内で会話の途中に言語を切り替えることも可能です。
マルチショットは1本の動画の中で最大6つの異なるカメラカットを生成します。選択肢は2つあり、自動モードではモデルがプロンプトに基づいてショット遷移を計画し、カスタムモードでは各ショットのフレーミング、長さ、カメラアングルを自分で定義します。カスタムモードでは、モデルはストーリーボードに正確に従います。自動モードでは、ナラティブを解釈して最適なショットカバレッジを判断します。どちらのモードでも、すべてのカットを通じてキャラクターの一貫性が維持されます。
最大解像度はネイティブ4K、つまりアップスケールではなく最初からその解像度で生成されます。生成を高速化したりファイルサイズを抑えたりしたい場合は1080pと720pも利用できます。長さは1回の生成につき3〜15秒です。対応アスペクト比は16:9、9:16、1:1で、ワイドスクリーン、縦型、スクエアの各フォーマットをカバーします。


