Morphicで使うKling 3.0:機能、マルチショット動画、ネイティブ音声

MorphicでKling 3.0を使い、映画のようなAI動画を生成。マルチショットのストーリーボード、ネイティブ4K、ビルトイン音声、1クリップ最大15秒に対応。

Morphicで使うKling 3.0:機能、マルチショット動画、ネイティブ音声

Kling 3.0は、テキストプロンプトから演出された動画シーケンスを生成するAI動画モデルです。Kuaishouが開発し、2026年2月にリリースされました。これまでは別々のツールと手作業の編集が必要だった、最大6つのカメラカットで構成されるマルチショットのストーリーボード、5言語でのリップシンク対応ダイアログによるネイティブ音声、あらゆるアングルを通じて保たれるキャラクターの一貫性、こうしたものを一気通貫で処理します。出力はネイティブ4K解像度まで対応し、長さも3秒から15秒まで柔軟に選べます。Morphicでは、画像・音楽・音声生成の全機能と並んで利用できます。

MorphicでKling 3.0を使う方法

1. Videoモードを選択する

プロンプトバーからVideoモードを選びます。インターフェースが動画生成用に切り替わり、解像度、長さ、ネイティブ音声の有無などの設定が行えます。

2. モデルに Kling 3.0 を選ぶ

モデルのドロップダウンを開き、利用可能な動画モデルの一覧からKling 3.0を選択します。Morphicには複数の動画モデルが用意されているため、プラットフォームを切り替えることなく、異なるジェネレーターの出力を比較できます。

3. プロンプトを入力する

生成したいシーンを記述します。被写体、環境、カメラワーク、ライティング、ダイアログなどの詳細を含めると効果的です。写真家ではなくディレクターのように考え、静止したフレームだけではなく時間の流れの中で何が起きるかを描写します。複数のショットが必要な場合は、マルチショットのトグルをオンにするか、プロンプト内で各ショットにラベルを付けます。

4. 生成する

プロンプトを実行します。Kling 3.0は3〜15秒の動画クリップを生成し、有効化すればネイティブ音声も一緒に出力します。結果を確認し、必要に応じてプロンプトを調整し、狙い通りのクリップになるまで再生成できます。

Kling 3.0 とは?

Kling 3.0は、Kuaishouが2026年2月にリリースした最新のAI動画生成モデルです。Kling Video 2.6とKling O1という2つの先行モデルを統合し、動画・音声・テキストを1回の生成で扱う統一されたマルチモーダルアーキテクチャにまとめ直した後継です。

これまでのAI動画モデルは、音声なしの単独ショットを単発で生成するだけでしたが、Kling 3.0はシンクロしたダイアログとネイティブ音声出力を伴うマルチショットのシーケンスを生成します。モデルは映画の文法(トラッキングショット、クローズアップ、ショット・リバースショットなど)を理解し、プロンプトで物語を記述すれば、シーンの切り替えを自ら計画することもできます。

Kling 3.0はMorphicのマルチモデル動画生成スイートの一部として提供されており、同じワークスペース内でMorphicの画像・音楽・音声ツールと併用できます。

Kling 3.0 の機能と特長

2つの制御モードを備えたマルチショットのストーリーボード生成

これは、現時点で他のどのAI動画モデルとも一線を画すKling 3.0の機能です。1回の生成で最大6つのカメラカットを生成し、2通りの方法でコントロールできます。

  • 自動マルチショット:マルチショットのトグルをオンにすると、プロンプトの内容に基づいてモデル自身がショット遷移を計画します。シーン記述を読み取り、どこでカットを切るか、どのアングルを使うか、シーケンスをどんなテンポで進めるかを決定します。
  • カスタムマルチショット:各ショットを手動で定義します。ショット数、それぞれの長さ、カメラアングル、フレーム内の出来事を指定すると、モデルはストーリーボード通りに正確に追従します。

自動モードは、ナラティブなプロンプトから素早く結果を得たいときに便利です。カスタムモードは、ショットごとのタイミングまで精密にコントロールしたい場合、たとえばショット単位のテンポが決まった商品広告を作るときに適しています。

音声バインディング付きのエレメントリファレンス

多くのAI動画モデルでは、参照画像をアップロードしてキャラクターの見た目を固定できます。Kling 3.0はさらに一歩進んで、短い動画クリップを参照としてアップロードすると、キャラクターの見た目だけでなく自然な声色もモデルが抽出します。その声色はキャラクターエレメントに紐付けられるため、そのキャラクターが動画内で話すたびに、プロンプトで毎回指定しなくても声が一貫します。

また、2〜4枚の参照画像からエレメントを作成し、別途オーディオのアップロードや用意された音声からの選択で声色を割り当てることもできます。これは、複数の動画生成にまたがって登場するリピートキャラクターに特に有効です。

方言、アクセント、多言語のコードスイッチング

Kling 3.0のネイティブ音声は、英語、中国語、日本語、韓国語、スペイン語の5言語に対応しています。基本的な多言語対応にとどまらず、中国語では広東語・東北語・四川語・北京語、英語ではアメリカ・イギリス・インドなど、特定の方言やアクセントの再現も可能です。

コードスイッチング、つまり同じ動画内で会話の途中に言語が切り替わるシーンも扱えます。バイリンガルのビジネスミーティング、片言のスペイン語で道を尋ねる観光客、方言が混ざる家族のシーンなども、自然なリップシンクと一貫した表情で生成されます。

ネイティブ4K動画出力

低解像度からのアップスケールではなく、ネイティブに最大4K解像度をサポートします。そのため、テクスチャや肌のディテール、生地の織りや髪の毛のような細部も、アップスケール特有のぼんやりと滑らかな見た目ではなく、本物の質感を保ちます。1080pと720pにも対応し、アスペクト比は16:9、9:16、1:1が利用可能です。

カメラ移動中もテキストとロゴを保持

Kling 3.0はアップロードされた画像内のテキスト(看板、商品ラベル、ロゴなど)を読み取り、カメラが動いても動画全体を通じてテキストを読みやすく保つことができます。動画の中で新しいテキストを生成することも可能です。ブランドのテキストが商品オービットやトラッキングショット中でもシャープに残る必要があるコマーシャル用途では、ポストプロダクションでテキストオーバーレイを乗せる手間がなくなります。

マルチショット全体にわたるキャラクターの一貫性

参照画像や短い参照動画をアップロードすると、モデルはクリップ全体を通じてキャラクターの外見を固定します。ズーム、パン、ティルトといったカメラワークを挟んでも、顔、衣装、プロポーション、特徴的なディテールが安定して維持されます。同じシーンに3人以上の異なるキャラクターを登場させても、特徴が混ざることはなく、ダイアログシーンや複数人が登場する動画でも破綻しません。

3〜15秒の柔軟な長さ

1回のパスで3〜15秒の連続した動画を生成できます。長く生成できること自体が重要なのではなく、より複雑なアクションの展開、シーン遷移の組み立て、物語のアークを5秒で切り上げずに描ききるだけの時間的余裕がモデルに生まれる、という点に価値があります。

よくある質問

Kling 3.0 は Morphic で利用できますか?

Kling 3.0はMorphicの動画生成スイートの一部として利用できます。生成を始めるには、Morphicのプランにサインアップし、プロンプトバーからVideoモードを選び、モデルのドロップダウンでKling 3.0を選択します。Morphicでは、Kling 3.0と画像・音楽・音声の生成ツールを同じ環境で使えるため、クリエイティブワークフロー全体を1か所で完結できます。

Kling 3.0 と Kling 3.0 Omni の違いは何ですか?

Kling 3.0は、マルチショットのストーリーボードとネイティブ音声を備えた、テキストから動画・画像から動画の生成をカバーするコアモデルです。Kling 3.0 Omniはそれを土台に、より強力なキャラクター一貫性コントロールと、動画リファレンスを使って特定のキャラクターに声色をバインドする機能が加わります。多くの動画生成のニーズにはKling 3.0が出発点として適しており、複数の生成にまたがるキャラクターの一貫性が特に重要な場合はOmniが有力な選択肢になります。

音声はどの言語やアクセントに対応していますか?

Kling 3.0は、英語、中国語、日本語、韓国語、スペイン語の5言語でリップシンク対応のダイアログを生成します。標準的な言語対応にとどまらず、英語ではアメリカ・イギリス・インドのアクセント、中国語では広東語・東北語・北京語・四川語・台湾語などの方言を再現できます。同じクリップの中で、会話の途中に言語を切り替えるシーンにも対応します。

Kling 3.0 がサポートする解像度と長さは?

出力はネイティブ4K解像度まで対応し、1080pと720pも利用可能です。1回の生成の長さは3〜15秒の範囲で設定できます。アスペクト比はワイドスクリーン向けの16:9、縦型ソーシャル向けの9:16、スクエア向けの1:1に対応しています。

Kling 3.0 でより良い結果を得るには?

画像プロンプトから動画プロンプトに変わるときの最大のポイントは、見た目ではなく動きを描写することです。出力品質を高めるコツをいくつか紹介します。

  • カメラ用語で書き始める。プロンプトの冒頭に「手持ちのトラッキングショット」「ゆっくりとしたオービタルパン」などと書くと、生成全体のビジュアルトーンが決まります。
  • マルチキャラクターのシーンでは話者を明示的にタグ付けする。プロンプト内で各キャラクターとそのダイアログを直接ペアにすることで、モデルが声と顔を正しく対応させられます。
  • 各ショットの長さ、フレーミング、カメラアングルを精密にコントロールしたいときは、カスタムマルチショットモードを使う。
  • キャラクターの一貫性のために参照画像や動画をアップロードする。見た目と声色を紐付けたエレメントを作ると、繰り返し登場するキャラクターに対してモデルが具体的なアンカーを得られます。

Morphicなら、ワークスペースを離れずにプロンプトを調整して再生成するサイクルを素早く回せます。プロンプト例を含むさらに詳しい解説は、Kling 3.0 完全ガイド をご覧ください。

chair
ストーリーに命を吹き込む
ダウンロード不要、インストール不要。Morphicを使ってアイデアを美しく仕上げられたストーリーに変えるクリエイターの成長するコミュニティに参加しましょう。