Kling O3
Kling O3とは?
Kling O3はKlingの最上位バージョンで、複数のカメラカット、合った音を備えた4K動画を生成でき、参照動画から実在の人物の外見と声をコピーして、新しいAI生成シーン全体で一貫して再現する機能を持っています。
ひと目で分かる
- Type of model
- 統合されたマルチモーダルのAI動画生成・編集モデル
- Developed by
- Kuaishou Technology
- Key capability
- 60fpsの4K出力、視覚的Chain-of-Thought推論、参照動画ベースのキャラクターと声のクローニング、最大6カットのマルチショットのストーリーボード、リップシンク付きのネイティブな多言語音声
- How it fits in AI workflow
- 高忠実度のマルチショット物語動画のための完全なAI制作システムとして機能し、別々の生成、キャラクターの一貫性、音声、編集のツールを単一の統合ワークフローに置き換える
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
Kling O3 対 Kling 3.
プロのヒント
キャラクターのクローニングのためにKling O3の参照動画抽出を使うときは、ニュートラルなライティングで顔がはっきり見え、自然なスピーチのある参照クリップを録画または選択してください。参照が鮮明であるほど、モデルは声の音色、話すリズム、視覚的な外見を、新たに生成するシーン全体でより正確に抽出・再現します。
種類とバリエーション
- Kling O3(Video 3.
- 0 Omni)はKling 3.
- 0シリーズの高度な階層で、標準のVideo 3.
- 0モデルを補完します。主な違いは、Kling O1のElements機能から派生した包括的な参照ベースの生成システムで、O3では参照動画からの声の特性の抽出を含むよう大幅に拡張されています。Kling 3.
- 0シリーズには、2Kと4Kの超高精細出力に対応する付随的な画像生成モデルのImage 3.
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
Kling O3は、複数のショットやシーンにわたって一貫したキャラクターを必要とするプロフェッショナルなAI映画制作、持続的なキャラクターのアイデンティティと声を持つブランドコンテンツ制作、異なる言語バージョン間で自然なリップシンクを備えた多言語広告、マルチショットの監督的制御の恩恵を受ける物語短編映画の制作、放送品質の4K AI動画出力を必要とする企業メディア制作に使われています。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
O3はOmni 3を意味し、Kling O3がKuaishouのOmniマルチモーダルモデルラインの第3世代であることを反映しています。Kling O1に続くもので、音声機能、解像度、参照ベースの生成において前モデルから大きく進歩しています。
Kling O3はKling AI 3.0モデルシリーズの一部として2026年2月4日にリリースされました。
視覚的Chain-of-Thought(vCoT)推論は、モデルが生成する前にシーンを分析・計画することを意味します。プロンプトを構成要素に分解し、カメラの動きを計画し、ライティングの一貫性を評価し、空間関係をモデル化します。そして、この生成前の推論を使って、より整合性が高く物理的に正確な動画出力を生成します。
Kling O3は参照動画を入力として受け入れ、それを使ってキャラクターの視覚的な外見、動きのスタイル、声の特性、話すリズムを抽出できます。これらの抽出された特性は新たに生成するシーン全体で一貫して適用され、各ショットで外見の詳細を再プロンプトすることなく、忠実度の高いキャラクター再現を可能にします。
Kling O3は、60フレーム毎秒のネイティブ4K解像度までの出力に対応しており、2026年初頭時点でAI動画生成モデルの中でも最高品質の出力の一つです。
Kling O3は、英語、中国語、日本語、韓国語、スペイン語を含む複数の言語に対応しており、アメリカ英語、イギリス英語、インド英語のバリアントを含む地域的なアクセントのサポートも備えています。
Kling O1は統合されたMVLマルチモーダルアーキテクチャを切り開き、参照ベースのElementsシステムを導入しました。Kling O3はこれを大幅に拡張し、ネイティブ音声生成、最大15秒へのクリップ長の延長、4K解像度、最大6カットのマルチショットのストーリーボード、参照動画からの視覚と声の両方の特性の抽出機能を追加しました。これらはO1にはなかった機能です。