目次
- Seedance 2.0 とは?
- Seedance 2.0 vs Kling vs Veo vs Sora:機能比較
- 主な機能と能力
- Seedance 2.0 の入力仕様を理解する
- Seedance 2.0 マルチモーダル参照の使い方
- Seedance 2.0 の高度な機能
- Seedance 2.0 のユースケースと例
- Seedance 2.0 のベストプラクティス
- まとめ
- よくある質問
Seedance 2.0 とは?
Seedance 2.0 は ByteDance の高度なマルチモーダル AI 動画モデルで、画像・動画・音声・テキスト入力を組み合わせ、これまでにないクリエイティブコントロールを実現します。本ガイドでは Seedance を Kling、Veo、Sora と比較し、Morphic 上でマルチモーダル動画ワークフローを習得する方法を解説します。
従来のテキストのみに依存する text-to-video モデルと異なり、Seedance 2.0 では視覚・音声の参照を通じて AI に望む表現を直接示せます。スタイルと構図を決める参照画像のアップロード、望むカメラワークや動きを示す動画クリップ、ムードとリズムを決める音声の追加、そして詳細なテキストプロンプトによるクリエイティブ指示の組み合わせが可能です。
プロフェッショナル動画制作における Seedance 2.0 の利点
Seedance 2.0 は、AI 動画生成の根本的な限界である「説明とビジョンのギャップ」を解消します。複雑なカメラワーク、キャラクターのディテール、ビジュアルエフェクトを言葉で説明する代わりに、直接例を示せます。このマルチモーダルアプローチにより、以下が実現します。
- 画像参照による正確なビジュアルコントロール
- 動画参照による正確なモーション再現
- 音声連携によるリズムとムードの同期
- 複数ショットにわたる一貫したキャラクターとスタイル
- 連続性を保った複雑なシーン転換
モデルは複数種類の参照を同時に理解・組み合わせることに優れており、商用制作、コンテンツ制作、プロの動画ワークフローで特に価値があります。
Seedance 2.0 vs Kling vs Veo vs Sora:機能比較
AI 動画生成ツールを選ぶ際は、各プラットフォームの具体的な能力を理解することが重要です。Seedance 2.0 と主要な代替ツールの比較は以下のとおりです。
| 機能 | Seedance 2.0 | Kling 3.0 | Veo 3.1 | Sora |
|---|---|---|---|---|
| マルチモーダル入力対応 | 画像、動画、音声、テキスト | 画像、動画、音声、テキスト | 画像、テキスト | 画像、テキスト |
| 最大動画長 | 最大 15 秒 | 最大 15 秒 | 最大 8 秒(60 秒以上に延長可能) | 最大 60 秒 |
| 音声連携 | 音声の直接アップロードと参照 | リップシンク・多言語台詞対応のネイティブ音声 | 効果音・台詞対応のネイティブ音声 | テキストから音声のみ |
| 動画参照能力 | モーション・カメラの完全再現 | AI ディレクター付きのモーション・カメラ再現 | スタイル転送と参照画像(最大 3 枚) | 限定的 |
| 公開状況 | Morphic で利用可能 | 一般公開 | 限定提供(Gemini アプリ、Flow、API) | 限定ベータ |
主な違い:
マルチモーダルの柔軟性:Seedance 2.0 と Kling 3.0 はどちらも動画・音声ファイルの直接アップロードを含む包括的なマルチモーダル対応を提供します。Veo 3.1 は参照画像(最大 3 枚)をサポートしますが、音声は参照ではなく生成です。Sora は主にテキストと画像ベースです。
動画参照の深さ:Seedance 2.0 と Kling 3.0 は、参照映像から複雑なカメラワーク、振付、特殊効果を再現するのに優れています。Kling 3.0 の「AI Director」はマルチショットのシーン構成を自動化します。Veo 3.1 は画像から動画への変換と強いキャラクター一貫性に重点を置き、動画から動画へのモーション再現はやや弱めです。
音声能力:Seedance 2.0 はムードとビート同期のため音声ファイルを直接アップロードできます。Kling 3.0 は 5 言語で正確なリップシンクのネイティブ多言語音声を生成します。Veo 3.1 は音声をネイティブで生成しますが、音声ファイルの参照は受け付けません。Sora はテキスト説明からの音声生成のみです。
長さと延長:Sora は単一生成で最長(最大 60 秒)ですが、Veo 3.1 の延長機能で 60 秒を超えるクリップの連結が可能です。Seedance 2.0 と Kling 3.0 はどちらも 15 秒生成と延長機能をサポートします。
解像度と品質:Kling 3.0 と Veo 3.1 は 4K 出力に対応し、放送品質コンテンツで有利です。Seedance 2.0 はプロ用途に適した高品質動画を生成します。Veo 3.1 はモバイル向けの縦型 9:16 をネイティブサポートしています。
実用面でのアクセス:Seedance 2.0 の Morphic 連携と Kling 3.0 の一般公開により、プロのワークフローで即座に利用できます。Veo 3.1 は Google エコシステム(Gemini アプリ、Flow、API)が必要で、Sora は限定ベータのままです。
2026 年 2 月時点の情報です。機能・提供状況は変更される場合があります。
Seedance 2.0 の主な機能と能力
マルチモーダル入力システム
Seedance 2.0 は組み合わせて使える 4 種類の入力を受け付けます。
画像入力(最大 9 枚)
- ビジュアルスタイルと美的方向性の定義
- キャラクターの見た目の確立と一貫性の維持
- シーン構成とフレーミングの設定
- 正確な再現のための商品ディテールの指定
- ライティング、カラーグレーディング、雰囲気のコントロール
動画入力(最大 3 クリップ、合計最大 15 秒)
- 特定のカメラワークと撮影技法の参照
- モーションパターンと振付の再現
- シーン転換と編集リズムのコピー
- 特殊効果とビジュアル技法のデモ
- キャラクターのアクションとインタラクションの表示
音声入力(MP3、最大 3 ファイル、合計最大 15 秒)
- 音楽によるムードと感情トーンの設定
- リズムとビート構造によるテンポのコントロール
- 特定の効果音や環境音の追加
- 台詞の声質のマッチング
- 音声キューへのビジュアル変化の同期
テキストプロンプト(自然言語)
- ナラティブとストーリー進行の誘導
- 参照に含まれないアクション・動きの指定
- シーン転換とタイミングの記述
- 参照の適用方法の明確化
- ビジュアル参照を超えたディテールの追加
重要な制限:全入力タイプ合計で最大 12 ファイルまでです。この上限に近づく場合は、インパクトの大きい参照を戦略的に選ぶことが重要です。
参照能力アーキテクチャ
Seedance 2.0 のコアとなる革新は参照理解システムです。入力を単純なスタイルガイドとして扱うのではなく、モデルは各参照から特定の要素を分析・抽出します。
画像から:構成構造、キャラクター特徴、オブジェクトのディテール、ライティング設定、色の関係、空間配置、スタイル特性
動画から:カメラの動きの経路、動きの速度と加速度、ショットのフレーミング変化、被写体のアクションとタイミング、特殊効果の実装、転換技法
音声から:リズムとビートパターン、トーンのムードと雰囲気、音量のダイナミクス、効果音のタイミング、声の特徴
この細かい理解により、各参照のどの側面を生成に反映させるかを正確に指定でき、最終出力を精密にコントロールできます。
コア生成品質の向上
マルチモーダル能力に加え、Seedance 2.0 は以下の基盤的強化を提供します。
リアルな物理挙動:オブジェクトとキャラクターが自然な物理法則で動きます。衣装は自然に垂れ、液体は説得力ある流れを見せ、要素間の相互作用は現実のルールに従います。
スムーズなモーション:連続したアクションが不自然な転換やモーフィングのアーティファクトなく流れます。複雑な多段階の動きも実行全体で一貫性を保ちます。
正確なプロンプト理解:時間マーカー(「5 秒時点で」)、空間関係(「背景の奥に」)、複数被写体の複雑なシナリオを含む詳細な指示を正確に解釈します。
一貫したスタイル維持:生成開始時に確立したビジュアル特性が最後まで安定します。キャラクターの見た目、ライティング、芸術的スタイルがシーンの進行とともにずれません。
複雑なアクションの実行:格闘の振付、手の細かい動き、発話中の表情、複数キャラクターの連携など、難易度の高いシーケンスに対応します。
マルチモーダルコントロールを体験する Morphic で Seedance 2.0 を使って制作を始める →
技術仕様
| パラメータ | 仕様 |
|---|---|
| 生成時間 | 4〜15 秒(1 秒刻みで選択可能) |
| 出力解像度 | 高品質動画(解像度はコンテンツにより変動) |
| フレームレート | 標準 30fps またはシネマティック 24fps |
| アスペクト比 | 16:9、2.35:1 ワイドスクリーン、縦型など複数対応 |
| 音声出力 | 効果音・BGM の統合生成 |
| ファイル形式 | 画像:JPG、PNG;動画:一般的な形式;音声:MP3 |
Seedance 2.0 の入力仕様を理解する
ファイル数と時間の制限
生成品質を最適化しつつ計算リソースを管理するため、Seedance 2.0 では以下の入力制約があります。
ファイルタイプ別の上限:
- 画像:最大 9 ファイル
- 動画:最大 3 クリップ
- 音声:最大 3 ファイル
合計時間の制限:
- 動画参照:全クリップ合計 15 秒
- 音声参照:全ファイル合計 15 秒
システム全体の上限:
- 混在入力ファイル合計:最大 12(全タイプ合計)
- 生成出力時間:4〜15 秒(ユーザー選択)
戦略的な入力選択
12 ファイル上限内で作業する際は、最終結果への影響度で優先順位をつけます。
優先 1:コアビジュアルスタイル(画像 2〜3 枚) クリエイティブの方向性を決める、基本の美学・カラーグレーディング・ビジュアルアプローチを定義します。
優先 2:キャラクター/被写体参照(画像 1〜3 枚) キャラクターの連続性が必要なマルチショットでは、主被写体の一貫した見た目を確保します。
優先 3:モーション/カメラ参照(動画 1 本) ビジョンに不可欠なカメラワークやモーションがある場合は、それを明確に示す動画参照を 1 本割り当てます。
優先 4:音声の基盤(音声 1 ファイル) リズム、ムード、特定の音が重要なら、その要素を最もよく表す音声参照を 1 つ含めます。
優先 5:補助ディテール(残りスロット) シーン参照、商品ディテール、補助的なビジュアル要素に残りスロットを使います。
実例:特定の商品見た目・ダイナミックなカメラワーク・アップビートな音楽が必要な 15 秒 CM の場合:
- 画像 2 枚:商品の異なるアングル
- 画像 1 枚:望むカラーグレーディングとライティングスタイル
- 動画 1 本:カメラの動き参照
- 音声 1 ファイル:テンポ用の音楽
- 残り 7 スロット:シーン環境、追加の商品ディテール、またはシンプルに未使用
入力品質のガイドライン
画像参照:
- 正確さが重要な場合は、明るくはっきりした写真を使う
- 高解像度ほどディテール再現が良い
- 同一被写体の複数アングルで一貫性が向上
- 圧縮が強すぎる・低品質な画像は避ける
動画参照:
- 参照したい要素がはっきり見えるようにする
- 複数要素の長いクリップより、一つの側面に絞った短いクリップの方が効果的
- 高品質な動画ほどモーション理解が向上
- 関連部分だけが映るようトリミングする
音声参照:
- 可能ならノイズの少ないクリーンな音声を使う
- 望むリズムやムードが明確に伝わる音声を選ぶ
- 目標動画の長さに近い長さにする
- 目的が複数ある場合は動画ファイルの音声も検討する
Seedance 2.0 マルチモーダル参照の使い方
Seedance 2.0 は Morphic から利用でき、参照のアップロードとプロンプト入力用のインターフェースを提供します。アップロードした各ファイルの生成での使い方を指定するには、@ メンション構造を使います。
@ 参照システム
Morphic に素材をアップロードしたら、プロンプト内で @ に続けてファイル識別子(Image 1、Video 1、Audio 1 など)を書いて参照します。各参照が果たす役割を明示することが重要です。
基本参照構造:
@[Material Type + Number] as/for [specific purpose], [additional context]
明確な参照 vs 曖昧な参照:
曖昧:「@Image 1 と @Video 1 を使って動画を作って」
明確:「@Image 1 をキャラクターの顔が見えるオープニングフレームとして、@Video 1 のカメラのプッシュインを参照、@Audio 1 を BGM にしてアップビートなムードにする」
効果的なマルチモーダルプロンプト:CRAFT フレームワーク
プロ品質の結果には構造化されたプロンプトが必要です。CRAFT フレームワークはマルチモーダル参照を組み込むための体系的なアプローチを提供します。
C - Context(文脈):シーンと環境を設定 場所、時代、雰囲気、全体の設定で舞台を整えます。シーン画像への参照もここに含めます。
例:「夜の薄暗いジャズクラブで、@Image 1 の室内の雰囲気を参照して」
R - Reference(参照):@ メンションと目的を指定 どの参照素材を使い、それぞれが生成にどう影響するかを明示します。
例:「@Image 2 でメインキャラの見た目と服装、@Video 1 で歩く動きとテンポ、@Audio 1 でジャズの BGM」
A - Action(アクション):キャラクターとオブジェクトの動きを記述 シーンで何が起きるか:キャラのアクション、オブジェクトのやり取り、イベントの順序を詳しく書きます。
例:「キャラクターがゆっくり部屋を横切り、バーで止まり、グラスを取り、ドアを見ながら一口飲む」
F - Framing(フレーミング):カメラワークと撮影を定義 撮影用語でショットタイプ、カメラの動き、アングル、転換を指定します。
例:「ワイドの establishing から始め、キャラがバーに着くタイミングでドリーインしてミディアムクローズアップ、続けてドア方向のオーバーショルダーにカット」
T - Timing(タイミング):時間マーカーと音声の連携 長いシーケンスを時間区切りに分けてテンポをコントロールし、特定のイベントを指定のタイミングで起こします。タイミング構造内に音声の指定も組み込みます。
例:「0–4 秒:establishing と歩き始め;4–8 秒:バーに着いてグラスを取る;8–12 秒:ドアを見ながら飲む;12–15 秒:カメラが視線に合わせてドアへ。通して @Audio 1 のジャズを BGM に、室内の環境音。8 秒時点でドアが開く効果音を追加」
CRAFT プロンプト例:
Context: In a 1940s noir-style detective office at night, with venetian blind shadows across the desk, referencing the lighting and atmosphere from @Image 1. Reference: @Image 2 for the detective's appearance (fedora, trench coat), @Video 1 for the slow, deliberate walking pace and movement style. Action: The detective enters frame from the left, walks to his desk, picks up a photograph, studies it intensely, then sets it down with a heavy sigh. Framing: Open with a wide shot showing the full office space, tracking shot following the detective as he walks, push in to a close-up of his face as he examines the photograph, cut to an insert shot of the photograph in his hands, pull back to medium shot as he sets it down. Timing: 0-3 seconds: entry and walk begins; 3-7 seconds: reaches desk and picks up photo; 7-11 seconds: close examination of photo; 11-15 seconds: sets photo down and sighs. Audio: Continuous moody saxophone from @Audio 1, footsteps on wooden floor, photo sliding on desk, deep exhale at the end.
画像参照のテクニック
ビジュアルスタイルと美的方向性の設定
画像は生成の全体的な見た目と雰囲気を決めます。カラーパレット、ライティング、構図スタイル、芸術的な処理の定義に使います。
Create a cyberpunk street scene with the visual style from @Image 1. Match the neon-lit aesthetic, wet pavement reflections, and moody blue-magenta color grading. Include the vertical architecture composition from @Image 2.
複数ショットでのキャラクター一貫性の維持
同じキャラクターが登場する複数動画を生成するときは、各プロンプトで同じキャラ画像を参照して見た目の一貫性を保ちます。
Feature the woman from @Image 1 throughout this sequence, maintaining her exact facial features, hairstyle, and clothing. She starts in the outdoor setting from @Image 2, then the scene transitions to the indoor environment shown in @Image 3. Her appearance remains consistent across both locations.
正確なディテールでの商品紹介
商用・商品中心のコンテンツでは、複数アングルとディテールショットを参照して正確に再現します。
Create a product showcase for the handbag in @Image 1. The side profile should match @Image 2, the surface texture and material details should reference @Image 3, and the hardware and clasp should match @Image 4. Use smooth rotating camera movements to display all angles. Lighting should be bright and clean to show all intricate details.
動画参照のテクニック
カメラワークと撮影の再現
動画参照は、テキストだけでは説明しづらい特定のカメラ技法を示すのに適しています。
Place the character from @Image 1 in the corridor from @Image 2. Strictly follow all camera movement effects from @Video 1: tracking shot from behind as the character walks, camera circles around to the front with a low-angle perspective, then pans right 90 degrees to frame the doorway. Execute as a single continuous shot with no cuts.
モーションパターンと振付のコピー
ダンス、格闘、特定の動きパターンでは、動画参照がフレーム単位のモーションガイドになります。
Feature the martial artist from @Image 1 performing moves in the training hall from @Image 2. The character should execute the exact kick sequence shown in @Video 1: spinning back kick, transition to roundhouse kick, ending with an aerial spinning kick. Match the speed, height, and fluidity of the reference movements.
特殊効果とビジュアル技法の再現
動画参照でパーティクル、転換、合成技法などのビジュアル効果を示し、正確に再現できます。
The character from @Image 1 performs a magical transformation. Reference the particle effects from @Video 1: glowing particles rise from the ground, swirl around the character, brightness intensifies, then particles burst outward revealing the transformed appearance from @Image 2.
音声参照のテクニック
BGM の統合とムード設定
音声参照は、音楽の選択で動画の感情トーンとテンポを決めます。
Create a 15-second motivational fitness video featuring the athlete from @Image 1 in the gym setting from @Image 2. Use the energetic music from @Audio 1 to establish an inspiring, powerful mood. Camera movements should match the driving rhythm of the music with dynamic push-ins and motion.
ビジュアル変化のビート同期
シーン転換、カット、ビジュアルの変化を音楽のビートに合わせて、洗練されたテンポにします。
The character from @Image 1 changes outfits with each musical beat from @Audio 1. First outfit from @Image 2, cut to second outfit from @Image 3 on the first beat, third outfit from @Image 4 on the second beat, fourth outfit from @Image 5 on the third beat. Each cut happens precisely on the beat. Use quick cuts with no transition effects.
声質と台詞のマッチング
特定の声質が重要なときは、望む声質を含む音声・動画ファイルを参照します。
The narrator's voice should match the deep, authoritative timbre from @Audio 1. The narration text: "In a world transformed by technology, one person dares to question everything." Deliver with the same pacing and dramatic emphasis as the reference.
複合マルチ参照の例
商用制作で全入力タイプを組み合わせる
例:商品 CM
Context: Modern minimalist studio with @Image 1 as the environment reference: white seamless background with dramatic side lighting. References: @Image 2 and @Image 3 show the product (wireless headphones) from front and side angles. @Video 1 demonstrates the desired camera movement: slow rotating dolly shot. @Audio 1 provides the upbeat electronic background music. Action: The headphones float in the center of frame, slowly rotating. At the 5-second mark, they gently unfold. At the 10-second mark, LED lights activate on the ear cups. Framing: Start with a wide shot establishing the product in space. Continuously dolly around the product in a circular path while simultaneously pushing in slightly, matching the camera path from @Video 1. Timing: 0-5 seconds: rotation begins, camera circles; 5-10 seconds: headphones unfold while rotation continues; 10-15 seconds: LED activation, camera completes circle and pushes to close-up. Audio: Electronic music from @Audio 1 plays throughout. Add subtle mechanical sound effect when headphones unfold at 5 seconds, soft power-on sound when LEDs activate at 10 seconds.
台詞付きマルチキャラクターシーン
例:ナラティブシーン
Context: Corporate conference room during daytime, with the modern interior from @Image 1: large windows, long table, professional setting. References: @Image 2 for the first executive's appearance (woman in navy suit), @Image 3 for the second executive's appearance (man in gray suit). @Video 1 shows the desired back-and-forth camera movement between speakers. @Audio 1 provides tense ambient music. Action: First executive stands, gestures emphatically while speaking. Second executive leans back in chair, arms crossed, then responds. First executive sits down heavily. Second executive stands and walks toward window. Framing: Start with wide shot showing both characters at opposite ends of table. Use shot-reverse-shot camera movement from @Video 1: cut to medium shot of first executive as she speaks, cut to medium shot of second executive as he responds, return to wide shot as second executive stands, follow him with smooth tracking shot as he walks to window. Timing: 0-4 seconds: first executive stands and speaks; 4-7 seconds: second executive responds from seated position; 7-10 seconds: first executive sits, second executive stands; 10-15 seconds: second executive walks to window. Audio: Tense ambient music from @Audio 1 plays at low volume throughout. First executive's dialogue (confident tone): "This merger is our only option." Second executive's dialogue (skeptical tone): "I've heard that before." Footsteps on floor as second executive walks.
Seedance 2.0 の高度な機能
連続ナラティブのための動画延長
Seedance 2.0 は既存の動画を、ストーリーやアクションが途切れず続く新規コンテンツで延長できます。
動画延長の手順:
- 既存動画を参照としてアップロードする
- プロンプトで延長時間と続きの内容を指定する
- 生成時間を延長分に合わせる(最終の合計時間ではない)
- モデルが指示に基づいて続きを生成する
例:カフェシーンの延長
既存動画:カフェのテーブルでノート PC を見ている人物の 10 秒クリップ
Extend @Video 1 by 5 seconds. The person closes the laptop, picks up their coffee cup, takes a sip while gazing out the window, then sets the cup down and stands up. Camera remains in medium shot throughout, maintaining the composition and lighting from the original video.
生成設定:生成時間を 5 秒に選択
モデルは参照動画の最終フレームを解析し、キャラの見た目・シーンのライティング・カメラアングル・ビジュアルスタイルを保った 5 秒の続きをシームレスに生成します。
延長のベストプラクティス:
- 連続性のため延長は比較的短く(5〜8 秒)する
- 元の終わりと新規コンテンツをつなぐアクションを明確に記述する
- 一貫させる要素(カメラアングル、ライティング、キャラの位置)を明記する
- 元動画に音声がある場合は、その音声スタイルを延長でも参照する
動画融合とマルチクリップ転換
複数の既存動画クリップの間に、橋渡しコンテンツを生成してシームレスな転換を作ります。
例:2 つの場所をつなぐ
既存動画:
- @Video 1:都市の通りを歩くキャラクター(角に近づいて終わる)
- @Video 2:同じキャラがアパートに入る(ドアが開くところから始まる)
Create a 5-second transition segment between @Video 1 and @Video 2. The character from the end of @Video 1 rounds the corner, walks up exterior apartment steps visible in background of @Video 2's opening frame, reaches the door, and begins opening it (connecting to @Video 2's start). Match the character's appearance, walking pace, and movement style from both reference videos. Lighting transitions from outdoor daylight at the start to the interior lighting of @Video 2 at the end.
これで 2 本の別撮りを滑らかにつなぐブリッジクリップが生成され、キャラとナラティブの連続性が保たれます。
既存動画でのキャラクター差し替え
動画内のキャラクターや被写体を差し替え、カメラワーク・モーション・シーンのディテールはそのままにします。
例:音楽パフォーマンスの差し替え
In @Video 1, replace the female lead singer with the male artist from @Image 1. The performance actions should exactly replicate those in the original video: microphone handling, body movements, facial expressions, and interaction with the band. The replacement artist should match the timing and energy of the original performance frame-by-frame. All other elements remain unchanged: band members, stage, lighting, camera movements.
キャラクター差し替えのユースケース:
- CM コンセプトで別タレントのテスト
- 同じシーンを別俳優でバリエーション作成
- 既存映像を新ブランドアンバサダーで更新
- 地域別市場向けに現地タレントでコンテンツ制作
ストーリーの反転とナラティブ変更
既存動画のナラティブの方向や結末を変えつつ、ビジュアルと技術要素は維持します。
例:恋愛ドラマの逆転
元動画(@Video 1):橋の上で男性が女性にプロポーズし、彼女が承諾して抱き合うロマンチックなシーン
Subvert the storyline of @Video 1. The scene begins identically: the man kneels and opens the ring box. However, the woman's expression shifts from surprised joy to shocked realization. She steps back, shaking her head. The man's face changes from hopeful to cold and calculating. He stands slowly, his demeanor becoming menacing rather than loving. The woman says "You were lying to me from the very beginning!" The man responds with an icy smile: "This is what you owe my family." The confrontational ending replaces the original romantic embrace. Maintain all camera angles and movements from @Video 1.
この手法で、既存映像の撮影と制作価値を保ちながら、ナラティブを完全に変えられます。
ワンカット連続ロングショット
カットなしで被写体を複数環境を通して追う、シームレスなロングテイクを作ります。
例:都市追走シーケンス
@Image 1, @Image 2, @Image 3, @Image 4, and @Image 5 depict a one-take tracking shot following a runner. Sequence: Begin at street level (@Image 1) with a wide shot as the runner enters frame from the right, running at full speed. Camera picks up and follows from behind as runner reaches the building entrance (@Image 2). Continue tracking as runner bounds up the interior staircase (@Image 3), maintaining close following distance. Emerge onto the rooftop level (@Image 4), camera still tracking from behind. Runner reaches the roof edge. Camera moves around to the front of the runner for the final frame, then cranes up to overhead perspective showing city skyline (@Image 5). Camera: Continuous handheld-style tracking throughout. No cuts. Slight camera shake for urgency and realism. Smooth movement transitions between environments. Timing: 0-3 seconds street run, 3-6 seconds enter building and start stairs, 6-10 seconds ascending stairs, 10-13 seconds emerge on roof and run to edge, 13-15 seconds crane to overhead shot.
クリエイティブテンプレートの複製
参照動画の構成・スタイル・技法をコピーし、被写体やブランディングだけを差し替えます。
例:CM スタイルの適用
参照:@Video 1 は特定のカメラ技法・転換・テンポを持つ高級香水 CM
Create a luxury watch commercial by referencing the advertising style and structure of @Video 1. Use the same camera techniques: smooth dolly movements, dramatic lighting reveals, close-up detail focus, and elegant pacing. Replace the perfume bottle with the watch from @Image 1. Maintain the sophisticated color grading, transition timing, and rhythm from the reference. The environment should be minimalist and modern like @Image 2. Use the orchestral music from @Audio 1 to match the premium feel.
Seedance 2.0 のユースケースと例
このセクションでは、業種と難易度別に Seedance 2.0 の活用例を示します。各業種で初級・中級・上級の例により、スキル向上の流れがわかります。
商用・広告制作
初級:単一商品のスタティック紹介
シナリオ:EC 向けのシンプルな商品表示
Display the smartwatch from @Image 1 centered on the white background from @Image 2. Camera slowly rotates 360 degrees around the product over 10 seconds, maintaining the same distance throughout. Lighting is clean and bright with no harsh shadows. At the 8-second mark, the watch face illuminates showing the time display. Use subtle ambient electronic music from @Audio 1.
難易度:単一画像参照、基本カメラワーク、1 つのタイミングイベント
中級:マルチアングル商品デモ
シナリオ:複数機能を見せるテック商品デモ
Context: Clean studio environment with @Image 1 as lighting reference: soft, even illumination against minimal background. References: @Image 2 (front view of wireless earbuds), @Image 3 (side view), @Image 4 (charging case open). @Audio 1 for upbeat tech commercial background music. Action: 0-4 seconds: Earbuds in charging case, case lid closes automatically. 4-8 seconds: Case opens, earbuds rise slightly out of case (magnetic levitation effect). 8-12 seconds: Single earbud lifts out of case and rotates to show all angles. 12-15 seconds: LED indicator on case pulses to indicate charging. Framing: Start with overhead shot looking down at open case. Cut to front 3/4 angle as lid closes. Push in to medium shot for the opening sequence. Follow the lifted earbud with smooth tracking rotation. End with close-up of pulsing LED. Audio: Upbeat music from @Audio 1 plays throughout. Add satisfying "click" sound for case closing, subtle "whoosh" for earbud lift, soft pulse tone synced with LED.
難易度:複数画像、複数タイミングイベント、多様なカメラアングル、音声同期
上級:シーン転換付きフル CM
シナリオ:複数シーンで商品使用を見せる 15 秒ライフスタイル CM
Context: Create a lifestyle commercial for wireless headphones shown in @Image 1 and @Image 2 (different angles). Scene 1 (0-5 seconds): Urban commuter environment referencing @Image 3. Young professional walking through busy street, wearing headphones from @Image 1. Camera tracks alongside at medium distance. Street ambient noise gradually fades as subject taps headphones to activate noise cancellation: scene becomes silent except music from @Audio 1. Scene 2 (5-10 seconds): Transition to home office setting from @Image 4. Quick cut on beat of music. Same person now in video call, headphones visible. Camera push-in to close-up of headphones showing clear audio indicator LED. Split-screen effect shows clear communication on both sides of call. Scene 3 (10-15 seconds): Gym workout setting referencing @Image 5. Quick cut on music beat. Person doing intense workout, headphones stay secure. Dynamic camera movements matching the energy: quick cuts between different exercise angles, finally pulling back to wide shot. End with product logo and tagline appearing center frame. References: @Video 1 for the dynamic camera movement style in gym scene. @Audio 1 for background music that drives pacing throughout. Audio: Music from @Audio 1 provides continuity across all scenes. Scene 1: street ambient sound at start, then music only. Scene 2: soft keyboard typing and video call audio underneath music. Scene 3: gym ambient with music prominent. Framing: Cinematic 2.35:1 aspect ratio throughout. Professional color grading matching @Image 1's cool, modern tones. Smooth transitions on musical beats.
難易度:複数シーン、多数参照(画像 5、動画 1、音声 1)、複雑な音声レイヤー、精密なタイミング、プロの撮影
ソーシャルメディアコンテンツ制作
初級:トレンド風クイックカット動画
シナリオ:人気の転換効果を使ったシンプルな SNS コンテンツ
The influencer from @Image 1 stands centered in frame against the bright background from @Image 2. She makes a quick hand gesture at the 3-second mark. On the gesture, quick jump cut to the same person wearing different outfit from @Image 3, same position and pose. At 6 seconds, another hand gesture and jump cut to third outfit from @Image 4. Use the upbeat trending music from @Audio 1. Cuts should happen exactly on the musical beats.
難易度:複数画像参照、ビート同期、シンプルな転換効果
中級:マルチロケーションストーリー
シナリオ:一日の流れを見せる vlog 風コンテンツ
Context: Create a "day in the life" style montage for the content creator from @Image 1. References: @Image 2 (morning coffee shop), @Image 3 (co-working space), @Image 4 (outdoor park). @Video 1 shows the handheld camera movement style. @Audio 1 provides upbeat vlog background music. Sequence: 0-5 seconds: Coffee shop scene: creator enters, orders at counter, waves at camera with coffee in hand. Handheld camera style from @Video 1. 5-10 seconds: Co-working space: creator working at laptop, typing, then turns to camera and smiles. Cut to close-up of screen briefly. 10-15 seconds: Park scene: creator sitting on bench with laptop, closes it, stands and stretches with arms up, walks toward camera. Golden hour lighting. Framing: Handheld vlog style throughout referencing @Video 1's movement. Mix of medium shots and close-ups. Quick cuts between locations (cut on beat). Audio: Music from @Audio 1 throughout. Light coffee shop ambient in first segment, keyboard typing in second segment, outdoor birds and wind in third segment: all underneath music.
難易度:複数ロケーション、ハンドヘルドスタイル参照、音声レイヤー、パーソナリティ重視
上級:バイラル風複雑ビジュアル効果
シナリオ:トレンド効果を使った高品質 SNS コンテンツ
Context: Create a trending transformation video for the dancer from @Image 1, incorporating viral visual effects. References: @Image 2 (starting outfit casual streetwear), @Image 3 (ending outfit performance costume), @Video 1 (choreography reference for arm movements and spin), @Video 2 (particle effect transition style), @Audio 1 (high-energy music track for synchronization). Action & Effects: 0-3 seconds: Dancer stands casually in streetwear from @Image 2, urban background from @Image 4. Camera circles around dancer slowly. 3-4 seconds: Dancer performs the arm-raise movement from @Video 1. At peak of arm raise, screen glitches with digital distortion effect. 4-7 seconds: Particle effects referencing @Video 2 burst from the ground, swirling around dancer. Camera speeds up rotation. Particles intensify with music build. 7-9 seconds: Flash of light. When light fades, dancer is now in performance costume from @Image 3, mid-spin from @Video 1's choreography reference. 9-15 seconds: Complete the spin, landing in dramatic pose. Camera rotation ends at front-facing position. Environment has transformed to stage setting from @Image 5 with dramatic lighting. Music from @Audio 1 hits climax. End with freeze frame and text overlay. Framing: Start with slow cinematic camera rotation, speed up during transformation, end with dynamic front angle. 2-3 quick cuts during particle burst for impact. Audio: Music from @Audio 1 drives entire pacing. Sound effects: glitch sound at arm raise, whoosh during particle burst, impact sound on landing. Technical: Use fisheye lens effect from @Video 2 during transformation sequence. High contrast, saturated colors. Beat-synced effects.
難易度:複数複雑参照、精密な振付マッチ、特殊効果再現、高度な音声同期、トレンドスタイル統合
映画・エンターテインメント制作
初級:雰囲気の establishing ショット
シナリオ:ナラティブ用のシーン設定ショット
Cinematic establishing shot of the abandoned mansion from @Image 1 at night. Camera starts wide, showing full building with overgrown grounds. Slowly push in toward the main entrance over 12 seconds. Dark, moody atmosphere with partial moonlight breaking through clouds. Windows are dark except for one on the second floor showing faint flickering light. Use the ominous ambient sound from @Audio 1. Add subtle wind in trees sound effect. 24fps for cinematic feel.
難易度:単一画像、基本カメラワーク、雰囲気構築
中級:ショット・リバース・ショットの台詞シーン
シナリオ:プロのカバレッジによる 2 人の会話
Context: Interior interrogation room scene with the stark environment from @Image 1: single overhead light, metal table, two chairs. Characters: Detective from @Image 2 (stern, middle-aged) sitting across from suspect from @Image 3 (nervous, young adult). Dialogue & Action: 0-5 seconds: Wide shot establishing both characters at table. Detective leans forward, hands clasped. Suspect avoids eye contact, fidgeting. 5-8 seconds: Cut to medium close-up of detective's face as he speaks: "We know you were there that night." Expression is intense, unblinking. 8-11 seconds: Cut to medium close-up of suspect's face. Brief flash of panic in eyes, then attempts to compose. Response: "I don't know what you're talking about." 11-15 seconds: Cut back to wide shot. Detective slides photograph across table toward suspect. Suspect's eyes widen seeing the photo. Detective leans back, satisfied. References: @Video 1 for the interrogation scene camera movement style and timing. @Audio 1 for tense ambient background music. Framing: Use classic shot-reverse-shot technique from @Video 1. Slightly low angle on detective for authority, slightly high angle on suspect for vulnerability. Keep lighting harsh and dramatic throughout. Audio: Tense music from @Audio 1 at low volume. Add ambient room tone. Metal chair creak when suspect shifts. Soft sound of photo sliding on metal table.
難易度:キャラ画像 2 枚、特定カメラ技法参照、台詞のテンポ、心理的緊張
上級:複雑な振付のアクションシーケンス
シナリオ:特定の武術振付の格闘シーン
Context: Rooftop fight scene at sunset, environment from @Image 1 (urban rooftop with HVAC units, distant city skyline, dramatic orange sky). Characters: Hero from @Image 2 and @Image 3 (different angles showing costume details) versus three opponents from @Image 4, @Image 5, @Image 6. Choreography Reference: @Video 1 shows the specific fight sequence to replicate: hero dodges first attack, counters with spinning kick, transitions immediately to grapple with second opponent. Camera Reference: @Video 2 demonstrates the camera movement style: circling during fight, quick cuts on impacts, slow motion on key moves. Complete Sequence: 0-2 seconds: Establishing shot. Four opponents surround hero in wide circle. Camera rotates slowly around the group. Wind whips clothing. Tense standoff moment. Music from @Audio 1 builds. 2-4 seconds: First opponent charges. Camera quick-cuts to close-up of hero's face: determined expression. Then wider angle as hero dodges right, exactly matching the movement from @Video 1. 4-6 seconds: Hero executes spinning kick from @Video 1, striking first opponent. Camera follows kick in medium shot, then quick cut to opponent's impact with ground. Add impact sound effect. 6-9 seconds: Without pause, second opponent approaches. Hero drops into grapple, executing the specific move sequence from @Video 1: grab, pivot, throw. Camera circles around action as in @Video 2 reference, maintaining continuous view of fight. 9-11 seconds: Third opponent swings weapon. Slow motion as hero ducks underneath (2x slow speed). Camera follows hero's perspective looking up at weapon passing overhead. Resume normal speed as hero rises. 11-13 seconds: Hero's counter-attack: quick combination strike to third opponent. Multiple rapid cuts showing each strike from different angles, matching editing pace from @Video 2. 13-15 seconds: Hero stands victorious, three opponents on ground around them. Camera circles once more, then pushes in to close-up of hero's face. Sunset lighting creates silhouette effect. Music from @Audio 1 reaches climax. Technical: 24fps, choreography matching @Video 1 exactly, camera work matching @Video 2's dynamic style, warm sunset tones with high contrast, slow motion at 2x reduction for dramatic moment. Audio: Music from @Audio 1 throughout, impact sound effects on strikes, cloth movement sounds, heavy breathing, wind on rooftop, all synced precisely with action.
難易度:画像 6、動画 2(振付+カメラ)、音声 1、複雑なアクション振付、複数カメラ技法、スローモーション、プロの格闘編集、精密な音声同期
プロのワークフロー活用
プロジェクト連続性のための動画延長
シナリオ:既存撮影に追加コンテンツを延長
既存動画:モダンオフィスを歩く CEO の 8 秒ショット、会議室のドアで終わる
Extend @Video 1 by 7 seconds. The CEO from the end of the video opens the conference room door and enters. Inside, the conference room matches the design from @Image 1: large table, floor-to-ceiling windows with city view. Three executives from @Image 2, @Image 3, and @Image 4 are already seated and look up as CEO enters. CEO walks to the head of the table and sits down. Camera follows CEO through doorway with smooth tracking shot, then cuts to wide shot showing full conference room once CEO is seated. Maintain the same professional color grading and lighting style from @Video 1.
ユースケース:再撮影なしで既存のプロ動画資産に追加
テンプレートベースの一括コンテンツ制作
シナリオ:一貫したスタイルで複数の SNS 動画を作成
マスターテンプレートプロンプト(動画 1):
Product showcase video for [Product from @Image 1]. White background from @Image 2. Camera rotates 360 degrees around product over 10 seconds. At 7-second mark, product feature highlights with graphic callout. End with logo from @Image 3. Music from @Audio 1.
バリエーション:@Image 1 を別商品に差し替え、@Image 2、@Image 3、@Audio 1 はブランド一貫性のため維持
ユースケース:商品カタログ向けのスケーラブルなコンテンツ制作、複数資産でのブランド統一
多言語対応
シナリオ:同一 CM の地域別バリエーション作成
30-second commercial structure from @Video 1. Replace narration with [Language] voice matching @Audio 1's tone and pacing. Character from @Image 1 remains the same. Text overlays change to [Language] versions matching timing from @Video 1.
ユースケース:ビジュアルブランディングを統一した現地語版が必要な国際マーケティング
Seedance 2.0 のベストプラクティス
CRAFT プロンプトフレームワーク(詳細)
Seedance 2.0 でプロ品質の結果を得るには、構造化されたプロンプト設計が必要です。CRAFT フレームワークは、重要な要素を漏れなく指定するための体系的なアプローチを提供します。
C - Context(文脈):シーンと環境を設定
アクションがどこで・いつ起こるかを定義します。含める内容:
- 物理的な場所と設定
- 時間帯や時代
- 雰囲気(天候、ライティング品質)
- 全体のムードとトーン
- ストーリーに関わる環境のディテール
例: 「午前 2 時のネオンが灯る地下ナイトクラブで、@Image 1 のムーディな雰囲気を参照。スモークマシンの霞、抽象パターンを映す LED パネルの壁、背景の混雑したダンスフロア。」
R - Reference(参照):@ メンションと正確な目的を指定
マルチモーダルの力が発揮される部分です。各参照が何を提供するか明示します:
- @ メンションを明確に書く
- その参照のどの側面を使うか正確に指定する
- 参照に複数要素が含まれる場合は、使わないものも明記する
例: 「@Image 1 はメインキャラの顔と髪型のみ、服装は除く。@Image 2 でレザージャケットの衣装。@Video 1 で歩くテンポと自信ある歩き方。@Audio 1 でエネルギッシュなムードを決める電子 BGM。」
A - Action(アクション):キャラクターとオブジェクトの動きを記述
シーンで起きることを詳しく:動画の「動詞」を書きます:
- キャラの動きとジェスチャー
- オブジェクトのやり取り(取る、置く、投げる)
- 表情と感情の反応
- 複数被写体間のやり取り
- 物理ベースのイベント(落ちる、注ぐ、煙が上がる)
例: 「キャラがフレーム左から入り、@Video 1 の自信ある歩き方で歩く。一瞬群衆を見回し、オフスクリーンの誰かに視線を合わせる。わずかに笑う。右手でジャケットの襟を直し、目的を持って群衆の中を前に進む。」
F - Framing(フレーミング):カメラワークと撮影を定義
撮影用語でショット構成を指定します:
- ショットタイプ:ワイド、ミディアム、クローズアップ、エクストリームクローズアップ、オーバーショルダー、POV
- カメラの動き:ドリーイン/アウト、トラッキング、パン左右、チルト上下、クレーン上下、ハンドヘルド、ステディカム
- アングル:ロー、ハイ、アイレベル、ダッチ
- 特殊技法:ヒッチコックズーム、ウィップパン、ラックフォーカス、浅い被写界深度
例: 「ナイトクラブ全体のワイドで開始。キャラが入るとカメラが付いてミディアムでトラッキング。群衆を見回す場面でゆっくりミディアムクローズアップにプッシュイン。キャラの POV で群衆を見るショットにカット。笑いが浮かぶクローズアップにカット。キャラが群衆を進むトラッキングに戻り、カメラは後ろから追う。」
T - Timing(タイミング):時間マーカーと音声の連携
シーケンスを時間区切りにして精密にコントロールします:
- 秒マーカーを使う(0–3 秒、3–7 秒)
- 重要なアクションのタイミングを指定する
- イベントのテンポをコントロールする
- 音声をビジュアルのイベント・転換と合わせる
- 音声ファイルを参照し、ビート同期があれば指定する
例:「0–3 秒:establishing ワイド、キャラ入場して歩き始め。3–6 秒:カメラがキャラをトラッキング、群衆を見る瞬間。6–9 秒:笑いが浮かぶクローズアップ。9–12 秒:POV にカット。12–15 秒:群衆を進むトラッキング再開。通して @Audio 1 の BGM を中程度の音量で、6 秒の笑いの瞬間で少し盛り上げる。」
CRAFT 完全例:企業研修動画
Context: Modern conference room during morning, natural window light streaming in from frame right. Environment matches the professional interior from @Image 1: glass walls, contemporary furniture, technology visible (screens, video conferencing equipment). Reference: @Image 2 for the business trainer's appearance (professional attire, confident demeanor). @Image 3 for the diverse group of trainees seated around the table. @Video 1 for the trainer's hand gestures and body language when explaining concepts. Action: Trainer stands at the head of the conference table, referencing the standing posture from @Video 1. She gestures toward the presentation screen on the wall, then looks at the group with an engaging smile. She walks along the side of the table while speaking, making eye contact with different trainees. Trainees show engaged body language: some lean forward, one takes notes, another nods in understanding. Trainer returns to the head of the table and concludes with a confident gesture. Framing: Begin with wide shot showing entire conference room from the corner, establishing the professional setting and all participants. Cut to medium shot of trainer from front 3/4 angle as she gestures toward screen. Cut to over-the-shoulder shot from behind trainer, showing trainees' attentive faces. Cut to medium tracking shot following trainer as she walks along table. Cut to close-up of engaged trainee taking notes. Return to medium shot of trainer at table head for conclusion. Timing: 0-3 seconds: wide establishing shot. 3-5 seconds: medium shot of trainer gesturing to screen. 5-7 seconds: over-shoulder showing trainee reactions. 7-10 seconds: tracking shot as trainer walks around table. 10-12 seconds: close-up of note-taking trainee. 12-15 seconds: medium shot of trainer concluding. Audio: Corporate background music from @Audio 1 plays quietly. Trainer's voice is clear and confident matching the tone in @Video 1. Subtle keyboard tapping at 10-12 seconds, quiet room tone. Music fades during speaking moments.
入力準備の戦略
画像参照の最適化
質の高い入力が質の高い出力を生みます。画像参照を戦略的に準備します。
キャラクター一貫性のため:
- 顔が正面からはっきり見える、明るくクリーンな写真を使う
- 複数アングルから見る場合は複数アングルの写真を含める
- 参照画像間でライティングを統一する
- モデルを混乱させるような強いフィルターや効果は避ける
- 特定の衣装がある場合は、衣装のディテールがはっきり写った写真を含める
スタイルと美学のため:
- 望むビジュアル処理が明確にわかる画像を選ぶ
- カラーグレーディングを最終ビジョンと一致させる
- 望むライティングアプローチを示す画像を含める
- テクスチャとディテールのレベルを考慮する:高ディテール参照は高ディテール出力になる
商品・オブジェクトのため:
- シンプルな背景で撮影して被写体に集中させる
- 正確な再現のため複数アングルを見せる
- 重要なディテール(ロゴ、テクスチャ、特徴)のクローズアップを含める
- ライティングで形と立体感がはっきりするようにする
動画参照の最適化
カメラの動きのため:
- 再現したいカメラの動きだけが映るようトリミングする
- 動きがアクションに邪魔されずはっきり見えるようにする
- 一つの技法に絞った短いクリップ(3–5 秒)の方が、複数技法の長いクリップより効果的
- 可能な限り高品質の動画を使う:圧縮のアーティファクトは理解に影響する
モーション・振付のため:
- アクションが遮られずはっきり見えるようにする
- ライティングで体の位置と動きが十分わかるようにする
- 同一アクションの複数アングルがあれば活用する
- 参照クリップ作成時は速い動きをスローダウンすることを検討する
特殊効果のため:
- 再現したい効果だけを切り出す
- 背景に対して効果がはっきり見えるようにする
- 効果に特定のタイミングがあれば参照に含める
音声参照の最適化
音楽・リズムのため:
- 高品質な音声ファイルを使う(低ビットレートの圧縮音声は避ける)
- 最も関連するリズム・ムードの部分にトリミングする
- 望むもの(ビート、テンポ、ムード)が明確に伝わる音声を選ぶ
- 同期しやすくするため、強いビートから始まる音声を検討する
声・台詞のため:
- バックグラウンドノイズが少ないクリーンな録音を使う
- 望む声の特徴がはっきり出ているようにする
- 参照クリップは短く、関連する声質に絞る
ファイル優先戦略:12 ファイル意思決定フレームワーク
12 ファイル上限に近づいたら、この意思決定フレームワークで優先順位をつけます。
優先ティア 1:基盤要素(3–4 スロット確保)
- 主キャラ/被写体の見た目
- コアビジュアルスタイル/美的方向
- 必須の環境・設定
優先ティア 2:モーションとカメラ(2–3 スロット確保)
- 特定の撮影が重要ならカメラの動き参照
- 複雑な動きのアクション/振付参照
- 高度な編集を使う場合はシーン転換スタイル
優先ティア 3:音声の基盤(1–2 スロット確保)
- ムードとテンポ用の音楽
- ナラティブを動かす重要な効果音
優先ティア 4:補助ディテール(残りスロットを使用)
- 追加のキャラアングル
- 環境のバリエーション
- 二次的なビジュアル参照
- 補助的な音声
意思決定の質問:
- 「この参照を外すと結果が大きく損なわれるか?」→ はいなら残す
- 「この情報はテキストプロンプトで伝えられるか?」→ はいならファイルを外すことを検討
- 「この参照は複数の目的を果たすか?」→ 複数目的の参照が最も価値が高い
- 「『あると良い』か『必須』か?」→ まず「あると良い」を削る
意思決定の例:
ミュージックビデオを作成し、15 の候補参照がある場合:
- 画像 4:アーティストの異なるアングル
- 画像 3:会場
- 画像 2:特定のライティング
- 動画 2:ダンス振付とカメラの動き
- 音声 2:楽曲と環境音
- 画像 2:衣装ディテール
フレームワークの適用:
- 残す(ティア 1):アーティスト画像 2 枚(正面と横で主要特徴をカバー)
- 残す(ティア 1):会場画像 1 枚(最も代表的なものを選ぶ)
- 残す(ティア 2):動画参照 2 本(どちらも動きに重要)
- 残す(ティア 3):楽曲(ミュージックビデオに必須)
- 残す(ティア 1):ライティング画像 1 枚(最も特徴的)
- 残す(ティア 4):衣装ディテール画像 2 枚(残りスロットを埋める)
- テキストで記述:2 つ目のライティング、環境音、会場の 1 バリエーション
結果:9 ファイル、余裕あり
マルチショットプロジェクトの一貫性テクニック
複数生成でのキャラクター一貫性
複数の動画生成で同じキャラの見た目を保つには、参照の体系的な管理が必要です。
方法 1:マスターキャラクターシート 全ショットの基盤となる 1 枚の総合的なキャラ参照画像を作成します:
- 正面、ニュートラルな表情
- 均一でクリーンなライティング
- 高解像度
- すべてのプロンプトの参照に同じ画像を含める
方法 2:マルチアングルキャラクターパッケージ キャラを様々なアングルで見せる場合は、小さなキャラ参照セットを作成します:
- 正面、横、3/4
- すべての生成で同じ参照セットを使う
- 各プロンプトで「@Image [X] の見た目を正確に維持」と指定する
Feature the detective from @Image 1 (maintain exact facial features, hairstyle, and clothing from this reference). In this scene, the detective enters the warehouse from @Image 2. All physical characteristics of the detective must match @Image 1 precisely: same face, same coat, same build.
シーン間のスタイル一貫性
複数ショットで一貫したビジュアル処理が必要なプロジェクトでは:
テクニック 1:スタイル参照テンプレート 望むビジュアルスタイルを最もよく表す 1 枚の画像を選びます:
- カラーグレーディング
- ライティングアプローチ
- 構図スタイル
- テクスチャとディテールのレベル
すべての生成プロンプトに同じスタイル参照を含めます:
Maintain the visual style from @Image 1 throughout: moody blue color grading, high contrast lighting, film grain texture, shallow depth of field.
テクニック 2:前回の出力を参照に使う 成功した以前の生成を、後のショットの参照に使います:
Create the next scene maintaining the exact visual style from @Video 1 (my previous generation). Color grading, lighting approach, and overall aesthetic should match precisely.
連続ショットの時間的連続性
つながるショットを作る場合:
テクニック 1:オーバーラップの記述 新しいショットが前のショットにどうつながるかを記述します:
This shot picks up exactly where @Video 1 ended. The character who was facing the door at the end of @Video 1 now turns toward camera and begins speaking. Position and lighting should match the final frame of @Video 1.
テクニック 2:転換の指定 つながりポイントを明確に書きます:
Start this generation with the same camera angle and position where @Video 1 concluded. The character should be in the same position, mid-gesture, and this shot continues the motion smoothly.
避けるべきよくある落とし穴
落とし穴 1:曖昧な参照の使い方
問題:「@Image 1 を参照として」とだけ書き、どの側面を参照するか指定しない
対処:参照が何を提供するか常に正確に書く:「@Image 1 はキャラの顔と表情用、背景やライティングは除く」
落とし穴 2:矛盾する指示
問題:「速いアクションシーンで、ゆっくりした思慮深いカメラの動きと穏やかな環境音」
対処:アクションのテンポ、カメラのエネルギー、音楽のテンポ、編集のリズムを一貫した目標に合わせる
落とし穴 3:プロンプトの過剰な複雑化
問題:差別化の少ない 12 ファイルをアップロードし、矛盾するディテールの 500 語プロンプトを書く
対処:CRAFT に沿った明確で構造化されたプロンプトで、少なめの高インパクト参照を使う
落とし穴 4:時間制限の無視
問題:30 秒分の詳細なアクションを 15 秒の生成に詰め込もうとする
対処:複雑なシーケンスは複数回の生成に分けるか、時間に合わせてアクションを簡略化する
落とし穴 5:カメラワークの指定不足
問題:「カメラが動く」とだけ書き、具体的な方向を書かない
対処:正確な撮影用語を使う:「5 秒かけてワイドからミディアムクローズアップへアイレベルを保ったままドリーイン」
落とし穴 6:音声連携の軽視
問題:音声を後付け扱いにする、または「音楽を入れて」とだけ書く
対処:音声の目的・タイミング・統合を指定する:「@Audio 1 が駆動するリズムに合わせ、3 秒と 7 秒でビジュアルのカットを同期」
落とし穴 7:参照品質のばらつき
問題:高解像度のプロ写真と低品質の圧縮画像を混在させる
対処:すべての参照で一貫した品質を保つ:1 つの低品質参照が生成を損なわないようにする
落とし穴 8:モデルの推論を前提にする
問題:「良くして」「わかってくれるよね」と書く
対処:重要なディテールはすべて明示する:モデルは指示を実行するのであり、曖昧な意図を推測しない
クイックトラブルシューティング
問題:複数生成でキャラの見た目が変わる 対処:各プロンプトで同じキャラ参照画像を使い、「@Image X の見た目を正確に維持」と明記する
問題:カメラの動きが参照と合わない 対処:テキストでカメラの動きの記述を増やす、複雑な動きは段階に分けて指定する
問題:スタイルが参照と合わない 対処:参照とあわせてスタイル要素をテキストで記述する:「@Image 1 のカラーグレーディングに合わせる:彩度を落とした青、ハイコントラスト、潰れた黒」
問題:タイミングがずれる 対処:秒数でより具体的な時間マーカーを追加し、各時点で何が起きるか指定する
問題:音声がムードと合わない 対処:音声の役割をより明示する:「@Audio 1」だけでなく「@Audio 1 で 10 秒でクレッシェンドする緊張感のあるサスペンス」
まとめ
Seedance 2.0 は、画像・動画・音声・テキストを入力として受け入れる包括的なマルチモーダルアプローチにより、AI 動画生成の大きな進歩を実現しています。テキストのみのプロンプトを超え、実際に「見せて伝える」指示が可能になり、プロにこれまでにないクリエイティブコントロールを提供します。
AI 動画における Seedance 2.0 の位置づけ
マルチモーダル能力が Seedance 2.0 を他プラットフォームと差別化します。Kling、Veo、Sora は優れた text-to-video 能力を提供しますが、Seedance の動画・音声の直接参照により、カメラワーク、モーションパターン、リズム同期をテキスト説明だけでは困難または不可能なレベルで正確に再現できます。ビジュアルスタイル、キャラクター一貫性、撮影の実行を厳密にコントロールする必要があるプロには、Seedance が最適なツールとなります。
プラットフォームは能力の強化と機能拡張を続けています。マルチモーダル参照システムと CRAFT プロンプトフレームワークを習得すれば、プラットフォームの進化に合わせてより高度な動画制作の基盤が得られます。
重要なポイント
マルチモーダルコントロール:Seedance 2.0 の画像・動画・音声・テキストの組み合わせにより、言葉で全てを説明するのではなく、望む表現を AI に直接示せます。この根本的なアプローチの転換により、正確なカメラワーク、特定の振付、ビート同期の編集など、以前は難しかった指定がそのまま実現できます。
比較上の強み:Kling、Veo、Sora と比較して、Seedance 2.0 は音声連携と動画参照の深さで独自の能力を提供します。音声ファイルの直接アップロードと参照により、ムードとビート同期を精密にコントロールできます。動画参照能力はスタイル転送を超え、モーションとカメラの完全な再現まで対応します。
CRAFT プロフェッショナルフレームワーク:5 ステップの CRAFT プロンプト手法により、マルチモーダル参照を効果的に組み込む体系的なアプローチが得られます。Context、Reference、Action、Framing、Timing の構造に従うことで、マルチモーダルシステムの力を最大限に活かす包括的な指定が可能になります。
Morphic で利用可能:プロのクリエイターは Morphic を通じて Seedance 2.0 に待機リストや限定ベータなしで即座にアクセスでき、現在の制作ワークフローへの実用的な統合が可能です。
よくある質問
使い方の質問
そのキャラクターが登場するすべての生成で、同じキャラクター参照画像を使います。プロンプトで 「@Image X の見た目を正確に維持」と明記し、服装や表情など変える部分があれば記述しつつ、顔の 特徴、体格、その他の識別特徴は同一であることを強調します。最も良い結果には、正面から明るく はっきり写った写真をマスターキャラ参照として使います。
望むカメラワークを示す動画をアップロードし、「@Video 1 for camera movement only」のように参照 を指定します。プロンプトでは撮影用語(ドリーイン、トラッキングショット、クレーンアップ)で 動きを記述し、タイミングも書きます。複雑な動きは段階に分けます:「0–5 秒:ワイドからミディ アムへドリーイン;5–10 秒:距離を保ちながらパン右」。
音楽トラックをアップロードし、プロンプトで精密なタイミングでビート同期イベントを指定します: 「3 秒(1 拍目)でシーン変更、6 秒(2 拍目)でキャラのジェスチャー、9 秒(3 拍目)で転換」。 音声を参照します:「@Audio 1 がリズムとテンポを提供し、ビジュアルの変化はビート構造に同期」。
動画延長機能または融合テクニックを使います。延長の場合:既存動画をアップロードし、「Extend @Video 1 by X seconds」とつなぐアクションの詳細を指定します。融合の場合:一方の終わりと他方 の始まりを参照するブリッジセグメントを作り、それらをつなぐ転換アクションを明示的に記述します。
プロンプトで秒数を使った時間マーカーを指定します:「0–3 秒:[アクション 1]、3–7 秒:[アク ション 2]、7–12 秒:[アクション 3]」。アクションの長さは現実的に:複雑な動きには十分な時間 が必要です。出力でタイミングが詰まっていると感じたら、次の生成ではそのアクションに割り当てる 秒数を増やします。
結果への影響が最も大きい参照を優先します。テキストで説明しづらい要素(特定の顔、複雑なカメラ ワーク、正確な振付)に集中し、より単純な要素はテキストプロンプトで記述します。可能なら関連 概念を 1 枚の画像にまとめます:例として、ライティングスタイルとカラーグレーディングを別々の 画像ではなく 1 枚で示す。
望む効果が含まれる動画をアップロードし、「@Video 1 for the particle effect technique only」の ように指定します。プロンプトで効果を詳しく記述します:いつ起こるか、どう動くか、ビジュアルの 特徴。最も良い結果には、効果がはっきり見えて切り出されている参照クリップを使います:「@Video 1 の地面から上がり 5 秒で分散する発光パーティクルの渦を参照」。
望む声質を含む音声または動画参照をアップロードし、「@Audio 1 for voice timbre and delivery style」と指定します。プロンプトで声の特徴を記述します:「キャラは @Audio 1 の深く威厳のある トーンで、次の台詞を話す:[台詞テキスト]」。
シーケンス内のすべての生成で、参照素材を一貫して使います。同じスタイル参照画像、同じキャラ参照、 必要に応じた変化だけの似たプロンプトを使います。前回うまくいった出力を参照に含めます: 「@Video 1(前回の生成)のビジュアルスタイルを維持」で連続性を確保します。
動画延長機能で長いシーケンスを組み立てます。最初の 15 秒セグメントを生成し、その動画を参照 としてアップロードして「Extend @Video 1 by [時間]」と指定して延長します。複数回の延長を連結 してより長い連続コンテンツにできますが、連続性のため各延長は一般的に 5–10 秒がベストです。
比較の質問
Seedance 2.0 の主な差別点は、音声ファイルの直接アップロードと動画参照の深さを含む包括的な マルチモーダル入力です。Kling は画像参照を伴う強力な text-to-video を提供しますが、Seedance は特定の音楽トラック、効果音、動画クリップをアップロードしてムード、リズム、モーションを精密 にコントロールできます。正確な音声同期や複雑なカメラワークの再現が必要なプロジェクトで特に 価値があります。
Seedance 2.0 は主要 AI 動画プラットフォームの中で、音声ファイルの直接アップロードを受け付ける 唯一のツールです。Kling、Veo、Sora はテキスト説明から音声を生成するため、参照音声ファイルは 受け付けません。そのため Seedance は特定の音楽に合わせる、声質を再現する、音楽の実際のビート にビジュアル変化を同期するといったことが可能で、競合は text-to-audio でビジョンと完全に一致 しない場合があります。
Seedance 2.0 は 1 回の生成で最大 15 秒、Kling は 10 秒が上限です。一方 Sora は 1 回で最大 60 秒を生成できます(利用可能な場合)。Seedance でより長いコンテンツを作るには、動画延長機能で 複数セグメントを連結します。15 秒は多くの商用・SNS 動画が複数の短い高品質クリップで構成される ため、品質と実用性のバランスが良い長さです。
Seedance 2.0 のマルチモーダルアプローチでは、複数の参照画像、動きを見せる動画クリップ、ムード を決める音声をアップロードできるため、スタイル再現のコントロールがより直接的です。テキストで スタイルを説明するのではなく、複数アングルで例を示せます。そのため、テキストのみのアプローチ より複雑なスタイルの忠実な再現になりやすいです。
プロンプト間で一貫したキャラ画像を使い、正しく使えば Seedance 2.0 の画像参照システムは強い キャラクター一貫性を提供します。Kling のキャラ一貫性機能と同等で、Veo や Sora のテキスト ベースのキャラ説明よりコントロールしやすいです。ポイントは高品質なキャラ参照画像を使い、各 生成で「@Image X の見た目を正確に維持」と明記することです。
実用性はアクセスと機能の提供状況で決まります。Seedance 2.0 は Morphic 経由で商用制作ワーク フローに即座にアクセスでき、Veo は限定ベータでアクセスが制限されています。能力面では、 Seedance のマルチモーダル音声連携と動画参照の深さが、ブランドの厳密な一致、特定音楽の同期、 正確なスタイルマッチを必要とする商用制作で有利です。一方、Veo の延長生成能力は広く利用可能に なれば、ある種の長尺用途で有利になる可能性があります。
Seedance 2.0 と Sora は得意分野が異なります。Sora はより長い動画(最大 60 秒)を生成し、テキ ストプロンプトから物理法則や複雑なシーンの理解で印象的なデモを見せています。Seedance 2.0 は 短いクリップ(最大 15 秒)ですが、Sora にないマルチモーダルコントロールを提供します:音声の 直接アップロード、モーション再現のための動画参照、複数のビジュアル参照を同時に示す能力。スタ イル、モーション、音声同期を精密にコントロールするプロジェクトでは Seedance のマルチモーダル アプローチが有利です。テキストから長い 1 ショットを生成する場合は Sora が向いている可能性が あります(利用可能な場合)。
両プラットフォームともモーション参照能力がありますが、Seedance 2.0 の動画参照システムの方が 深いです。Kling はモーションブラシと基本的なモーション転送を提供し、Seedance は完全な動画 クリップをアップロードしてモーションパスだけでなくカメラワーク、編集リズム、複雑な振付を フレーム単位で再現できます。格闘シーケンスやダンスの全体を Seedance に示せば、説明やモーション パスを描くのではなく、動きを正確に再現できます。
Seedance 2.0 は Morphic 経由で待機リストや限定ベータなしに一般公開されています。Sora と Veo は限定ベータのままです。即時利用可能であるため、アクセス待ちをせずに現在のプロのワークフロー と制作スケジュールに組み込めます。
技術的な質問
Seedance 2.0 は標準的な画像形式(JPG、PNG)、一般的な動画形式、音声は MP3 を受け付けます。 具体的な形式の互換性は Morphic のアップロードインターフェースで処理されます。最も良い結果には 高品質のソースファイルを使います:高解像度の画像、圧縮の少ない動画、高ビットレートの音声。
全入力タイプ(画像、動画、音声の合計)で最大 12 ファイルまでです。加えて、画像は最大 9 枚、 動画は 3 クリップで合計 15 秒、音声は 3 ファイルで合計 15 秒まで。これらの上限に近づく場合は、 インパクトの大きい参照を戦略的に選ぶことが重要です。
Seedance 2.0 は 1 回の生成で 4〜15 秒の動画を生成します。1 秒刻みで長さを選択できます。より 長いコンテンツには、動画延長機能で複数生成を連結するか、別々に生成したセグメントをポストで 編集してつなげます。
はい、Morphic 経由の Seedance 2.0 は商用制作に利用できます。具体的なライセンスと利用権は Morphic の利用規約に従います。商用利用、クライアント仕事、表記要件の詳細は規約を確認して ください。
はい、Seedance 2.0 は生成全体で一貫した解像度と品質を維持します。出力解像度はプロ用途に適した 高品質動画ですが、コンテンツと選択したアスペクト比により具体的な解像度は変動します。
はい、Seedance 2.0 は標準 16:9、シネマ 2.35:1 ワイドスクリーン、SNS 向け縦型など複数の アスペクト比に対応しています。生成設定またはプロンプトで希望のアスペクト比を指定してください。
Seedance 2.0 は Morphic から利用できます。Morphic にアクセスし、 アカウントを作成またはログインして、動画生成インターフェースから Seedance 2.0 を利用します。 マルチモーダル入力と @ 参照機能は Morphic のワークフローに統合されています。
はい、生成動画は次のように活用できます:新規生成の参照として特定要素を変える、動画延長の入力 として続きを追加する、動画融合ワークフローで他クリップとつなぐ、または標準の動画編集ソフトで 従来の編集に使う。生成動画は編集・結合・調整して、プロジェクトに合わせたワークフローで利用 できます。
