Seedance 2 のプロンプトがフラグ？修正ガイドとコツ

Q: 同じアップロード画像を複数の参照目的に使えますか？

はい。異なる役割で複数回タグ付けできます。例: @Image 1 as the first frame, environment and lighting also based on @Image 1。各役割は明示的に記述する必要があります。

Q: 既存部分を変えずに動画クリップを延長するには？

クリップをアップロードし、@Video 1 で参照し、延長秒数と新規内容を記述します。生成時間は合計尺ではなく、新規区間の長さだけに設定してください。

Q: Seedance 2.0 は JSON プロンプトを受け付けますか？

はい。JSON はネイティブ対応で、特にマルチショット構成と相性が良いです。全体の映画的文脈には visual_world ブロック、各カメラ位置とアクションには個別の shot ブロックを使います。この構造は、生成の不安定さを招く曖昧さを防ぎます。

アイデアを練り、参照画像をアップロードし、シーンを書き上げたのに生成がフラグされる。あるいは、説明した内容とまったく違う結果が返ってくる。単語を少し変えて再試行しても、同じ壁にぶつかる。

問題なのはあなたのアイデアではありません。多くの場合、シーンの内容そのものですらありません。問題は、Seedance 2.0 があなたの意図とは異なる形でプロンプトを読んでいることです。この「読み方」の仕組みを理解すれば、対処は明確になります。

このガイドでは全体像を網羅します。入力システムの仕組み、フィルターがそのように動作する理由、問題なく通るプロンプトの構成方法、画像アップロードの正しい扱い方、そして多くのユーザーが見落としがちな上級テクニックまで。これらを適用した多くの人が、次の生成で大きな改善を実感しています。

Seedance 2.0 の入力システムを理解する

まずは、Seedance 2.0 が正確に何を受け付けられるのか、そして多くの人がプロンプトを書く前の段階でどこでつまずいているのかを理解することが重要です。

画像: 最大9枚。開始フレーム、キャラクター参照、シーン環境、またはスタイルの基準として使用。
動画クリップ: 最大3本、合計15秒以内。カメラ動作の参照、モーション再現、延長・編集用の素材として使用。
音声ファイル: 最大3本、合計15秒以内。BGM、サウンドデザイン、ナレーションのトーン参照として使用。
テキスト: 自然言語または構造化JSONのプロンプト。

すべての入力タイプを合わせたファイル総数は12を超えられません。上限に近づいたら、まず音声と二次的なビジュアル参照の優先度を下げてください。これらはテキストで説明しやすい要素です。生成結果の見た目を最も直接的に左右する入力に、アップロード枠を割り当てましょう。

[Reference] 適切な開始モードを選ぶ

First and last frames: 単一画像＋テキスト生成で使用。シンプルなショットなら扱いやすく高速。
All-in-One Reference: 画像・動画・音声を任意に組み合わせる場合は必須。@ タグ参照が機能する唯一のモードです。入力タイプを混在させるなら、このモードを使う必要があります。

注: Smart Multi-Frame と Subject Reference は現在 Seedance 2.0 では利用できません。

プロンプトがフラグされる本当の理由

多くの人は、フラグされたプロンプトにはフィルターを引っかける特定の単語やフレーズがあると考えます。その前提のままでは、単語を置き換え、免責を足し、プロンプトを削るというループに陥ります。ですが、それでは根本解決になりません。

Seedance 2.0 のコンテンツフィルターはそのようには動きません。言語モデルがプロンプト全体をひとつのシーンとして読み取り、そのシーンが何を表しているかを判断します。評価しているのは個別語ではなく、意図と文脈です。

映画スタジオの警備員と銀行の警備員を想像してください。同じ小道具の銃でも、文脈が目的を明確にするため、スタジオのゲートでは問題なく通ります。銀行ではまったく別の扱いになります。物は同じでも、文脈が違うのです。

実際に起きることはこうです。単体ではセンシティブに見える単語でも、しっかり構成された映画的プロンプトの中なら問題なく通ることがあります。フィルターは全体像を読みます。読み取るべき絵がない、設定がない、視覚的目的がない、物語の論理がないプロンプトでは判断材料が不足します。何を作っているかをフィルターが確信できないときは、安全側に倒れます。

本来フラグされるべきでないのにフラグされるケースの核は、ほぼここです。悪いコンテンツでも、悪いアイデアでもありません。単に、フィルターが理解するための情報が足りないだけです。

実務上の転換点はこれです。映画制作者がショットを説明するように読めるプロンプトは通りやすく、友人へのメモのように読めるプロンプトはフラグされやすい。

1つのカテゴリは修正不能なハードブロックです。 次の2種類は、プロンプトが読まれる前の画像スキャン段階で拒否され、映画的フレーミングでは回避できません。

実在して識別可能な人物の顔: 著名人、政治家、公的人物
名前付きの著作権キャラクター: ブランド化されたヒーロー、ディズニーキャラクター、認識可能な架空IP

実在人物のアップロード写真で生成が失敗する場合、それはプロンプトの問題ではなく、プラットフォームレベルの制限です。

フィルターに「創作」と明確に読ませるプロンプトの書き方

[Filter] アクションだけでなくシーン全体をフレーム化する

フラグされるプロンプトで最も多い構造は、周辺文脈のない単一アクションです。何かは起きていても、場所がなく、視覚的な空気感がなく、その場にカメラがある理由がありません。フィルターはこれが映画セットなのか、それ以外なのかを判別できません。

解決策は、アクションを削ることではありません。意図が自明になるまで、周囲のシーン情報を積み上げることです。

これを避ける	代わりにこれを使う
兵士が通りで誰かを撃つ	ワイドショット、1940年代の戦禍にある東欧の通り、灰色の軍服の兵士が交戦中に画面外の位置へ向けて発砲、背景では崩れた建物から煙が立ちのぼる、曇天のフラットな光、35mmグレイン、ドキュメンタリー風の手持ちフレーミング、前景に瓦礫が散乱

アクション自体は同じです。前者は評価対象を1つしか与えません。後者は戦争という文脈、時代設定、カメラ位置、そして視覚的な雰囲気全体を与えます。片方は報告文のように読み取られ、もう片方は映画のブリーフとして読み取られます。

アクションから外側へ広げて、プロンプトで次の4つに答えてください。

どこで起きているか？
見た目はどうか？
カメラは何をしているか？
全体の雰囲気はどうか？

この4つすべてに答えると、多くのフラグ問題は自然に解消します。

[Prompt] プロンプトは物語ではなく、視覚的事実の列として扱う

見落とされがちなフラグ原因のひとつは、プロンプトが視覚的ではなく感情的・物語的に読めることです。次の要素は、モデルが処理すべき解釈ノイズを増やします。

キャラクターの動機
劇的なバックストーリー
関係性の文脈
感情の説明

フィルターが重視するのは、このシーンが実在した場合にカメラが何を見るかです。理由は必要ありません。

脚本には「シーン記述」と「サブテキスト」の2層があります。Seedance 2.0 に必要なのはシーン記述だけです。感情の底流、背景事情、キャラクターが走る理由――それはサブテキストであり、書き手の頭の中に置くべきで、プロンプトには不要です。

プロンプトに文を入れる前に、1つだけ確認してください。実際の撮影なら、その文はショットリストに載るか？載らないなら、ほぼ確実にプロンプトには不要です。

この規律は生成品質も大きく向上させます。モデルが実行できるのは「見えるもの」であり、「推測できるもの」ではありません。長い物語調より、密度が高く具体的で視覚的なプロンプトの方が、ほぼ常に高い結果を出します。

マルチショットのシーケンスでは、JSONで構造化するとこの規律を自動で保てます。Seedance 2.0 はこれをネイティブで受け付けます。

{
  "visual_world": {
    "light": "柔らかな曇天、拡散した影、硬いエッジなし",
    "color": "落ち着いた自然色、冷たいホワイト、彩度を抑えたトーン",
    "film": "35mmグレイン、アナモルフィックレンズ、ハイライトの柔らかなハレーション",
    "atmosphere": "静か、孤立した、広大な"
  },
  "sequence": {
    "duration": "10秒",
    "pacing": "ゆっくりしたビルドアップから素早いカットへ、静寂で終わる",
    "shots": {
      "shot_1": {
        "duration": "3秒",
        "camera": "固定ワイドショット、ローアングル",
        "action": "馬に乗った孤独な騎手が雪原の尾根を越える",
        "transition": "SMASH CUT"
      },
      "shot_2": {
        "duration": "4秒",
        "camera": "背後からのトラッキングショット、ハンドヘルドの感覚",
        "action": "馬と騎手が深い雪の中を全力疾走し、マントが風になびく",
        "transition": "SMASH CUT"
      },
      "shot_3": {
        "duration": "3秒",
        "camera": "静止したワイド、完全に固定",
        "action": "空の雪原、遠くの尾根に動かずに立つオオカミ"
      }
    }
  }
}

visual_world ブロックを先に置くことで、シーケンス全体の映画的レジスターが確立されます。そのうえで各ショットは、その瞬間にカメラが見る内容だけを記述すれば十分です。

[Prompt] 制作言語を使ってコンテンツ種別を明確にする

知っておくべき再現性の高い傾向があります。映画制作の語彙を含むプロンプトは、平易な言葉で書かれたプロンプトより、明らかに広い許容幅で評価される傾向があります。

理由はシンプルです。ショットタイプ、レンズ仕様、照明セットアップ、アスペクト比が入ると、モデルはそれを制作ブリーフとして解釈します。映画制作の文脈では、ドラマ性が高く、強度があり、道徳的に複雑な素材も描写対象になります。この文脈が、フィルターの重みづけを変えます。

これは建設現場でヘルメットをかぶるのに少し似ています。ヘルメット自体が作業内容を変えるわけではありませんが、その環境が何で、どんなルールが働くかを周囲に即座に伝えます。プロンプトの中の制作用語2〜3個も同じで、フィルターが他を評価する前にレジスターを確立します。

これは、すべてのプロンプトを専門用語だらけにするという意味ではありません。フレーミングが曖昧でなくなるだけの制作言語を入れる、という意味です。以下はカテゴリ別の参照リストです。

ショットタイプ

ワイドショット、ミディアムショット、クローズアップ、エクストリームクローズアップ
オーバーショルダー、POV、俯瞰（bird's-eye view）、ツーショット
ローアングル、ハイアングル、ダッチアングル

カメラ動作

ドリーイン / ドリーアウト
トラッキングショット、パン、ティルト、クレーンショット
固定（locked off）、ローアングルプッシュ、周回ショット、ハンドヘルド

レンズとフォーマット

35mmグレイン、アナモルフィックレンズ、2.39:1 アスペクト比、1.85:1
ヴィンテージガラス、ソフトハレーション、浅い被写界深度
レンズフレア、ラックフォーカス

ライティング

曇天の拡散光、ヘイズを通るボリューメトリックレイ
実景照明（practical lighting）、サイドバックライト、motivated shadow
ゴールデンアワー、硬い指向性の光、リムライト

色とトーン

彩度を抑えたミュートパレット、高コントラスト、ブリーチバイパス
冷たい青系トーン、暖かいアンバー、潰れた黒
白飛び気味のハイライト、フラットな低コントラストグレード

これらのカテゴリのどれかから2〜3語足すだけで、制作文脈は十分に確立されます。多くの場合、それだけで足ります。

センシティブ要素がないのにプロンプトがフラグされる理由

ときどき、プロンプトにセンシティブな要素がまったくないのに生成がフラグされることがあります。アクションもドラマも難しい題材もない。ただ問題なく通るはずのシーンです。

これは、プロンプトが疎すぎるときに起きます。映画的フレーミング、シーン文脈、視覚的具体性のない短い平文説明では、フィルターに不完全な絵しか渡せません。脚本の途中の1文だけを、表紙もシーン見出しもト書きもなく渡すようなものです。それがスリラーなのかコメディなのか、あるいは別の何かなのか判断できません。不完全な絵は承認されるのではなく保留されます。

これを避ける	代わりにこれを使う
人がナイフを持っている	クローズアップ、木製のまな板の上でシェフの手が包丁を握る、刃が丸ごとの魚へ振り下ろされる瞬間のモーションブラー、背景に湯気の立つキッチン環境、暖かいタングステン照明、浅い被写界深度、映画的なフードドキュメンタリースタイル

同じ物体でも、読み取られ方はまったく異なります。前者は1つの物体と1つのアクションしか与えません。後者は環境、目的、制作文脈、カメラ記述を与えます。

対処はシンプルです。シンプルなシーンでも、次を加えると効果があります。

具体的な設定と時代
雰囲気またはムードの記述
カメラ位置またはショットタイプ
文脈確立のための制作用語を1〜2個

@ 参照システム: なぜアップロードが静かに失敗するのか

Seedance 2.0 の問題のかなりの数は、フィルターではなく参照設定の問題です。ユーザーは画像や動画をアップロードすれば、モデルが各ファイルの用途を理解すると期待しますが、モデルは勝手に前提を補ってはくれません。

動画をアップロードしただけではカメラ参照にはなりません。画像をアップロードしただけでは開始フレームにはなりません。ラベルのない写真の束を現場監督に渡す場面を想像してください。各写真に何が写っているかは分かっても、どれを開始フレームにしたいのか、どれが衣装参照なのか、どれが背景のインスピレーションなのかは分かりません。ラベルがなければ推測になります。Seedance 2.0 も同じです。アップロードした各ファイルには、プロンプト内で @ タグを使って明示的な役割を与える必要があります。そうしないと曖昧に処理されます。

プロンプト欄で @ を入力すると参照セレクターが表示されます（またはツールバーの @ アイコンをクリック）。そのうえで、アクションを記述する前に各ファイルの用途を明確に書いてください。

やりたいこと	書き方
開始フレームを設定する	@Image 1 as the first frame
カメラ動作を参照する	reference all camera movements from @Video 1
キャラクター外見を一致させる	character appearance based on @Image 2
BGMを設定する	use @Audio 1 as the background score
動きの振り付けを再現する	replicate the movement style from @Video 1
環境を定義する	the setting is based on @Image 3
ナレーションのトーンを参照する	match the voiceover tone of @Video 2

複数参照を使う場合は、シーン説明の前にプロンプト冒頭で全役割を列挙してください。明示的な役割がない @ タグは、出力の不安定さや想定外結果を引き起こす最も典型的な原因のひとつです。

Seedance 2.0 が画像アップロードをどう読むか（そしてどこで破綻するか）

[Image] キャラクター画像をアップロードしたら、画像に仕事をさせる

キャラクター参照画像をアップロードすると、同じキャラクターをプロンプトでも詳細に書きたくなるのは自然です。ですが、それは避けてください。外見に関する仕事はすでに画像が済ませています。テキストで重ねても補強にはならず、モデルが整合させるべき競合情報を1層増やすだけです。

プロンプトで必要なのは、シーンを明確に記述することです。

ショット内で何が起きているか
カメラがどう配置されているか
環境がどのように見えるか
ショットがどう動くか

外見は画像が担当し、プロンプトはカメラが見るものを担当します。

ここでフラグは「画像側の問題」にもなります。Seedance 2.0 は、キャラクターが未成年と解釈されうるプロンプトに対して、より厳格な評価を適用します。若年を示す語（"child," "kid," "young," "boy," "girl"）は、その語句の周辺だけでなくプロンプト全体の審査を厳格化し、アップロード画像の内容に関係なく影響します。

より安全な方法は、キャラクターをシーン内での役割として記述することです。人物が誰かは画像に任せ、プロンプトでは何が起き、カメラが何を見るかだけを書きます。

これを避ける	代わりにこれを使う
若い少年が建物の炎上を見つめる	暗いコートを着た小柄な人物が群衆の端に立ち、炎に包まれる建物を見つめる、後方からのミディアムショット、炎の暖かなオレンジの光、暗い空へ立ちのぼる濃い煙、cinematic、2.39:1 anamorphic、documentary style

最初の文の "young" は、プロンプト全体の感度しきい値を引き上げます。2つ目の文は、キャラクターの同定をアップロード画像に任せ、プロンプトはカメラが見る事実だけを記述しています。

[Image] 送信前にフラグ？問題は画像そのもの

Seedance 2.0 には、プロンプトフィルターとは独立して動く画像評価レイヤーがあります。アップロード画像に明瞭な顔が含まれていると、テキストを一切処理する前に拒否されることがあります。これが、プロンプトを書き直しても変化がないパターンの説明です。そもそもプロンプトが読まれていません。

回避方法:

顔をカメラから外す。 被写体を背面または顔特徴が見えない角度でフレーミングする。衣服、姿勢、髪、環境だけでも多くの参照目的には十分です。
引きの画角にする。 被写体がフレーム内でシルエットまたは小要素として読めるまで引いて、主題として顔が支配しない構図にする。
写真よりイラストを使う。 写真参照をイラストまたはスタイライズ画像に置き換える。評価のかかり方が異なり、イラストは通過しやすい傾向があります。
参照目的をずらす。 顔や同一性ではなく、衣装、設定、カラーパレット、空間構図の参照として画像を使う。

明確なプロンプト側の理由がないのに失敗し続ける場合は、テキストを書き換える前に画像を調整してください。

知っておく価値のある上級テクニック

[Advanced] 既存映像を延長する

延長秒数を明示し、新しい区間に含める内容を記述します。

Extend @Video 1 by 6 seconds. [Description of new segment content.]

生成時間は合計尺ではなく、新規区間の長さだけに設定してください。6秒延長するなら、duration は6秒です。

[Advanced] 2つのクリップを生成中間でつなぐ

Generate a connecting scene between @Video 1 and @Video 2. The transition shows [describe the action, environment, or movement that links the two clips].

生成区間は2つのアップロード済みクリップの間に挿入されるため、それ自体が独立した短いシーンであるかのように記述してください。

[Advanced] 参照クリップからカメラスタイルをコピーする

欲しい動きのスタイルを持つクリップをアップロードし、直接指定します。

Reference all camera movements from @Video 1, including the low-angle circling shot and the push into close-up.

モデルは参照クリップから、動きのリズム、フレーミングの論理、トランジションのテンポを引き出します。技法名は正確なほうが有利ですが必須ではありません。

[Advanced] 音楽に編集を同期する

Scene transitions should align with the beat positions of @Audio 1. Apply visual style changes at each cut.

Seedance 2.0 は、カット、照明変化、シーントランジションを、アップロード音声トラックのリズムに同期できます。

[Advanced] 既存の動画クリップの音声を使う

すでに参照しているクリップに欲しい音声が入っているなら、別途音声をアップロードする必要はありません。

Use the audio embedded in @Video 1 as the background score.

[Advanced] よくある生成失敗を減らすネガティブプロンプト

Seedance 2.0 はメイン記述と併せてネガティブプロンプト指示を受け付けます。これはフィルターフラグを回避する方法ではありませんが、適切に書けば、何度も出る視覚アーティファクトを減らすのに有効です。

あらゆる問題を列挙するのではなく、実際に発生している失敗に絞って短く具体的に書いてください。

negative: no jitter, no warping, no flickering, no identity drift

negative: no text morphing, no garbled logos, no color shift

negative: no motion blur on face, no floating limbs, no background collapse

長いネガティブプロンプトは逆効果になったり、単純に無視されたりします。実際の問題に紐づく2〜3語の的確な指定のほうが、網羅的リストより効果的です。

[Community] コミュニティで試されていること

シーン記述を中国語で書き、セリフや画面上テキストは英語のままにすると通過率が上がったという報告があります。理由としては、Seedance 2.0 が中国語に強い学習基盤で開発されており、中国語プロンプトではフィルターしきい値の解釈がわずかに変わる可能性があるためです。

これは確実な解決策ではなく結果にはばらつきがありますが、映画的フレーミングが十分なプロンプトでもフラグされ続ける場合には、低コストで試せる手段です。シーン記述だけを翻訳ツールに通し、セリフ行は英語のままにして、出力が変わるか確認してみてください。

入力上限の早見表

入力タイプ	上限
画像	最大9枚
動画クリップ	最大3本、合計15秒まで
音声ファイル	最大3本、合計15秒まで
全ファイル合計	最大12個
生成時間	4〜15秒

生成前のクイックチェックリスト

All-in-One Reference モードを使っているか？（入力タイプを混在させる場合は必須）
すべての @ タグに、プロンプト内で明示的な役割があるか？
プロンプトは物語や背景設定ではなく、視覚シーンを記述しているか？
制作言語要素（ショットタイプ、カメラ移動、照明記述）を少なくとも1つ入れているか？
すべての文が、カメラが見る内容の記述か、映画的文脈の確立になっているか？
キャラクターは年齢ではなく役割で参照しているか？
参照画像に目立つ顔は含まれていないか、またはトリミング／イラスト化されているか？
参照画像に実在の識別可能人物や名前付き著作権キャラクターが含まれていないか？
総ファイル数は12以下か？

よくある質問

プロンプトにセンシティブな内容がないのにフラグされました。なぜですか？

フィルターは、何を作っているかを確信して解釈できるだけの視覚文脈を必要とします。映画的フレーミングやシーン詳細のない短い平文プロンプトは不完全な絵しか与えないため、安全側の判定になります。設定、雰囲気、カメラ位置、制作文脈を追加すると、通常は解消します。

プロンプトを書き直し続けても生成が失敗します。他に何が原因ですか？

プロンプト編集で変化がない場合、画像側が原因の可能性が高いです。Seedance 2.0 はプロンプトフィルターの前にアップロード画像へ顔検出を実行します。参照画像で顔が検出されると、その段階で生成が拒否されます。これ以上プロンプトを直す前に、画像編集、トリミング、引き構図化、イラストへの置き換えを行ってください。

実在人物の写真をアップロードすると生成が拒否されるのはなぜですか？

これはプロンプトの問題ではなく、プラットフォームレベルのハードブロックです。Seedance 2.0 はプロンプト処理前に、アップロード画像内の識別可能な実在顔をスキャンします。著名人、公的人物、または認識可能な肖像を持つ人物写真はその段階で拒否されます。回避策は、イラスト参照または個人識別できない画像へ切り替えることだけです。

カメラ用語を入れると、プロンプトがフラグされるかどうかに本当に影響しますか？

はい。制作言語は「これは映像制作文脈である」というシグナルになり、平文記述より広い許容幅で評価されます。ショットタイプ、レンズ仕様、照明記述を入れることで、プロンプト全体の意図解釈が変わります。

First and Last Frames と All-in-One Reference の違いは何ですか？

First and Last Frames は単一画像＋テキスト生成向けです。All-in-One Reference は、画像・動画・音声など複数入力タイプを組み合わせるときに必須です。また、@ タグが機能する唯一のモードでもあります。

同じアップロード画像を複数の参照目的に使えますか？

はい。異なる役割で複数回タグ付けできます。例: @Image 1 as the first frame, environment and lighting also based on @Image 1。各役割は明示的に記述する必要があります。

既存部分を変えずに動画クリップを延長するには？

クリップをアップロードし、@Video 1 で参照し、延長秒数と新規内容を記述します。生成時間は合計尺ではなく、新規区間の長さだけに設定してください。

Seedance 2.0 は JSON プロンプトを受け付けますか？

はい。JSON はネイティブ対応で、特にマルチショット構成と相性が良いです。全体の映画的文脈には visual_world ブロック、各カメラ位置とアクションには個別の shot ブロックを使います。この構造は、生成の不安定さを招く曖昧さを防ぎます。

ネガティブプロンプトは使うべきですか？

コンテンツフィルター通過には有効ではありませんが、同じ視覚アーティファクトが繰り返し出る場合には有効です。短く具体的に、実際の問題に合わせて使ってください。長い汎用リストより、2〜3語の的確な指定のほうが効果的です。

12ファイル上限を超えるとどうなりますか？

すべての入力タイプ合計で12ファイルを超えると受け付けられません。アップロード前に配分を計画してください。二次的なスタイル参照や音声説明は、アップロードよりプロンプト文で扱うほうが効率的な場合が多いです。

Morphicで生成を始める

ここで扱った内容を検証する最良の方法は、実際に生成を開いて試すことです。Morphic の Seedance 2.0 なら、画像・動画・音声・テキストのフルなマルチモーダル入力を、インストール不要ですぐ使えます。