Seedance 2 提示词被标记？修复指南与技巧

Q: 同一张上传图片可以用于多个参考用途吗？

可以。用不同角色多次标注即可。例如：@Image 1 as the first frame, environment and lighting also based on @Image 1。每个角色都需要明确写出来。

Q: Seedance 2.0 支持 JSON 提示词吗？

支持。JSON 是原生支持的，特别适合多镜头序列。用 visual_world 模块定义整体电影语境，再为每个机位与动作写单独的 shot 模块。这个结构能减少导致生成不稳定的歧义。

你花时间打磨了创意，上传了参考图，写好了场景。结果生成被标记了。或者生成结果和你描述的完全不像。你改一两个词再试一次，却还是撞上同一堵墙。

问题不在你的创意。多数情况下，甚至不在你场景内容本身。问题在于 Seedance 2.0 对你的提示词的理解方式，和你的本意不一致。一旦你理解了它是如何“阅读”提示词的，解决方案就会变得很明显。

这份指南会覆盖完整全貌：输入系统如何工作、过滤器为什么会这样表现、如何组织能顺利通过的提示词、如何正确处理图片上传，以及如何解锁大多数用户从未触达的高级技巧。大多数人在应用这些改动后，下一次生成就会有明显提升。

理解 Seedance 2.0 的输入系统

在开始之前，先弄清楚 Seedance 2.0 到底能接收什么输入，以及大多数人还没开始写提示词就已经踩坑的地方。

图片： 最多 9 张。可作为开场帧、角色参考、场景环境或风格锚点。
视频片段： 最多 3 段，总时长不超过 15 秒。用于参考镜头运动、复现动作，或作为待延展/编辑的源素材。
音频文件： 最多 3 个，总时长不超过 15 秒。用于背景音乐、声音设计或旁白语气参考。
文本： 你的提示词，可用自然语言或结构化 JSON。

所有输入类型合计的文件数量不能超过 12。接近上限时，优先减少音频和次要视觉参考，因为这些元素更容易用文本描述。把上传名额留给最直接决定生成画面的输入。

[Reference] 选择正确的入口模式

First and last frames： 用于单图 + 文本生成。适合简单镜头，直接且快速。
All-in-One Reference： 任何图片、视频、音频的组合都必须使用该模式。只有这个模式支持 @ 标签引用。只要你在混用输入类型，就应该使用这个模式。

注：Smart Multi-Frame 和 Subject Reference 当前在 Seedance 2.0 中不可用。

你的提示词被标记的真实原因

多数人会以为，被标记是因为某个具体词或短语触发了过滤器。这个假设会让人陷入无休止的循环：替换词语、加免责声明、把提示词越删越短。但这些都无法真正解决问题。

Seedance 2.0 的内容过滤并不是这样工作的。它会用语言模型把你的整段提示词当作一个完整场景来理解，并判断这个场景代表什么。它评估的是意图和上下文，不是逐词扫描。

可以把它想成电影片场门口的安保和银行门口的安保。相同的道具枪，在片场门口会被直接放行，因为上下文让用途非常明确；在银行，情况就完全不同。物体没有变，变的是上下文。

这在实操中的含义是：一个单独看可能敏感的词，只要放在结构良好的电影化提示词中，通常不会有问题。过滤器看的是完整画面。若提示词没有可读画面、没有场景、没有视觉目的、没有叙事逻辑，它就无从判断。当过滤器无法有把握地理解你在生成什么时，它会倾向保守处理。

这就是几乎所有“本不该被标记”的提示词的核心问题。不是内容不好，不是创意不好，只是提示词没有给过滤器足够的信息去理解。

实用的思路转变是：像导演描述镜头那样写的提示词，更容易通过；像给朋友随手发备注那样写的提示词，更容易被标记。

有一类属于硬性拦截，不是可修复的标记。 有两类内容会在“图片扫描阶段”就被拒绝，提示词甚至还没被读取，电影化包装也无法通过：

可识别真实人物的面孔：名人、政客和公众人物
有明确名称的受版权保护角色：品牌超级英雄、迪士尼角色、可识别的虚构 IP

如果你上传真实人物照片后生成失败，这是平台级限制，不是提示词问题。

如何写出让过滤器清晰识别为创作内容的提示词

[Filter] 先搭建完整场景，而不只写动作

被标记提示词中最常见的结构是：只有一个动作，没有任何周边语境。事情“发生了”，但没有地点、没有视觉氛围、也没有镜头为何在场的理由。过滤器无法判断这到底是电影场景，还是别的什么。

解决方法不是删掉动作，而是把场景补全到意图一目了然。

Avoid this	Use this instead
a soldier shoots someone in the street	wide shot, war-torn Eastern European street in the 1940s, a soldier in a grey uniform fires toward an off-screen position during an active firefight, smoke rising from collapsed buildings in the background, overcast flat light, 35mm grain, documentary-style handheld framing, debris scattered across the foreground

动作完全相同。第一种只给过滤器一个可评估点。第二种给了战争语境、历史时期、机位信息和完整视觉氛围。一个读起来像事件报告，另一个读起来像电影拍摄说明。

从动作向外扩展，在提示词里回答这四个问题：

事情发生在哪里？
视觉上看起来是什么样？
镜头在做什么？
整体氛围是什么？

四个都答到，大多数被标记问题会自然消失。

[Prompt] 把提示词当作一组“可见事实”，而不是故事

一个不太明显但常见的被标记原因，是提示词写法偏情绪或叙事，而不是视觉化。这些内容会增加模型需要消化的解释噪音：

角色动机
戏剧性背景故事
关系脉络
情绪解释

过滤器关心的是：如果这个场景真实存在，镜头会拍到什么。它不需要知道“为什么”。

剧本有两部分：场景描述和潜台词。Seedance 2.0 只需要场景描述。情绪暗流、背景故事、角色为何奔跑，这些都属于潜台词。它应该留在创作者脑中，而不是写进提示词。

在把任何一句话放进提示词前，先问一个问题：如果这是一次真实拍摄，这句话会出现在 shot list 里吗？如果不会，它几乎肯定不该出现在提示词里。

这种纪律也会显著提升生成质量。模型执行的是“它看得见的东西”，不是“它推断出来的东西”。高密度、具体、视觉化的提示词，几乎总是优于冗长叙事型提示词。

对于多镜头序列，把提示词组织成 JSON 会自动强化这种纪律。Seedance 2.0 原生支持它：

{
  "visual_world": {
    "light": "柔和阴天，漫射阴影，无硬边缘",
    "color": "低饱和自然色，冷白，去饱和色调",
    "film": "35mm颗粒感，变形镜头，高光处柔和晕光",
    "atmosphere": "安静，孤立，辽阔"
  },
  "sequence": {
    "duration": "10秒",
    "pacing": "从缓慢积累到快切，以静止收尾",
    "shots": {
      "shot_1": {
        "duration": "3秒",
        "camera": "固定广角，低角度",
        "action": "孤身骑手越过雪原山脊",
        "transition": "SMASH CUT"
      },
      "shot_2": {
        "duration": "4秒",
        "camera": "从后方跟拍，手持质感",
        "action": "骑手驰骋于深雪之中，斗篷随风翻飞",
        "transition": "SMASH CUT"
      },
      "shot_3": {
        "duration": "3秒",
        "camera": "固定广角，完全锁定",
        "action": "空旷雪原，一匹狼静立于远处山脊"
      }
    }
  }
}

先建立 visual_world 模块，就能统一整段序列的电影语汇。随后每个镜头只需描述该时刻镜头所见即可。

[Prompt] 用影视制作语言明确这是什么类型的内容

有一个很稳定的规律值得记住：包含影视制作术语的提示词，通常比纯日常语言写的提示词在审核时拥有更大的容错空间。

原因很直接。当提示词包含镜头类型、镜头规格、布光方式和画幅比例时，模型会把它理解为制作说明。电影创作可以表现戏剧性、强烈和道德复杂的素材。这个语境会改变过滤器对内容的权重判断。

这有点像在工地戴安全帽。安全帽不会改变你在做什么，但它会立刻告诉周围人这是什么环境、该按什么规则处理。提示词里加上两三个制作术语，也能起到同样效果：在过滤器开始评估前，先建立语境。

这不意味着每条提示词都要堆满术语，而是要加入足够的制作语言，让框架不含糊。下面是按类别整理的参考列表：

Shot types

Wide shot, medium shot, close-up, extreme close-up
Over-the-shoulder, POV, bird's-eye view, two-shot
Low angle, high angle, Dutch angle

Camera movements

Dolly in / dolly out
Tracking shot, pan, tilt, crane shot
Locked off, low-angle push, circling shot, handheld

Lens and format

35mm grain, anamorphic lens, 2.39:1 aspect ratio, 1.85:1
Vintage glass, soft halation, shallow depth of field
Lens flare, rack focus

Lighting

Overcast diffused light, volumetric rays through haze
Practical lighting, side backlight, motivated shadow
Golden hour, hard directional light, rim light

Color and tone

Muted desaturated palette, high contrast, bleach bypass
Cold blue tones, warm amber, crushed blacks
Washed-out highlights, flat low-contrast grade

从这些类别任意加两三个术语，就能清楚建立制作语境。很多时候这就够了。

为什么明明没有敏感内容也会被标记

有时生成被标记，提示词里却完全没有敏感内容。没有动作冲突、没有戏剧张力、没有棘手话题。只是一个按理说应当完全没问题的场景。

这通常发生在提示词过于稀疏时。简短、平铺直叙、缺少电影化框架、场景语境和视觉细节的描述，会让过滤器得到一幅不完整的画面。就像你只截取剧本中间一句话发给别人，没有封面、没有场次标题、没有舞台指示。对方无法判断这是惊悚片、喜剧片，还是别的类型。不完整的画面不会被直接放行，而是会被暂缓处理。

Avoid this	Use this instead
a person holds a knife	close-up, a chef's hands grip a cleaver over a wooden chopping board, motion blur as the blade comes down on a whole fish, kitchen environment with steam rising in the background, warm tungsten lighting, shallow depth of field, cinematic food documentary style

同一个物体，解读却完全不同。第一种只给过滤器“一个物体 + 一个动作”。第二种给了环境、用途、制作语境和机位描述。

修复方式很直接。即便是简单场景，也建议补上：

明确的地点与时代
氛围或情绪描述
机位或镜头类型
一到两个制作术语用于建立语境

@ 引用系统：为什么上传后会“静默失败”

很大一部分 Seedance 2.0 问题根本不是过滤问题，而是引用问题。用户上传图片和视频后，默认模型会自动理解每个文件的用途，但模型不会做这种假设。

上传视频并不会自动让它成为镜头运动参考。上传图片也不会自动让它成为开场帧。这就像你在片场把一叠没贴标签的照片交给导演。导演能看见每张图里有什么，但不知道你希望哪张当开场帧、哪张是服装参考、哪张只是氛围灵感。没有标签就只能猜。Seedance 2.0 也是一样。每个上传文件都需要在提示词里通过 @ 标签明确角色，否则就会被模糊处理。

在提示词输入框输入 @（会弹出引用选择器）或点击工具栏里的 @ 图标来启用 @ 标注。然后在描述动作前，明确说明每个文件是做什么的。

What you want	How to write it
Set the opening frame	@Image 1 as the first frame
Reference camera movement	reference all camera movements from @Video 1
Match character appearance	character appearance based on @Image 2
Set background music	use @Audio 1 as the background score
Replicate motion choreography	replicate the movement style from @Video 1
Define the environment	the setting is based on @Image 3
Reference voiceover style	match the voiceover tone of @Video 2

当你同时使用多个参考时，先在提示词开头列出所有“角色分配”，再写场景描述。任何没有明确角色的 @ 标签，都是输出不稳定或偏离预期的高频原因之一。

Seedance 2.0 如何读取上传图片（以及在哪里会失效）

[Image] 上传了角色图，就让图片自己发挥作用

上传角色参考图后，人们很自然会想在提示词里再描述一遍这个角色。尽量克制。图片已经完成了这项工作。文本重复并不会增强结果，反而会引入第二层、且相互竞争的信息，让模型不得不做取舍。

提示词真正需要做的是清晰描述场景：

这个镜头里在发生什么
镜头如何取景
环境看起来是什么样
镜头如何运动

图片负责外观。提示词负责镜头所见的一切。

这也是“标记问题”会转化为“图片问题”的地方。只要角色可能被识别为未成年人，Seedance 2.0 就会更严格评估整条提示词。指向低龄的词（"child," "kid," "young," "boy," "girl"）会触发更高审查强度，而且影响整段提示词，不仅仅是这些词出现的位置，也不取决于你上传图片实际显示了什么。

更稳妥的方法是按“场景角色”来描述人物。人物身份相关信息交给图片；提示词只写事件和镜头所见。

Avoid this	Use this instead
a young boy watches a building burn down	a small figure in a dark coat stands at the edge of a crowd watching a building consumed by fire, medium shot from behind, warm orange glow from the flames, thick smoke rising into a dark sky, cinematic, 2.39:1 anamorphic, documentary style

第一种写法中的 "young" 会提高整条提示词的敏感阈值。第二种让上传图片承担角色身份信息，提示词只描述镜头所见。

[Image] 还没提交就被拦？问题在图片本身

Seedance 2.0 有一层独立于提示词过滤的图片评估机制。若上传图片里有清晰可见的人脸，可能会在模型读取任何文本之前就触发拒绝。这也解释了为什么你反复改提示词却毫无变化：提示词根本还没被读取。

可行的绕开方式：

Face away from camera. 从背后拍主体，或用看不清五官的角度构图。服装、姿态、发型和环境通常已足够用于多数参考目的。
Go wide. 把镜头拉远，让人物在画面中呈剪影或小元素，而不是主导主体。
Use illustration over photography. 将摄影参考换成插画或风格化图像。评估逻辑不同，插画通常通过率更稳定。
Shift the reference purpose. 把图片用于服装、场景、色板或空间构图，而不是用于面部或身份。

如果生成持续失败，且提示词侧没有明显原因，先调整图片，再去改文本。

值得掌握的高级技巧

[Advanced] 延展现有视频素材

先写明延展时长，再描述新增片段内容：

Extend @Video 1 by 6 seconds. [Description of new segment content.]

生成时长应设置为“新增片段”的长度，而不是合并后的总时长。延展 6 秒，就把时长设为 6 秒。

[Advanced] 在两段视频之间生成过渡中段

Generate a connecting scene between @Video 1 and @Video 2. The transition shows [describe the action, environment, or movement that links the two clips].

生成片段会插在两段上传视频之间，所以请把它当作一个独立短场景来描述。

[Advanced] 从参考片段复制镜头风格

上传任意带有目标运动风格的片段，并直接点名引用：

Reference all camera movements from @Video 1, including the low-angle circling shot and the push into close-up.

模型会从参考片段提取运动节奏、构图逻辑和转场节奏。写出具体技巧名会更好，但不是必须。

[Advanced] 让剪辑与音乐同步

Scene transitions should align with the beat positions of @Audio 1. Apply visual style changes at each cut.

Seedance 2.0 可以把剪切点、光效变化和场景转场同步到上传音轨的节奏上。

[Advanced] 使用已有视频片段里的音频

如果你已引用的视频片段自带你想要的音频，就无需单独上传音频：

Use the audio embedded in @Video 1 as the background score.

[Advanced] 用负向提示减少常见生成失败

Seedance 2.0 支持在主描述旁加入负向提示指令。它不能用于解决过滤标记，但对减少“即使提示词写得很好仍反复出现的视觉伪影”很有效。

保持简短，并只针对你实际看到的问题，不要把所有可能问题都罗列出来：

negative: no jitter, no warping, no flickering, no identity drift

negative: no text morphing, no garbled logos, no color shift

negative: no motion blur on face, no floating limbs, no background collapse

过长的负向提示可能适得其反，或被直接忽略。与实际失败点绑定的两三个定向词，通常优于冗长穷举列表。

[Community] 社区里有人在尝试的一件事

一些用户反馈：把场景描述写成中文，同时把对白或画面内文字保留英文，提示词通过率会更高。其依据是 Seedance 2.0 最初在中文语料上有较强训练，因此中文提示词可能会落在略有不同的过滤阈值上。

这不是稳定必胜法，结果也因人而异；但如果你已经采用了结构良好的电影化写法却仍被标记，这是一个低成本可尝试项。把场景描述过一遍翻译工具，保留英文对白，再观察输出是否有变化。

输入上限一览

Input type	Limit
Images	Up to 9
Video clips	Up to 3, combined total up to 15s
Audio files	Up to 3, combined total up to 15s
All files combined	Up to 12
Generation duration	4 to 15 seconds

生成前快速检查清单

我是否在使用 All-in-One Reference 模式？（只要混用输入类型就必须使用）
每个 @ 标签是否都在提示词中明确声明了角色？
提示词是否在描述视觉场景，而不是叙事或背景故事？
我是否至少加入了一个制作语言元素：镜头类型、镜头运动或灯光描述？
每一句话是否都在描述镜头所见，或建立电影化语境？
提示词是否按“角色作用”而非“年龄”来指代人物？
我的参考图是否没有明显人脸，或已裁切/改为插画？
我的参考图是否不含可识别真实人物或具名版权角色？
我的总文件数是否不超过 12？

常见问题

我的提示词里没有任何敏感内容，为什么还是被标记了？

过滤器需要足够的视觉语境，才能有把握地判断你在生成什么。缺少电影化框架或场景细节的简短提示词会给出不完整画面，因此系统会默认保守处理。补充场景设定、氛围、机位和制作语境后，通常就能解决。

我一直在重写提示词，但生成还是失败。还可能是什么原因？

如果改提示词完全没变化，问题很可能在图片。Seedance 2.0 会在提示词过滤启动前先对上传内容做人脸检测。只要参考图检测到人脸，生成就会在这一阶段被拒绝。先编辑图片、裁切、拉远景别或改用插画，再继续修改提示词。

为什么我上传真实人物照片时会被拒绝？

这是平台级硬性拦截，不是提示词问题。Seedance 2.0 会在处理提示词前先扫描上传图片中的可识别真实人脸。名人、公众人物，或任何可被识别相似度的人脸，都会在该阶段被拒绝。唯一可行方案是改用插画参考或不可识别身份的图像。

加入镜头术语真的会影响提示词是否被标记吗？

会。制作语言会向模型明确这是影视创作语境，相比日常语言描述，这类语境会获得更大解释空间。加入镜头类型、镜头规格和灯光描述，会改变过滤器对整条提示词意图的判断方式。

First and Last Frames 与 All-in-One Reference 有什么区别？

First and Last Frames 适用于单图 + 文本生成。只要你组合了多种输入类型（图片、视频片段、音频），就必须使用 All-in-One Reference。它也是唯一支持 @ 标签的模式。

同一张上传图片可以用于多个参考用途吗？

可以。用不同角色多次标注即可。例如：@Image 1 as the first frame, environment and lighting also based on @Image 1。每个角色都需要明确写出来。

如何在不改变现有内容的前提下延展视频片段？

上传该片段后用 @Video 1 引用，写明延展时长并描述新增内容。生成时长只设置为新增片段长度，不是合并后的总长度。

Seedance 2.0 支持 JSON 提示词吗？

支持。JSON 是原生支持的，特别适合多镜头序列。用 visual_world 模块定义整体电影语境，再为每个机位与动作写单独的 shot 模块。这个结构能减少导致生成不稳定的歧义。

我应该使用负向提示吗？

负向提示对通过内容过滤没帮助，但当生成结果持续出现同类视觉伪影时非常值得用。保持简短并精准对应你的实际问题。两三个定向词通常优于一长串泛化列表。

如果超过 12 个文件上限会怎样？

系统不会接受超过 12 个输入文件（跨所有输入类型合计）。上传前先规划分配。次要风格参考和音频描述通常用提示词文本表达比上传文件更高效。

开始在 Morphic 上生成

测试本文方法的最好方式，就是直接打开一次生成并实践。Morphic 上的 Seedance 2.0 提供完整多模态能力：图片、视频、音频与文本，无需安装任何东西。