为什么你的 Seedance 2.0 提示词总被标记(以及该怎么处理)

你花时间打磨了创意,上传了参考图,写好了场景。结果生成被标记了。或者生成结果和你描述的完全不像。你改一两个词再试一次,却还是撞上同一堵墙。

问题不在你的创意。多数情况下,甚至不在你场景内容本身。问题在于 Seedance 2.0 对你的提示词的理解方式,和你的本意不一致。一旦你理解了它是如何“阅读”提示词的,解决方案就会变得很明显。

这份指南会覆盖完整全貌:输入系统如何工作、过滤器为什么会这样表现、如何组织能顺利通过的提示词、如何正确处理图片上传,以及如何解锁大多数用户从未触达的高级技巧。大多数人在应用这些改动后,下一次生成就会有明显提升。


理解 Seedance 2.0 的输入系统

在开始之前,先弄清楚 Seedance 2.0 到底能接收什么输入,以及大多数人还没开始写提示词就已经踩坑的地方。

  • 图片: 最多 9 张。可作为开场帧、角色参考、场景环境或风格锚点。
  • 视频片段: 最多 3 段,总时长不超过 15 秒。用于参考镜头运动、复现动作,或作为待延展/编辑的源素材。
  • 音频文件: 最多 3 个,总时长不超过 15 秒。用于背景音乐、声音设计或旁白语气参考。
  • 文本: 你的提示词,可用自然语言或结构化 JSON。

所有输入类型合计的文件数量不能超过 12。接近上限时,优先减少音频和次要视觉参考,因为这些元素更容易用文本描述。把上传名额留给最直接决定生成画面的输入。

[Reference] 选择正确的入口模式

  • First and last frames: 用于单图 + 文本生成。适合简单镜头,直接且快速。
  • All-in-One Reference: 任何图片、视频、音频的组合都必须使用该模式。只有这个模式支持 @ 标签引用。只要你在混用输入类型,就应该使用这个模式。

注:Smart Multi-Frame 和 Subject Reference 当前在 Seedance 2.0 中不可用。


你的提示词被标记的真实原因

多数人会以为,被标记是因为某个具体词或短语触发了过滤器。这个假设会让人陷入无休止的循环:替换词语、加免责声明、把提示词越删越短。但这些都无法真正解决问题。

Seedance 2.0 的内容过滤并不是这样工作的。它会用语言模型把你的整段提示词当作一个完整场景来理解,并判断这个场景代表什么。它评估的是意图和上下文,不是逐词扫描。

可以把它想成电影片场门口的安保和银行门口的安保。相同的道具枪,在片场门口会被直接放行,因为上下文让用途非常明确;在银行,情况就完全不同。物体没有变,变的是上下文。

这在实操中的含义是:一个单独看可能敏感的词,只要放在结构良好的电影化提示词中,通常不会有问题。过滤器看的是完整画面。若提示词没有可读画面、没有场景、没有视觉目的、没有叙事逻辑,它就无从判断。当过滤器无法有把握地理解你在生成什么时,它会倾向保守处理。

这就是几乎所有“本不该被标记”的提示词的核心问题。不是内容不好,不是创意不好,只是提示词没有给过滤器足够的信息去理解。

实用的思路转变是:像导演描述镜头那样写的提示词,更容易通过;像给朋友随手发备注那样写的提示词,更容易被标记。

有一类属于硬性拦截,不是可修复的标记。 有两类内容会在“图片扫描阶段”就被拒绝,提示词甚至还没被读取,电影化包装也无法通过:

  • 可识别真实人物的面孔:名人、政客和公众人物
  • 有明确名称的受版权保护角色:品牌超级英雄、迪士尼角色、可识别的虚构 IP

如果你上传真实人物照片后生成失败,这是平台级限制,不是提示词问题。


如何写出让过滤器清晰识别为创作内容的提示词

[Filter] 先搭建完整场景,而不只写动作

被标记提示词中最常见的结构是:只有一个动作,没有任何周边语境。事情“发生了”,但没有地点、没有视觉氛围、也没有镜头为何在场的理由。过滤器无法判断这到底是电影场景,还是别的什么。

解决方法不是删掉动作,而是把场景补全到意图一目了然。

Avoid thisUse this instead
a soldier shoots someone in the streetwide shot, war-torn Eastern European street in the 1940s, a soldier in a grey uniform fires toward an off-screen position during an active firefight, smoke rising from collapsed buildings in the background, overcast flat light, 35mm grain, documentary-style handheld framing, debris scattered across the foreground

动作完全相同。第一种只给过滤器一个可评估点。第二种给了战争语境、历史时期、机位信息和完整视觉氛围。一个读起来像事件报告,另一个读起来像电影拍摄说明。

从动作向外扩展,在提示词里回答这四个问题:

  • 事情发生在哪里?
  • 视觉上看起来是什么样?
  • 镜头在做什么?
  • 整体氛围是什么?

四个都答到,大多数被标记问题会自然消失。


[Prompt] 把提示词当作一组“可见事实”,而不是故事

一个不太明显但常见的被标记原因,是提示词写法偏情绪或叙事,而不是视觉化。这些内容会增加模型需要消化的解释噪音:

  • 角色动机
  • 戏剧性背景故事
  • 关系脉络
  • 情绪解释

过滤器关心的是:如果这个场景真实存在,镜头会拍到什么。它不需要知道“为什么”。

剧本有两部分:场景描述和潜台词。Seedance 2.0 只需要场景描述。情绪暗流、背景故事、角色为何奔跑——这些都属于潜台词。它应该留在创作者脑中,而不是写进提示词。

在把任何一句话放进提示词前,先问一个问题:如果这是一次真实拍摄,这句话会出现在 shot list 里吗?如果不会,它几乎肯定不该出现在提示词里。

这种纪律也会显著提升生成质量。模型执行的是“它看得见的东西”,不是“它推断出来的东西”。高密度、具体、视觉化的提示词,几乎总是优于冗长叙事型提示词。

对于多镜头序列,把提示词组织成 JSON 会自动强化这种纪律。Seedance 2.0 原生支持它:

{
  "visual_world": {
    "light": "soft overcast, diffused shadows, no hard edges",
    "color": "muted naturals, cold whites, desaturated tones",
    "film": "35mm grain, anamorphic lens, soft halation on highlights",
    "atmosphere": "quiet, isolated, expansive"
  },
  "sequence": {
    "duration": "10 seconds",
    "pacing": "slow build to rapid cuts, ends in stillness",
    "shots": {
      "shot_1": {
        "duration": "3 seconds",
        "camera": "locked off wide shot, low angle",
        "action": "Lone rider on horseback crests a snowfield ridge",
        "transition": "SMASH CUT"
      },
      "shot_2": {
        "duration": "4 seconds",
        "camera": "tracking shot from behind, handheld feel",
        "action": "Horse and rider gallop through deep snow, cloak whipping in wind",
        "transition": "SMASH CUT"
      },
      "shot_3": {
        "duration": "3 seconds",
        "camera": "static wide, fully locked off",
        "action": "Empty snowfield, a wolf standing motionless on a distant ridge"
      }
    }
  }
}

先建立 visual_world 模块,就能统一整段序列的电影语汇。随后每个镜头只需描述该时刻镜头所见即可。


[Prompt] 用影视制作语言明确这是什么类型的内容

有一个很稳定的规律值得记住:包含影视制作术语的提示词,通常比纯日常语言写的提示词在审核时拥有更大的容错空间。

原因很直接。当提示词包含镜头类型、镜头规格、布光方式和画幅比例时,模型会把它理解为制作说明。电影创作可以表现戏剧性、强烈和道德复杂的素材。这个语境会改变过滤器对内容的权重判断。

这有点像在工地戴安全帽。安全帽不会改变你在做什么,但它会立刻告诉周围人这是什么环境、该按什么规则处理。提示词里加上两三个制作术语,也能起到同样效果:在过滤器开始评估前,先建立语境。

这不意味着每条提示词都要堆满术语,而是要加入足够的制作语言,让框架不含糊。下面是按类别整理的参考列表:

Shot types

  • Wide shot, medium shot, close-up, extreme close-up
  • Over-the-shoulder, POV, bird's-eye view, two-shot
  • Low angle, high angle, Dutch angle

Camera movements

  • Dolly in / dolly out
  • Tracking shot, pan, tilt, crane shot
  • Locked off, low-angle push, circling shot, handheld

Lens and format

  • 35mm grain, anamorphic lens, 2.39:1 aspect ratio, 1.85:1
  • Vintage glass, soft halation, shallow depth of field
  • Lens flare, rack focus

Lighting

  • Overcast diffused light, volumetric rays through haze
  • Practical lighting, side backlight, motivated shadow
  • Golden hour, hard directional light, rim light

Color and tone

  • Muted desaturated palette, high contrast, bleach bypass
  • Cold blue tones, warm amber, crushed blacks
  • Washed-out highlights, flat low-contrast grade

从这些类别任意加两三个术语,就能清楚建立制作语境。很多时候这就够了。


为什么明明没有敏感内容也会被标记

有时生成被标记,提示词里却完全没有敏感内容。没有动作冲突、没有戏剧张力、没有棘手话题。只是一个按理说应当完全没问题的场景。

这通常发生在提示词过于稀疏时。简短、平铺直叙、缺少电影化框架、场景语境和视觉细节的描述,会让过滤器得到一幅不完整的画面。就像你只截取剧本中间一句话发给别人,没有封面、没有场次标题、没有舞台指示。对方无法判断这是惊悚片、喜剧片,还是别的类型。不完整的画面不会被直接放行,而是会被暂缓处理。

Avoid thisUse this instead
a person holds a knifeclose-up, a chef's hands grip a cleaver over a wooden chopping board, motion blur as the blade comes down on a whole fish, kitchen environment with steam rising in the background, warm tungsten lighting, shallow depth of field, cinematic food documentary style

同一个物体,解读却完全不同。第一种只给过滤器“一个物体 + 一个动作”。第二种给了环境、用途、制作语境和机位描述。

修复方式很直接。即便是简单场景,也建议补上:

  • 明确的地点与时代
  • 氛围或情绪描述
  • 机位或镜头类型
  • 一到两个制作术语用于建立语境

@ 引用系统:为什么上传后会“静默失败”

很大一部分 Seedance 2.0 问题根本不是过滤问题,而是引用问题。用户上传图片和视频后,默认模型会自动理解每个文件的用途,但模型不会做这种假设。

上传视频并不会自动让它成为镜头运动参考。上传图片也不会自动让它成为开场帧。这就像你在片场把一叠没贴标签的照片交给导演。导演能看见每张图里有什么,但不知道你希望哪张当开场帧、哪张是服装参考、哪张只是氛围灵感。没有标签就只能猜。Seedance 2.0 也是一样。每个上传文件都需要在提示词里通过 @ 标签明确角色,否则就会被模糊处理。

在提示词输入框输入 @(会弹出引用选择器)或点击工具栏里的 @ 图标来启用 @ 标注。然后在描述动作前,明确说明每个文件是做什么的。

What you wantHow to write it
Set the opening frame@Image 1 as the first frame
Reference camera movementreference all camera movements from @Video 1
Match character appearancecharacter appearance based on @Image 2
Set background musicuse @Audio 1 as the background score
Replicate motion choreographyreplicate the movement style from @Video 1
Define the environmentthe setting is based on @Image 3
Reference voiceover stylematch the voiceover tone of @Video 2

当你同时使用多个参考时,先在提示词开头列出所有“角色分配”,再写场景描述。任何没有明确角色的 @ 标签,都是输出不稳定或偏离预期的高频原因之一。


Seedance 2.0 如何读取上传图片(以及在哪里会失效)

[Image] 上传了角色图,就让图片自己发挥作用

上传角色参考图后,人们很自然会想在提示词里再描述一遍这个角色。尽量克制。图片已经完成了这项工作。文本重复并不会增强结果,反而会引入第二层、且相互竞争的信息,让模型不得不做取舍。

提示词真正需要做的是清晰描述场景:

  • 这个镜头里在发生什么
  • 镜头如何取景
  • 环境看起来是什么样
  • 镜头如何运动

图片负责外观。提示词负责镜头所见的一切。

这也是“标记问题”会转化为“图片问题”的地方。只要角色可能被识别为未成年人,Seedance 2.0 就会更严格评估整条提示词。指向低龄的词("child," "kid," "young," "boy," "girl")会触发更高审查强度,而且影响整段提示词,不仅仅是这些词出现的位置,也不取决于你上传图片实际显示了什么。

更稳妥的方法是按“场景角色”来描述人物。人物身份相关信息交给图片;提示词只写事件和镜头所见。

Avoid thisUse this instead
a young boy watches a building burn downa small figure in a dark coat stands at the edge of a crowd watching a building consumed by fire, medium shot from behind, warm orange glow from the flames, thick smoke rising into a dark sky, cinematic, 2.39:1 anamorphic, documentary style

第一种写法中的 "young" 会提高整条提示词的敏感阈值。第二种让上传图片承担角色身份信息,提示词只描述镜头所见。


[Image] 还没提交就被拦?问题在图片本身

Seedance 2.0 有一层独立于提示词过滤的图片评估机制。若上传图片里有清晰可见的人脸,可能会在模型读取任何文本之前就触发拒绝。这也解释了为什么你反复改提示词却毫无变化:提示词根本还没被读取。

可行的绕开方式:

  • Face away from camera. 从背后拍主体,或用看不清五官的角度构图。服装、姿态、发型和环境通常已足够用于多数参考目的。
  • Go wide. 把镜头拉远,让人物在画面中呈剪影或小元素,而不是主导主体。
  • Use illustration over photography. 将摄影参考换成插画或风格化图像。评估逻辑不同,插画通常通过率更稳定。
  • Shift the reference purpose. 把图片用于服装、场景、色板或空间构图,而不是用于面部或身份。

如果生成持续失败,且提示词侧没有明显原因,先调整图片,再去改文本。


值得掌握的高级技巧

[Advanced] 延展现有视频素材

先写明延展时长,再描述新增片段内容:

Extend @Video 1 by 6 seconds. [Description of new segment content.]

生成时长应设置为“新增片段”的长度,而不是合并后的总时长。延展 6 秒,就把时长设为 6 秒。


[Advanced] 在两段视频之间生成过渡中段

Generate a connecting scene between @Video 1 and @Video 2. The transition shows [describe the action, environment, or movement that links the two clips].

生成片段会插在两段上传视频之间,所以请把它当作一个独立短场景来描述。


[Advanced] 从参考片段复制镜头风格

上传任意带有目标运动风格的片段,并直接点名引用:

Reference all camera movements from @Video 1, including the low-angle circling shot and the push into close-up.

模型会从参考片段提取运动节奏、构图逻辑和转场节奏。写出具体技巧名会更好,但不是必须。


[Advanced] 让剪辑与音乐同步

Scene transitions should align with the beat positions of @Audio 1. Apply visual style changes at each cut.

Seedance 2.0 可以把剪切点、光效变化和场景转场同步到上传音轨的节奏上。


[Advanced] 使用已有视频片段里的音频

如果你已引用的视频片段自带你想要的音频,就无需单独上传音频:

Use the audio embedded in @Video 1 as the background score.


[Advanced] 用负向提示减少常见生成失败

Seedance 2.0 支持在主描述旁加入负向提示指令。它不能用于解决过滤标记,但对减少“即使提示词写得很好仍反复出现的视觉伪影”很有效。

保持简短,并只针对你实际看到的问题,不要把所有可能问题都罗列出来:

negative: no jitter, no warping, no flickering, no identity drift

negative: no text morphing, no garbled logos, no color shift

negative: no motion blur on face, no floating limbs, no background collapse

过长的负向提示可能适得其反,或被直接忽略。与实际失败点绑定的两三个定向词,通常优于冗长穷举列表。


[Community] 社区里有人在尝试的一件事

一些用户反馈:把场景描述写成中文,同时把对白或画面内文字保留英文,提示词通过率会更高。其依据是 Seedance 2.0 最初在中文语料上有较强训练,因此中文提示词可能会落在略有不同的过滤阈值上。

这不是稳定必胜法,结果也因人而异;但如果你已经采用了结构良好的电影化写法却仍被标记,这是一个低成本可尝试项。把场景描述过一遍翻译工具,保留英文对白,再观察输出是否有变化。


输入上限一览

Input typeLimit
ImagesUp to 9
Video clipsUp to 3, combined total up to 15s
Audio filesUp to 3, combined total up to 15s
All files combinedUp to 12
Generation duration4 to 15 seconds

生成前快速检查清单

  • [ ] 我是否在使用 All-in-One Reference 模式?(只要混用输入类型就必须使用)
  • [ ] 每个 @ 标签是否都在提示词中明确声明了角色?
  • [ ] 提示词是否在描述视觉场景,而不是叙事或背景故事?
  • [ ] 我是否至少加入了一个制作语言元素:镜头类型、镜头运动或灯光描述?
  • [ ] 每一句话是否都在描述镜头所见,或建立电影化语境?
  • [ ] 提示词是否按“角色作用”而非“年龄”来指代人物?
  • [ ] 我的参考图是否没有明显人脸,或已裁切/改为插画?
  • [ ] 我的参考图是否不含可识别真实人物或具名版权角色?
  • [ ] 我的总文件数是否不超过 12?

常见问题

我的提示词里没有任何敏感内容,为什么还是被标记了?

过滤器需要足够的视觉语境,才能有把握地判断你在生成什么。缺少电影化框架或场景细节的简短提示词会给出不完整画面,因此系统会默认保守处理。补充场景设定、氛围、机位和制作语境后,通常就能解决。

我一直在重写提示词,但生成还是失败。还可能是什么原因?

如果改提示词完全没变化,问题很可能在图片。Seedance 2.0 会在提示词过滤启动前先对上传内容做人脸检测。只要参考图检测到人脸,生成就会在这一阶段被拒绝。先编辑图片、裁切、拉远景别或改用插画,再继续修改提示词。

为什么我上传真实人物照片时会被拒绝?

这是平台级硬性拦截,不是提示词问题。Seedance 2.0 会在处理提示词前先扫描上传图片中的可识别真实人脸。名人、公众人物,或任何可被识别相似度的人脸,都会在该阶段被拒绝。唯一可行方案是改用插画参考或不可识别身份的图像。

加入镜头术语真的会影响提示词是否被标记吗?

会。制作语言会向模型明确这是影视创作语境,相比日常语言描述,这类语境会获得更大解释空间。加入镜头类型、镜头规格和灯光描述,会改变过滤器对整条提示词意图的判断方式。

First and Last Frames 与 All-in-One Reference 有什么区别?

First and Last Frames 适用于单图 + 文本生成。只要你组合了多种输入类型(图片、视频片段、音频),就必须使用 All-in-One Reference。它也是唯一支持 @ 标签的模式。

同一张上传图片可以用于多个参考用途吗?

可以。用不同角色多次标注即可。例如:@Image 1 as the first frame, environment and lighting also based on @Image 1。每个角色都需要明确写出来。

如何在不改变现有内容的前提下延展视频片段?

上传该片段后用 @Video 1 引用,写明延展时长并描述新增内容。生成时长只设置为新增片段长度,不是合并后的总长度。

Seedance 2.0 支持 JSON 提示词吗?

支持。JSON 是原生支持的,特别适合多镜头序列。用 visual_world 模块定义整体电影语境,再为每个机位与动作写单独的 shot 模块。这个结构能减少导致生成不稳定的歧义。

我应该使用负向提示吗?

负向提示对通过内容过滤没帮助,但当生成结果持续出现同类视觉伪影时非常值得用。保持简短并精准对应你的实际问题。两三个定向词通常优于一长串泛化列表。

如果超过 12 个文件上限会怎样?

系统不会接受超过 12 个输入文件(跨所有输入类型合计)。上传前先规划分配。次要风格参考和音频描述通常用提示词文本表达比上传文件更高效。


开始在 Morphic 上生成

测试本文方法的最好方式,就是直接打开一次生成并实践。Morphic 上的 Seedance 2.0 提供完整多模态能力:图片、视频、音频与文本,无需安装任何东西。

chair
让您的故事栩栩如生
No downloads, no installs. Join a growing community of creatives using Morphic to transform ideas into beautifully crafted stories.