你花时间打磨了创意,上传了参考图,写好了场景。结果生成被标记了。或者生成结果和你描述的完全不像。你改一两个词再试一次,却还是撞上同一堵墙。
问题不在你的创意。多数情况下,甚至不在你场景内容本身。问题在于 Seedance 2.0 对你的提示词的理解方式,和你的本意不一致。一旦你理解了它是如何“阅读”提示词的,解决方案就会变得很明显。
这份指南会覆盖完整全貌:输入系统如何工作、过滤器为什么会这样表现、如何组织能顺利通过的提示词、如何正确处理图片上传,以及如何解锁大多数用户从未触达的高级技巧。大多数人在应用这些改动后,下一次生成就会有明显提升。
理解 Seedance 2.0 的输入系统
在开始之前,先弄清楚 Seedance 2.0 到底能接收什么输入,以及大多数人还没开始写提示词就已经踩坑的地方。
- 图片: 最多 9 张。可作为开场帧、角色参考、场景环境或风格锚点。
- 视频片段: 最多 3 段,总时长不超过 15 秒。用于参考镜头运动、复现动作,或作为待延展/编辑的源素材。
- 音频文件: 最多 3 个,总时长不超过 15 秒。用于背景音乐、声音设计或旁白语气参考。
- 文本: 你的提示词,可用自然语言或结构化 JSON。
所有输入类型合计的文件数量不能超过 12。接近上限时,优先减少音频和次要视觉参考,因为这些元素更容易用文本描述。把上传名额留给最直接决定生成画面的输入。
[Reference] 选择正确的入口模式
- First and last frames: 用于单图 + 文本生成。适合简单镜头,直接且快速。
- All-in-One Reference: 任何图片、视频、音频的组合都必须使用该模式。只有这个模式支持 @ 标签引用。只要你在混用输入类型,就应该使用这个模式。
注:Smart Multi-Frame 和 Subject Reference 当前在 Seedance 2.0 中不可用。
你的提示词被标记的真实原因
多数人会以为,被标记是因为某个具体词或短语触发了过滤器。这个假设会让人陷入无休止的循环:替换词语、加免责声明、把提示词越删越短。但这些都无法真正解决问题。
Seedance 2.0 的内容过滤并不是这样工作的。它会用语言模型把你的整段提示词当作一个完整场景来理解,并判断这个场景代表什么。它评估的是意图和上下文,不是逐词扫描。
可以把它想成电影片场门口的安保和银行门口的安保。相同的道具枪,在片场门口会被直接放行,因为上下文让用途非常明确;在银行,情况就完全不同。物体没有变,变的是上下文。
这在实操中的含义是:一个单独看可能敏感的词,只要放在结构良好的电影化提示词中,通常不会有问题。过滤器看的是完整画面。若提示词没有可读画面、没有场景、没有视觉目的、没有叙事逻辑,它就无从判断。当过滤器无法有把握地理解你在生成什么时,它会倾向保守处理。
这就是几乎所有“本不该被标记”的提示词的核心问题。不是内容不好,不是创意不好,只是提示词没有给过滤器足够的信息去理解。
实用的思路转变是:像导演描述镜头那样写的提示词,更容易通过;像给朋友随手发备注那样写的提示词,更容易被标记。
有一类属于硬性拦截,不是可修复的标记。 有两类内容会在“图片扫描阶段”就被拒绝,提示词甚至还没被读取,电影化包装也无法通过:
- 可识别真实人物的面孔:名人、政客和公众人物
- 有明确名称的受版权保护角色:品牌超级英雄、迪士尼角色、可识别的虚构 IP
如果你上传真实人物照片后生成失败,这是平台级限制,不是提示词问题。
如何写出让过滤器清晰识别为创作内容的提示词
[Filter] 先搭建完整场景,而不只写动作
被标记提示词中最常见的结构是:只有一个动作,没有任何周边语境。事情“发生了”,但没有地点、没有视觉氛围、也没有镜头为何在场的理由。过滤器无法判断这到底是电影场景,还是别的什么。
解决方法不是删掉动作,而是把场景补全到意图一目了然。
| Avoid this | Use this instead |
|---|---|
| a soldier shoots someone in the street | wide shot, war-torn Eastern European street in the 1940s, a soldier in a grey uniform fires toward an off-screen position during an active firefight, smoke rising from collapsed buildings in the background, overcast flat light, 35mm grain, documentary-style handheld framing, debris scattered across the foreground |
动作完全相同。第一种只给过滤器一个可评估点。第二种给了战争语境、历史时期、机位信息和完整视觉氛围。一个读起来像事件报告,另一个读起来像电影拍摄说明。
从动作向外扩展,在提示词里回答这四个问题:
- 事情发生在哪里?
- 视觉上看起来是什么样?
- 镜头在做什么?
- 整体氛围是什么?
四个都答到,大多数被标记问题会自然消失。
[Prompt] 把提示词当作一组“可见事实”,而不是故事
一个不太明显但常见的被标记原因,是提示词写法偏情绪或叙事,而不是视觉化。这些内容会增加模型需要消化的解释噪音:
- 角色动机
- 戏剧性背景故事
- 关系脉络
- 情绪解释
过滤器关心的是:如果这个场景真实存在,镜头会拍到什么。它不需要知道“为什么”。
剧本有两部分:场景描述和潜台词。Seedance 2.0 只需要场景描述。情绪暗流、背景故事、角色为何奔跑——这些都属于潜台词。它应该留在创作者脑中,而不是写进提示词。
在把任何一句话放进提示词前,先问一个问题:如果这是一次真实拍摄,这句话会出现在 shot list 里吗?如果不会,它几乎肯定不该出现在提示词里。
这种纪律也会显著提升生成质量。模型执行的是“它看得见的东西”,不是“它推断出来的东西”。高密度、具体、视觉化的提示词,几乎总是优于冗长叙事型提示词。
对于多镜头序列,把提示词组织成 JSON 会自动强化这种纪律。Seedance 2.0 原生支持它:
{
"visual_world": {
"light": "soft overcast, diffused shadows, no hard edges",
"color": "muted naturals, cold whites, desaturated tones",
"film": "35mm grain, anamorphic lens, soft halation on highlights",
"atmosphere": "quiet, isolated, expansive"
},
"sequence": {
"duration": "10 seconds",
"pacing": "slow build to rapid cuts, ends in stillness",
"shots": {
"shot_1": {
"duration": "3 seconds",
"camera": "locked off wide shot, low angle",
"action": "Lone rider on horseback crests a snowfield ridge",
"transition": "SMASH CUT"
},
"shot_2": {
"duration": "4 seconds",
"camera": "tracking shot from behind, handheld feel",
"action": "Horse and rider gallop through deep snow, cloak whipping in wind",
"transition": "SMASH CUT"
},
"shot_3": {
"duration": "3 seconds",
"camera": "static wide, fully locked off",
"action": "Empty snowfield, a wolf standing motionless on a distant ridge"
}
}
}
}
先建立 visual_world 模块,就能统一整段序列的电影语汇。随后每个镜头只需描述该时刻镜头所见即可。
[Prompt] 用影视制作语言明确这是什么类型的内容
有一个很稳定的规律值得记住:包含影视制作术语的提示词,通常比纯日常语言写的提示词在审核时拥有更大的容错空间。
原因很直接。当提示词包含镜头类型、镜头规格、布光方式和画幅比例时,模型会把它理解为制作说明。电影创作可以表现戏剧性、强烈和道德复杂的素材。这个语境会改变过滤器对内容的权重判断。
这有点像在工地戴安全帽。安全帽不会改变你在做什么,但它会立刻告诉周围人这是什么环境、该按什么规则处理。提示词里加上两三个制作术语,也能起到同样效果:在过滤器开始评估前,先建立语境。
这不意味着每条提示词都要堆满术语,而是要加入足够的制作语言,让框架不含糊。下面是按类别整理的参考列表:
Shot types
- Wide shot, medium shot, close-up, extreme close-up
- Over-the-shoulder, POV, bird's-eye view, two-shot
- Low angle, high angle, Dutch angle
Camera movements
- Dolly in / dolly out
- Tracking shot, pan, tilt, crane shot
- Locked off, low-angle push, circling shot, handheld
Lens and format
- 35mm grain, anamorphic lens, 2.39:1 aspect ratio, 1.85:1
- Vintage glass, soft halation, shallow depth of field
- Lens flare, rack focus
Lighting
- Overcast diffused light, volumetric rays through haze
- Practical lighting, side backlight, motivated shadow
- Golden hour, hard directional light, rim light
Color and tone
- Muted desaturated palette, high contrast, bleach bypass
- Cold blue tones, warm amber, crushed blacks
- Washed-out highlights, flat low-contrast grade
从这些类别任意加两三个术语,就能清楚建立制作语境。很多时候这就够了。
为什么明明没有敏感内容也会被标记
有时生成被标记,提示词里却完全没有敏感内容。没有动作冲突、没有戏剧张力、没有棘手话题。只是一个按理说应当完全没问题的场景。
这通常发生在提示词过于稀疏时。简短、平铺直叙、缺少电影化框架、场景语境和视觉细节的描述,会让过滤器得到一幅不完整的画面。就像你只截取剧本中间一句话发给别人,没有封面、没有场次标题、没有舞台指示。对方无法判断这是惊悚片、喜剧片,还是别的类型。不完整的画面不会被直接放行,而是会被暂缓处理。
| Avoid this | Use this instead |
|---|---|
| a person holds a knife | close-up, a chef's hands grip a cleaver over a wooden chopping board, motion blur as the blade comes down on a whole fish, kitchen environment with steam rising in the background, warm tungsten lighting, shallow depth of field, cinematic food documentary style |
同一个物体,解读却完全不同。第一种只给过滤器“一个物体 + 一个动作”。第二种给了环境、用途、制作语境和机位描述。
修复方式很直接。即便是简单场景,也建议补上:
- 明确的地点与时代
- 氛围或情绪描述
- 机位或镜头类型
- 一到两个制作术语用于建立语境
@ 引用系统:为什么上传后会“静默失败”
很大一部分 Seedance 2.0 问题根本不是过滤问题,而是引用问题。用户上传图片和视频后,默认模型会自动理解每个文件的用途,但模型不会做这种假设。
上传视频并不会自动让它成为镜头运动参考。上传图片也不会自动让它成为开场帧。这就像你在片场把一叠没贴标签的照片交给导演。导演能看见每张图里有什么,但不知道你希望哪张当开场帧、哪张是服装参考、哪张只是氛围灵感。没有标签就只能猜。Seedance 2.0 也是一样。每个上传文件都需要在提示词里通过 @ 标签明确角色,否则就会被模糊处理。
在提示词输入框输入 @(会弹出引用选择器)或点击工具栏里的 @ 图标来启用 @ 标注。然后在描述动作前,明确说明每个文件是做什么的。
| What you want | How to write it |
|---|---|
| Set the opening frame | @Image 1 as the first frame |
| Reference camera movement | reference all camera movements from @Video 1 |
| Match character appearance | character appearance based on @Image 2 |
| Set background music | use @Audio 1 as the background score |
| Replicate motion choreography | replicate the movement style from @Video 1 |
| Define the environment | the setting is based on @Image 3 |
| Reference voiceover style | match the voiceover tone of @Video 2 |
当你同时使用多个参考时,先在提示词开头列出所有“角色分配”,再写场景描述。任何没有明确角色的 @ 标签,都是输出不稳定或偏离预期的高频原因之一。
Seedance 2.0 如何读取上传图片(以及在哪里会失效)
[Image] 上传了角色图,就让图片自己发挥作用
上传角色参考图后,人们很自然会想在提示词里再描述一遍这个角色。尽量克制。图片已经完成了这项工作。文本重复并不会增强结果,反而会引入第二层、且相互竞争的信息,让模型不得不做取舍。
提示词真正需要做的是清晰描述场景:
- 这个镜头里在发生什么
- 镜头如何取景
- 环境看起来是什么样
- 镜头如何运动
图片负责外观。提示词负责镜头所见的一切。
这也是“标记问题”会转化为“图片问题”的地方。只要角色可能被识别为未成年人,Seedance 2.0 就会更严格评估整条提示词。指向低龄的词("child," "kid," "young," "boy," "girl")会触发更高审查强度,而且影响整段提示词,不仅仅是这些词出现的位置,也不取决于你上传图片实际显示了什么。
更稳妥的方法是按“场景角色”来描述人物。人物身份相关信息交给图片;提示词只写事件和镜头所见。
| Avoid this | Use this instead |
|---|---|
| a young boy watches a building burn down | a small figure in a dark coat stands at the edge of a crowd watching a building consumed by fire, medium shot from behind, warm orange glow from the flames, thick smoke rising into a dark sky, cinematic, 2.39:1 anamorphic, documentary style |
第一种写法中的 "young" 会提高整条提示词的敏感阈值。第二种让上传图片承担角色身份信息,提示词只描述镜头所见。
[Image] 还没提交就被拦?问题在图片本身
Seedance 2.0 有一层独立于提示词过滤的图片评估机制。若上传图片里有清晰可见的人脸,可能会在模型读取任何文本之前就触发拒绝。这也解释了为什么你反复改提示词却毫无变化:提示词根本还没被读取。
可行的绕开方式:
- Face away from camera. 从背后拍主体,或用看不清五官的角度构图。服装、姿态、发型和环境通常已足够用于多数参考目的。
- Go wide. 把镜头拉远,让人物在画面中呈剪影或小元素,而不是主导主体。
- Use illustration over photography. 将摄影参考换成插画或风格化图像。评估逻辑不同,插画通常通过率更稳定。
- Shift the reference purpose. 把图片用于服装、场景、色板或空间构图,而不是用于面部或身份。
如果生成持续失败,且提示词侧没有明显原因,先调整图片,再去改文本。
值得掌握的高级技巧
[Advanced] 延展现有视频素材
先写明延展时长,再描述新增片段内容:
Extend @Video 1 by 6 seconds. [Description of new segment content.]
生成时长应设置为“新增片段”的长度,而不是合并后的总时长。延展 6 秒,就把时长设为 6 秒。
[Advanced] 在两段视频之间生成过渡中段
Generate a connecting scene between @Video 1 and @Video 2. The transition shows [describe the action, environment, or movement that links the two clips].
生成片段会插在两段上传视频之间,所以请把它当作一个独立短场景来描述。
[Advanced] 从参考片段复制镜头风格
上传任意带有目标运动风格的片段,并直接点名引用:
Reference all camera movements from @Video 1, including the low-angle circling shot and the push into close-up.
模型会从参考片段提取运动节奏、构图逻辑和转场节奏。写出具体技巧名会更好,但不是必须。
[Advanced] 让剪辑与音乐同步
Scene transitions should align with the beat positions of @Audio 1. Apply visual style changes at each cut.
Seedance 2.0 可以把剪切点、光效变化和场景转场同步到上传音轨的节奏上。
[Advanced] 使用已有视频片段里的音频
如果你已引用的视频片段自带你想要的音频,就无需单独上传音频:
Use the audio embedded in @Video 1 as the background score.
[Advanced] 用负向提示减少常见生成失败
Seedance 2.0 支持在主描述旁加入负向提示指令。它不能用于解决过滤标记,但对减少“即使提示词写得很好仍反复出现的视觉伪影”很有效。
保持简短,并只针对你实际看到的问题,不要把所有可能问题都罗列出来:
negative: no jitter, no warping, no flickering, no identity drift
negative: no text morphing, no garbled logos, no color shift
negative: no motion blur on face, no floating limbs, no background collapse
过长的负向提示可能适得其反,或被直接忽略。与实际失败点绑定的两三个定向词,通常优于冗长穷举列表。
[Community] 社区里有人在尝试的一件事
一些用户反馈:把场景描述写成中文,同时把对白或画面内文字保留英文,提示词通过率会更高。其依据是 Seedance 2.0 最初在中文语料上有较强训练,因此中文提示词可能会落在略有不同的过滤阈值上。
这不是稳定必胜法,结果也因人而异;但如果你已经采用了结构良好的电影化写法却仍被标记,这是一个低成本可尝试项。把场景描述过一遍翻译工具,保留英文对白,再观察输出是否有变化。
输入上限一览
| Input type | Limit |
|---|---|
| Images | Up to 9 |
| Video clips | Up to 3, combined total up to 15s |
| Audio files | Up to 3, combined total up to 15s |
| All files combined | Up to 12 |
| Generation duration | 4 to 15 seconds |
生成前快速检查清单
- [ ] 我是否在使用 All-in-One Reference 模式?(只要混用输入类型就必须使用)
- [ ] 每个 @ 标签是否都在提示词中明确声明了角色?
- [ ] 提示词是否在描述视觉场景,而不是叙事或背景故事?
- [ ] 我是否至少加入了一个制作语言元素:镜头类型、镜头运动或灯光描述?
- [ ] 每一句话是否都在描述镜头所见,或建立电影化语境?
- [ ] 提示词是否按“角色作用”而非“年龄”来指代人物?
- [ ] 我的参考图是否没有明显人脸,或已裁切/改为插画?
- [ ] 我的参考图是否不含可识别真实人物或具名版权角色?
- [ ] 我的总文件数是否不超过 12?
常见问题
过滤器需要足够的视觉语境,才能有把握地判断你在生成什么。缺少电影化框架或场景细节的简短提示词会给出不完整画面,因此系统会默认保守处理。补充场景设定、氛围、机位和制作语境后,通常就能解决。
如果改提示词完全没变化,问题很可能在图片。Seedance 2.0 会在提示词过滤启动前先对上传内容做人脸检测。只要参考图检测到人脸,生成就会在这一阶段被拒绝。先编辑图片、裁切、拉远景别或改用插画,再继续修改提示词。
这是平台级硬性拦截,不是提示词问题。Seedance 2.0 会在处理提示词前先扫描上传图片中的可识别真实人脸。名人、公众人物,或任何可被识别相似度的人脸,都会在该阶段被拒绝。唯一可行方案是改用插画参考或不可识别身份的图像。
会。制作语言会向模型明确这是影视创作语境,相比日常语言描述,这类语境会获得更大解释空间。加入镜头类型、镜头规格和灯光描述,会改变过滤器对整条提示词意图的判断方式。
First and Last Frames 适用于单图 + 文本生成。只要你组合了多种输入类型(图片、视频片段、音频),就必须使用 All-in-One Reference。它也是唯一支持 @ 标签的模式。
可以。用不同角色多次标注即可。例如:@Image 1 as the first frame, environment and lighting also based on @Image 1。每个角色都需要明确写出来。
上传该片段后用 @Video 1 引用,写明延展时长并描述新增内容。生成时长只设置为新增片段长度,不是合并后的总长度。
支持。JSON 是原生支持的,特别适合多镜头序列。用 visual_world 模块定义整体电影语境,再为每个机位与动作写单独的 shot 模块。这个结构能减少导致生成不稳定的歧义。
负向提示对通过内容过滤没帮助,但当生成结果持续出现同类视觉伪影时非常值得用。保持简短并精准对应你的实际问题。两三个定向词通常优于一长串泛化列表。
系统不会接受超过 12 个输入文件(跨所有输入类型合计)。上传前先规划分配。次要风格参考和音频描述通常用提示词文本表达比上传文件更高效。
开始在 Morphic 上生成
测试本文方法的最好方式,就是直接打开一次生成并实践。Morphic 上的 Seedance 2.0 提供完整多模态能力:图片、视频、音频与文本,无需安装任何东西。
