聆听 Seed Audio 1.0
纪录片旁白
语音,温暖而沉稳
惊悚片配音
语音,压低而紧张
香料市场环境音
音效,露天底噪
雷暴
音效,从暴雨到一声惊雷
管弦乐段落
音乐,渐强的弦乐与铜管
Lo-fi 节拍
音乐,柔和的键盘与黑胶质感
Seed Audio 1.0 应用场景
一次完成视频音频
在一次生成中为视频片段配上旁白、音效设计和音乐。描述场景、谁在说话、发生了什么以及氛围,模型即可处理完整的音轨。

带旁白的讲解与教程
在一次输出中获得沉稳的人声、室内底噪和轻柔的背景音乐。旁白承载内容,模型填补声学空间,让声音显得有位置感、有完成度。

短广告与宣传片
口播、音效和音乐合成为一条即用型音轨。把时间点写进提示词,模型就会在合适的词上踩准节拍,并按提示淡出音乐。

剧本对白与广播剧
在一条提示词中呈现多角色场景,声音各异、情绪表达精准、环境音相配。写好剧本,标注说话人,模型即可完成选角与执导。

全系列声音一致
从参考片段克隆角色或旁白的声音,并贯穿每一集或每一章。仅凭一段简短样本,就能在数小时的内容中保持声音一致。

音频编辑与修复
延长一段录音、填补空白、替换一句台词或拼接两段素材。生成原始音频的同一模型,无需重录整条音轨即可完成修改。

如何写一条 Seed Audio 1.0 提示词
一条出色的提示词读起来像一份简短的场景说明,而不是一行文字转语音的文本,这样模型才能把语音、音乐和音效融入同一个场景。发送前先过一遍 SPACE。
| SPACE | 包含内容 | 示例 |
|---|---|---|
| Speaker | 声音特质、年龄、情绪 | 平静的男旁白,三十多岁,温暖 |
| Phrasing | 确切的台词,用引号标注 | 「把面粉和黄油混合在一起。」 |
| Ambience | 声学空间与背景 | 柔和的厨房环境音,低沉的烤箱风扇嗡鸣 |
| Composition | 音乐氛围、风格或节奏 | 轻柔的原声吉他,垫在人声之下 |
| Extra cues | 时间点、效果、转场 | 结尾处一声短促的清脆铃音,随后归于静默 |
有两个习惯能把出色的提示词与平庸的区分开来:说明场景,因为没有地点时模型会默认使用平淡的室内底噪;以及给出音乐的时间点提示,「在第一句台词后淡入」胜过干巴巴的「欢快的音乐」。
用 Seed Audio 1.0 克隆声音
零样本声音克隆最多可基于三段各约 30 秒的参考片段完成,无需训练。请对照 CLEAR 清单准备片段:
- Clean recording,几乎没有背景噪声
- Length under 30 seconds,每段片段时长在 30 秒以内
- Emotion,与你想要的表达方式一致
- Accent consistent,每段片段内口音保持一致
- Room tone steady,各段片段之间室内底噪保持稳定
模型会读取声音特质,并将其贯穿整个生成过程。
如果没有片段,可以用文字描述声音,给出年龄、口音和语速,而不是「好听」或「专业」。角色图像同样有效:模型会根据表面年龄和角色特征推导出相配的声音,这对虚构或动画角色很有用。
如何使用 Seed Audio 1.0
获得一条成品音轨只需四步,其中没有一步需要单独的编辑器。
- 写下场景说明。描述谁在说话、他们说什么、场景以及氛围,遵循上面的 SPACE 清单。
- 设定声音。从一段简短的参考片段克隆声音,或用文字描述或角色图像来定义它。
- 生成。一次生成即可返回语音、音乐和音效,已经混音完成,最长可达两分钟。
- 原地精修。用编辑模式延长片段、替换台词或填补空白,无需重录。
常见问题
修补会在两段已有音频之间填补空白,而不会重新生成其周围的内容。你提供周围的音频作为上下文,模型只生成缺失的部分,并在声音特质和声学空间上与周围内容相匹配。
发布时支持英语和中文,并计划支持更广泛的语言。对于声音克隆,让参考片段的语言与输出语言一致能获得最一致的效果。
可以。除了从零开始生成,同一模型还能延长片段、填补空白、替换单句台词,或将两段录音拼接成一段连续的作品,让你无需重录就能修改音轨。
可以。在提示词中标注每一句,例如 主持人:…… 和 嘉宾:……,模型就会在一次生成中为每位说话人赋予各异的声音、情绪和语速。可以通过参考片段、文字描述或角色图像来定义更多声音。
单次生成最长两分钟。对于更长的制作,续接模式会在保留声音特质、音乐风格以及与前文一致性的同时延长输出。
区别很大。文字转语音只从书面文本产出一条人声音轨。Seed Audio 1.0 会在一次输出中生成完整的场景,即人声、背景音乐和音效一起生成,并配有编辑工具供事后修改特定段落。范围上的区别在于:整套音频制作,而不仅仅是人声。
