Seed Audio 1.0:完整指南

Seed Audio 1.0:完整指南

了解如何使用 Seed Audio 1.0:一次生成语音、音乐和音效,写出更好的提示词,克隆声音,处理多说话人场景,并原地编辑音频,附示例。

聆听 Seed Audio 1.0

纪录片旁白

语音,温暖而沉稳

惊悚片配音

语音,压低而紧张

香料市场环境音

音效,露天底噪

雷暴

音效,从暴雨到一声惊雷

管弦乐段落

音乐,渐强的弦乐与铜管

Lo-fi 节拍

音乐,柔和的键盘与黑胶质感

Seed Audio 1.0 应用场景

一次完成视频音频

在一次生成中为视频片段配上旁白、音效设计和音乐。描述场景、谁在说话、发生了什么以及氛围,模型即可处理完整的音轨。

一张电影感的定格画面:黄昏时分,一个孤身撑伞的身影走在被雨水浸湿的街道上

带旁白的讲解与教程

在一次输出中获得沉稳的人声、室内底噪和轻柔的背景音乐。旁白承载内容,模型填补声学空间,让声音显得有位置感、有完成度。

过肩镜头:在柔和的窗光下,一双手正在工作台上校正自行车车轮

短广告与宣传片

口播、音效和音乐合成为一条即用型音轨。把时间点写进提示词,模型就会在合适的词上踩准节拍,并按提示淡出音乐。

黄金时刻,一只跑鞋在阳光洒落的跑道上被定格于半空

剧本对白与广播剧

在一条提示词中呈现多角色场景,声音各异、情绪表达精准、环境音相配。写好剧本,标注说话人,模型即可完成选角与执导。

在一扇被雨水划过的窗边,两人隔着一张小咖啡桌交谈

全系列声音一致

从参考片段克隆角色或旁白的声音,并贯穿每一集或每一章。仅凭一段简短样本,就能在数小时的内容中保持声音一致。

一个温馨的家庭录音角落,一支录音室麦克风在温暖的主光下

音频编辑与修复

延长一段录音、填补空白、替换一句台词或拼接两段素材。生成原始音频的同一模型,无需重录整条音轨即可完成修改。

一个音频编辑工作区,深色显示器上有一条发光的波形时间线

如何写一条 Seed Audio 1.0 提示词

一条出色的提示词读起来像一份简短的场景说明,而不是一行文字转语音的文本,这样模型才能把语音、音乐和音效融入同一个场景。发送前先过一遍 SPACE。

SPACE包含内容示例
Speaker声音特质、年龄、情绪平静的男旁白,三十多岁,温暖
Phrasing确切的台词,用引号标注「把面粉和黄油混合在一起。」
Ambience声学空间与背景柔和的厨房环境音,低沉的烤箱风扇嗡鸣
Composition音乐氛围、风格或节奏轻柔的原声吉他,垫在人声之下
Extra cues时间点、效果、转场结尾处一声短促的清脆铃音,随后归于静默

有两个习惯能把出色的提示词与平庸的区分开来:说明场景,因为没有地点时模型会默认使用平淡的室内底噪;以及给出音乐的时间点提示,「在第一句台词后淡入」胜过干巴巴的「欢快的音乐」。

用 Seed Audio 1.0 克隆声音

零样本声音克隆最多可基于三段各约 30 秒的参考片段完成,无需训练。请对照 CLEAR 清单准备片段:

  • Clean recording,几乎没有背景噪声
  • Length under 30 seconds,每段片段时长在 30 秒以内
  • Emotion,与你想要的表达方式一致
  • Accent consistent,每段片段内口音保持一致
  • Room tone steady,各段片段之间室内底噪保持稳定

模型会读取声音特质,并将其贯穿整个生成过程。

如果没有片段,可以用文字描述声音,给出年龄、口音和语速,而不是「好听」或「专业」。角色图像同样有效:模型会根据表面年龄和角色特征推导出相配的声音,这对虚构或动画角色很有用。

如何使用 Seed Audio 1.0

获得一条成品音轨只需四步,其中没有一步需要单独的编辑器。

  1. 写下场景说明。描述谁在说话、他们说什么、场景以及氛围,遵循上面的 SPACE 清单。
  2. 设定声音。从一段简短的参考片段克隆声音,或用文字描述或角色图像来定义它。
  3. 生成。一次生成即可返回语音、音乐和音效,已经混音完成,最长可达两分钟。
  4. 原地精修。用编辑模式延长片段、替换台词或填补空白,无需重录。

常见问题

Seed Audio 1.0 中的音频修补(inpainting)是什么?

修补会在两段已有音频之间填补空白,而不会重新生成其周围的内容。你提供周围的音频作为上下文,模型只生成缺失的部分,并在声音特质和声学空间上与周围内容相匹配。

Seed Audio 1.0 支持哪些语言?

发布时支持英语和中文,并计划支持更广泛的语言。对于声音克隆,让参考片段的语言与输出语言一致能获得最一致的效果。

Seed Audio 1.0 能编辑已有音频吗?

可以。除了从零开始生成,同一模型还能延长片段、填补空白、替换单句台词,或将两段录音拼接成一段连续的作品,让你无需重录就能修改音轨。

Seed Audio 1.0 能一次生成多个说话人吗?

可以。在提示词中标注每一句,例如 主持人:…… 和 嘉宾:……,模型就会在一次生成中为每位说话人赋予各异的声音、情绪和语速。可以通过参考片段、文字描述或角色图像来定义更多声音。

Seed Audio 1.0 一次生成的时长可以多长?

单次生成最长两分钟。对于更长的制作,续接模式会在保留声音特质、音乐风格以及与前文一致性的同时延长输出。

Seed Audio 1.0 与文字转语音有区别吗?

区别很大。文字转语音只从书面文本产出一条人声音轨。Seed Audio 1.0 会在一次输出中生成完整的场景,即人声、背景音乐和音效一起生成,并配有编辑工具供事后修改特定段落。范围上的区别在于:整套音频制作,而不仅仅是人声。