如何使用 Seed Audio 1.0：提示词与参考音频

纪录片旁白

语音，温暖而沉稳

惊悚片配音

语音，压低而紧张

香料市场环境音

音效，露天底噪

雷暴

音效，从暴雨到一声惊雷

管弦乐段落

音乐，渐强的弦乐与铜管

Lo-fi 节拍

音乐，柔和的键盘与黑胶质感

试用 Seed Audio 1.0

Seed Audio 1.0 应用场景

一次生成视频音频

一次生成就给片段配上旁白、声音设计和音乐。写清场景、谁在说话、发生了什么以及氛围，模型会接手整条音轨。

讲解视频与教程

一条输出里同时有沉稳的人声、房间底噪和轻量音乐垫。旁白承载内容，模型补上声学空间，听起来有位置感也更完整。

短广告与宣传片

台词、音效和音乐合成一条即用音轨。把节奏写进提示词，模型就会把重音落在该落的词上，并在恰当的时刻把音乐压下去。

剧本对白与广播剧

多角色场景里各有分明的声音、准确的情绪表达和相称的环境音，全都写在一条提示词里。写好剧本、描述每个声音，模型负责选角与调度。

有声书与长篇旁白

不用进棚也能准备旁白、角色配音和声音设计，字节跳动称成本约为真人录音的十分之一。定下讲述者后，按场景把整本书做下去。

精确到帧的配音

给每句台词写上时间码，模型就会把表演严格放进那个区间，让对白落在剪辑点上而不是它附近。支持的二十种语言都可用。

如何写 Seed Audio 1.0 的提示词

好的提示词读起来像一份简短的场景说明，而不是一行语音合成文本，模型才能把人声、音乐和音效放进同一场戏里。发送之前先过一遍 SCENE。

SCENE	要写什么	示例
场景	天气、地点、情境、声学	放学后的走廊，远处的脚步声，回声
角色	每个人在做什么、穿什么	背包挎在肩上，在门口挥手
音效与音乐	音乐的氛围与风格，音效	低沉战鼓、低音铜管、储物柜“咔哒”
声音说明	性别、年龄、口音、情绪、音色、语速	少年男生，美式口音，明亮而神气的嗓音
台词	每个人说的话，写在引号里	“艾玛，周六有空吗？”

把好提示词和平庸提示词分开的，是三个习惯。

写长一点。 上限是 3000 字符，官方示例基本都用满了。这里的描述不是注水：环境、音乐和每个角色的表演都是模型要渲染的东西，所以你删掉的每一句，都是把判断交还给了模型。

把声音写出来。 拟声词管用。背包拉链的“呲啦”、渐渐远去的上课铃“叮铃铃”、刀锋划破空气的“呼、呼”。把声音拼写出来，比给它起个名字更可靠。

语言要一致。 用与台词相同的语言写提示词。中文剧本配英文说明，是口音听起来不对的最常见原因。

上课铃“叮铃铃”由近及远地淡去，放学后的走廊环境，远处有脚步声、学生的交谈声、偶尔一声储物柜“咔哒”，还有走廊的回声。杰克（少年男生，美式口音，明亮的年轻嗓音，阳光而神气）带着玩笑和逗弄的语气说：“艾玛，周六有空吗？我请客，去那家新开的游乐园！”背包拉链“呲啦”一声。艾玛（少女，美式口音，甜而柔的气声嗓音，害羞）压低声音，有些慌乱：“呃……我作业还没写完。”杰克拖长了字哄她：“周日写就好啦，就半天而已！”艾玛咕哝着，语气软了下来：“可是……周一就要交。”杰克温和地说：“我陪你一起写，写完再出门，行不行？”艾玛忍不住笑出来，害羞地让步：“……好吧，就半天哦？”杰克很兴奋：“说定了！”结尾是两人的脚步声渐渐远去。

编辑提示词

把时间精确控制到秒

Seed Audio 1.0 支持精确的时间控制。在台词开头按 [开始:结束] 的形式写上时间码，模型就会把这句话的表演严格放进这个区间。为了放得下，它会加快、放慢，并安排停顿。

瑞恩（年轻男性，温暖的嗓音）焦急地喊，略微喘着气：“[5.5s:8.0s] 玛雅！等等，你今晚真的要走吗？”玛雅（年轻女性，柔和的嗓音）强作镇定，轻声回答：“[8.5s:11.5s] 我必须走。我追了这么多年，现在没法回头。”

编辑提示词

正是这一点让这个模型能用于配音。把每句台词的入点和出点从时间线上取出来写进提示词，返回的音轨就能不拉伸、不裁剪地贴到画面上。不写时间码时，模型会给这场戏一个自然的节奏。

用参考音频指定声音（TA2A）

把一个声音放进戏里有两种方式。在 T2A 里，你把它描述出来，由模型选声。在 TA2A 里，你上传参考音频，生成的声音会跟随这段录音。

此外还有一个更简单的声音克隆模式，独立于成场戏的制作：上传一段音频，克隆出来的声音就能用于普通的语音合成。只需要一个声音把稿子读出来时，用它。一旦这个声音要和音乐、音效以及其他角色一起待在同一场戏里，就换成 TA2A。

TA2A 最多接受三段、每段不超过 30 秒的参考音频。在正文里把每段绑到一个角色上，让模型知道哪个声音属于哪位说话人，然后像写 T2A 一样把场景写完。

[街道环境音：驶过的车辆、远处的交谈、一阵轻风。] 马库斯（男声，圆润而自信，温暖俏皮的主持人语气，吐字清晰，出演者是 <<TGT_SPK1>>），语气轻快而亲切，说：“你好！问个小问题，你遇到过最尴尬的事情是什么？”泰勒（更年轻的男声，略带紧张，带着轻笑，表达丰富，出演者是 <<TGT_SPK2>>），长长地哼了一声，苦笑着说：“啊，你真的不会想知道的。好吧，但这事只能咱俩知道。”马库斯（出演者是 <<TGT_SPK1>>）好奇地凑近，说：“那我更得听了。说吧。”[两人一起大笑；街道环境音先扬起，随后淡出。]

编辑提示词

写 TA2A 提示词要交代清楚三件事：要生成什么内容、用哪一段参考音频，以及每段参考音频的用途。参考音频通过 @Audio1、@Audio2 和 @Audio3 选取，可以只为当次任务上传，也可以从素材库里挑出来，在整个系列中反复使用。

像 [街道环境音：驶过的车辆、远处的交谈] 这样的方括号提示，是一种干净的开场和收尾方式，不必把声音绑到某位说话人身上。

按 CLEAR 清单准备参考音频：

录音干净，背景噪声少
每段不超过 30 秒
情绪与你想要的表演一致
每段之内口音保持一致
各段之间的房间底噪稳定

如果完全没有参考音频，就用文字描述声音，给出年龄、口音和语速，而不是“好听”或“专业”。角色图片同样可用：模型会从看上去的年龄和性格推出合适的声音，用在虚构或动画角色上很方便。

如何使用 Seed Audio 1.0

拿到一条成品音轨要四步。

写场景说明。按上面的 SCENE 清单写清环境、角色、音乐与音效、每个声音以及台词。最多 3000 字符。
定下声音。T2A 就在提示词里描述，TA2A 就上传最多三段参考音频并做好绑定。用角色图片也可以。
需要的话再加时间。给必须落在特定区间的台词写上 [开始:结束] 时间码。
生成。一次就能拿到混好的人声、音乐和音效，最长两分钟。

超过两分钟的内容，比如一章有声书或一整集节目，就按场景逐段推进，并在多次生成之间沿用同一段声音参考，让角色声音保持一致。

常见问题

Seed Audio 1.0 的 T2A 和 TA2A 有什么区别？

T2A（文本到音频）完全依据你的描述来搭建：环境、音乐、音效以及每个角色的声音。TA2A（文本加音频到音频）在此之上再加最多三段参考录音，你把它们绑到具体角色上，这些声音就跟随录音而不是文字描述。提示词的其余写法完全相同。

Seed Audio 1.0 能克隆声音吗？

可以。除了 T2A 和 TA2A，还有一个声音克隆模式：上传一段音频，克隆出来的声音就能用于普通的语音合成。字节跳动把它记录为从单段音频完成的克隆。如果这个声音需要出现在一整场戏里，和音乐、音效以及其他说话人共处，请改用 TA2A，它最多接受三段参考音频，并把每段绑到一个角色上。

Seed Audio 1.0 的时间控制怎么用？

在台词开头写上 [5.5s:8.0s] 形式的时间码，模型就会调整语速和停顿，把这段表演严格放进那个区间。正是这个功能让模型在配音里变得实用，因为音频必须与画面对齐。没有时间码的台词会按自然节奏来读。

Seed Audio 1.0 支持哪些语言？

二十种：英语、中文、日语、韩语、墨西哥西班牙语、卡斯蒂利亚西班牙语、印尼语、德语、巴西葡萄牙语、法语、泰语、越南语、马来语、菲律宾语、意大利语、俄语、荷兰语、波兰语、土耳其语和瑞典语。用与剧本相同的语言写提示词，结果最稳定。

Seed Audio 1.0 能一次生成多个说话人吗？

可以。在写场景的同时描述每个角色的声音，模型会在一次生成中给每位说话人不同的声音、情绪和节奏，并把周围的环境音和音效一并做出来。在 TA2A 模式下，你可以把其中最多三位角色绑到参考录音上。

Seed Audio 1.0 一次能生成多长？

每次最长两分钟音频，提示词最多 3000 字符。生成是非流式的：模型输出的是混好的完整音轨，而不是实时返回音频。更长的作品按场景逐段制作。

Seed Audio 1.0 能做有声书旁白吗？

这正是这个模型最擅长的用法之一。一条提示词就能覆盖讲述者的声音、各个角色的声音以及周围的声音设计，所以一场戏是成品状态送到你手里，而不是一堆等着混音的分轨。各章之间沿用同一段声音参考，讲述者就能在整本书里保持一致。

Seed Audio 1.0 和普通语音合成不一样吗？

区别很大。普通语音合成是挑一个声音把文字读出来。Seed Audio 1.0 则从文本到语音走向参考到音频：一条提示词描述环境、音乐、音效和每个角色的声音，模型把整场戏混好之后返回。范围上的差别，是一份完整的音频作品，还是只有人声。

聆听 Seed Audio 1.0

纪录片旁白

惊悚片配音

香料市场环境音

雷暴

管弦乐段落

Lo-fi 节拍

Seed Audio 1.0 应用场景

一次生成视频音频

讲解视频与教程

短广告与宣传片

剧本对白与广播剧

有声书与长篇旁白

精确到帧的配音

如何写 Seed Audio 1.0 的提示词

把时间精确控制到秒

用参考音频指定声音（TA2A）

如何使用 Seed Audio 1.0

常见问题