音频生成

Seed Audio 1.0

由 ByteDance 提供

字节跳动的一体化音频模型。
一次生成人声、音乐和音效。

核心功能

一体化音频生成

一条提示词即可同时产出人声、器乐和音效，构成完整的混音成品，无需手动拼接。

零样本声音克隆

最多用三段短音频即可克隆任意声音，无需训练。声音、口音和角色贯穿整段生成。

多说话人对话

写好多个角色的场景，模型为每个角色赋予独立的声音、情绪、节奏和口音，一次生成完成。

灵活的声音定义

用文字描述、角色图像或参考录音来定义声音，三者任一都能得到可用的声音。

音频编辑套件

延长片段、填补空缺、替换台词或拼接两段，与从零生成同用一个模型。

长音频续写

每次生成最长两分钟并可继续续写，声音角色和风格在续写中保持一致。

聆听声音的广度

纪录片旁白语音

温暖、沉稳的纪录片旁白。

0:00

0:12

惊悚片旁白语音

压低、紧张的台词朗读，贴近而私密。

0:00

0:12

香料市场环境音音效

层次丰富的露天市场声音垫底。

0:00

0:12

雷暴音效

翻滚的风暴逐渐酝酿出远处的一声惊雷。

0:00

0:12

管弦乐段音乐

一段为弦乐和铜管而作的短促上扬乐句。

0:00

0:12

Lo-fi 节拍音乐

轻松的节拍，配上柔和琴键和黑胶噪点。

0:00

0:12

技术规格

ByteDance

由字节跳动 Seed 研究团队开发。

EN + ZH

支持英语和中文，并计划扩展更多语言。

最长2分钟

每次生成两分钟，可通过续写模式延长。

最多3段

最多三段参考片段，每段最长30秒。

应用场景

一次生成视频音频

一次生成即可为视频片段配上旁白、音效设计和配乐，之后无需单独混音。

解说讲解视频

一次输出即得配音、轻环境音和音乐垫底，模型会填满旁白周围的声音空间。

广告与宣传片

台词、音效和音乐合成一条即用音轨，专为短视频内容打造。

对话与广播剧

多个角色各具独特声音和演绎，同处一个场景，环境音和时机自然匹配。

系列作品声音一致

从参考片段克隆角色声音，无需重新录制即可贯穿整部作品。

音频编辑与修复

延长录音、填补空缺、替换台词或拼接两段，无需重新生成整条音轨。

提示词示例

解说讲解

平静旁白，轻柔厨房环境音：“把面粉和黄油混合在一起。”

Edit prompt

多说话人场景

主持人：“为何离开城市？”嘉宾：“我需要安静。”安静咖啡馆环境音。

Edit prompt

短广告

活力嗓音：“你最好的一跑从这里开始。”嗖声、铜管重音、欢呼。

Edit prompt

广播剧

侦探，紧张：“别动。”脚步停下，门吱呀作响，警笛声。

Edit prompt

纪录片旁白

沉稳旁白：“那座山谷曾无法抵达。”松林风声，一只鹰。

Edit prompt

游戏场景

低沉旁白：“古老的封印已经破碎。”石头摩擦，低沉暗鸣。

Edit prompt

简单定价

今天就免费开始，随时可以升级或取消。

Basic

/ 月

账单金额为 $0 每年

900 每月信用

1 个用户

所有模型

工作流

Standard

/ 月

账单金额为 $0 每年

3200 每月信用

1 个用户

所有模型

工作流

Pro

/ 月

账单金额为 $0 每年

6200 共享每月信用

1 用户

+ 最多 4 人额外付费可增加

所有模型

工作流

Pro Max

/ 月

账单金额为 $0 每年

24000 共享每月信用

1 用户

+ 最多 9 人额外付费可增加

所有模型

工作流

Enterprise

更高的限制

自定义

定价和账单条款

大容量信用

自定义席位限制

所有模型

工作流

Free

For playing around

forever free

最多 20 积分

仅1个用户

部分模型

工作流

比较方案详情

常见问题

Seed Audio 1.0 是什么？

Seed Audio 1.0 是字节跳动的一体化音频生成模型。从一条文字提示词出发，它就能同时产出人声、器乐配乐和音效，构成一段成品混音音轨。它还能编辑已有音频：延长片段、填补空缺、替换台词或拼接两段录音。

Seed Audio 1.0 的声音克隆如何工作？

Seed Audio 1.0 以零样本方式克隆声音，最多使用三段各约30秒的参考片段，无需训练或微调。克隆出的声音在整段生成中保持口音、语气和角色一致。你也可以用文字描述或角色图像来定义声音，而非录音。

Seed Audio 1.0 能同时生成多个说话人吗？

可以。写好多个角色的场景并标注每句台词，例如“主持人：……”和“嘉宾：……”。Seed Audio 1.0 会在一次生成中为每个说话人赋予独特的声音、情绪和节奏。

Seed Audio 1.0 一次生成能有多长？

Seed Audio 1.0 一次生成最长两分钟的音频。续写模式可进一步延长，同时让声音角色和风格与前文保持一致。

Seed Audio 1.0 支持哪些语言？

Seed Audio 1.0 支持英语和中文，并计划扩展更多语言。做声音克隆时，让参考片段的语言与输出语言一致能获得最一致的效果。

Seed Audio 1.0 与文字转语音有何不同？

文字转语音只把文字转成单一人声音轨。Seed Audio 1.0 生成的是整个场景，人声、背景音乐和音效在一次输出中同时产出，并且之后还能修改特定段落。区别在于范围：一段成品音频作品，而非仅有人声。

Seed Audio 1.0

核心功能

一体化音频生成

零样本声音克隆

多说话人对话

灵活的声音定义

音频编辑套件

长音频续写

聆听声音的广度

技术规格

应用场景

一次生成视频音频

解说讲解视频

广告与宣传片

对话与广播剧

系列作品声音一致

音频编辑与修复

提示词示例

解说讲解

多说话人场景

短广告

广播剧

纪录片旁白

游戏场景

简单定价

常见问题

进一步了解 Seed Audio 1.0

其他模型