音频生成
已上线
Gemini 3.1 Flash TTS
由 Google DeepMind 提供
Google 最具表现力的文本转语音,支持音频标签和多人对话。

核心功能
技术规格
多语言
在多种语言中控制风格、节奏与口音
最多 2 位
一次多人生成中两种不同的声音
音频标签
平实话语指示加上内嵌的方括号提示
SynthID
输出上不可察觉的 AI 来源水印
应用场景
视频旁白与配音
为 AI 或实拍视频添加自然旁白,用平实的话设定语气与节奏。
角色对话
为短片、游戏和讲解视频配两位说话人的场景,每个角色都有独特的声音。
本地化配音
用多种语言朗读同一脚本,保持母语般的节奏与口音。
有声书与长篇内容
在长段旁白中保持自然、一致的朗读。
讲解与教程
为产品演示、课程和操作指南提供清晰、可调度的旁白。
广告口播与宣传
以你所调度的能量与强调,呈现富有表现力且契合品牌的口播。
提示词示例
简单定价
今天就免费开始,随时可以升级或取消。
Basic
500 每月 信用
1 个用户
所有模型
工作流
Standard
2800 每月 信用
1 个用户
所有模型
工作流
Pro
6000 共享 每月 信用
1 用户
+ 最多 4 人额外付费可增加
所有模型
工作流
Pro Max
24000 共享 每月 信用
1 用户
+ 最多 9 人额外付费可增加
所有模型
工作流
Enterprise
更高的限制
自定义
定价和账单条款
无限信用
自定义席位限制
所有模型
工作流

Free
For playing around
$0
forever free
最多 20 积分
仅1个用户
部分模型
工作流
常见问题
什么是 Gemini 3.1 Flash TTS?
Gemini 3.1 Flash TTS 是 Google 的文本转语音模型,于 2026 年 4 月 15 日发布。它能生成富有表现力的自然旁白,可用平实话语指示和内嵌音频标签来调度,支持多人对话,并为每段片段添加 SynthID 水印。
我能在 Morphic 上创作什么?
Gemini 3.1 Flash TTS 可用于配音、旁白、角色对话、本地化口播以及富有表现力的广告口播。在 Morphic 上生成音频,然后在同一工作流中将其放到 Canvas 的视频片段旁边。
如何调度声音?
有两种方式,且可以组合使用。在句子前写下平实话语指示,例如「把这句温柔而缓慢地说:」,并在想要的位置加入方括号提示,例如 [laughs] 或 [whispering]。Gemini 会表演该提示,而不是把它读出来。
它支持多位说话人吗?
支持。Gemini 3.1 Flash TTS 可在一次生成中让两位说话人来回对话,并为每位赋予不同的声音。为每句标注说话人姓名,并在生成前为各自分配声音。
它支持多少种语言?
Gemini 3.1 Flash TTS 能用多种语言朗读,并在每种语言中控制口音、节奏与风格。生成前请选择契合脚本的声音与语言。
它与 Morphic 上的 ElevenLabs 有何不同?
两者都能在 Morphic 上生成媲美真人的声音。ElevenLabs 是一套完整的音频套件,涵盖语音、音乐与音效,并提供精细的声音调节。Gemini 3.1 Flash TTS 专注于富有表现力、可调度的语音,具备平实话语调度、内嵌音频标签和多人对话。许多创作者会同时使用两者,一个用于声音,另一个用于音乐与音效。
它会为音频添加水印吗?
会。Gemini 3.1 Flash TTS 生成的每段片段都带有 Google 不可察觉的 SynthID 水印以标明 AI 来源。它对听众不可闻,并能在重新编码等常见编辑后保留。
如何在 Morphic 上使用 Gemini 3.1 Flash TTS?
打开 Morphic,将提示栏切换到 Audio 并选择 Speech。选择 Gemini 3.1 Flash TTS 作为音频模型,写下带有调度或标签的脚本,选择声音与语言,然后生成。