语音情感控制副本
为你生成的语音添加情感、反应和传递方向。你编写提示词的方式会直接控制声音的表现。
Morphic 支持两种语音模型—— ElevenLabs 和 MiniMax。每种都使用不同的情感控制语法。先选择你的模型,然后使用下面的格式编写提示词。
ElevenLabs
ElevenLabs 使用 方括号标签 直接写在提示词中。把任何情感、反应或指令放在方括号里,模型会将其理解为表演提示——而不是朗读文本。
工作原理
[tag] 你的对话文本写在这里。标签会影响其后的一切内容,直到出现新的标签。你可以组合多个标签,并把它们放在文本中的任何位置。
[excited] 我们刚刚达到了百万用户!
[whispers][tense] 别让他们听见你。
[tired] 我已经连续工作了 14 个小时。[sigh] 我甚至感觉不到自己的手了。你可以使用任何标签
ElevenLabs 是 开放式的。没有固定列表——只需在方括号里写入任何情感或指令,模型就会尝试理解它。像 [jealous], [romantic], [awkward], [suspicious tone],或 [continues after a beat] 这些都可以。
下面这些标签是常用且效果稳定的,但你并不局限于此。
情感
[excited] · [happy] · [cheerfully] · [sad] · [sorrowful] · [angry] · [nervous] · [frustrated] · [calm] · [tired] · [curious] · [sarcastic] · [playful] · [mischievously] · [deadpan] · [flatly]
细微差别: [hesitant] · [relieved] · [tense] · [warm] · [resigned tone] · [stammers] · [regretful] · [sympathetic] · [reassuring] · [professional] · [questioning]
反应
增加真实感的非语言声音。
[laughs] · [giggles] · [sigh] · [gasps] · [gulps] · [crying] · [clears throat] · [light chuckle]
表达方式
[whispers] · [shouts] · [quietly] · [loudly] · [rushed] · [drawn out] · [dramatic tone]
口音
在不改变声音的情况下切换口音。
[American accent] · [British accent] · [French accent] · [Southern US accent] · [strong Russian accent] · [strong X accent]
角色
[pirate voice] · [old man voice] · [robot voice]
多角色对话
[interrupting] · [overlapping]
停顿
ElevenLabs 不 支持显式停顿时长。停顿长度由上下文、标签和标点推断:
[pause]
戏剧性静默(模型决定时长)
...
犹豫的拖尾停顿
—
短促、干脆的停顿
全大写
强调该词
新段落
清晰的停顿 + 语调重置
提示
当标签与文本匹配时效果最好。
“不……求你了 [crying] 别走。”比在[crying]中性文本里额外添加
[whispers][tense]或[hesitant][nervous].效果更好。你选择的声音很重要——平静的声音不适合大喊,高亢的声音也不适合耳语。
使用 Creative 或 Natural 稳定性,以获得最佳标签响应。 Robust 更一致,但表现力较弱。
少于约 250 个字符的提示词可能会产生不一致的结果。越长越好。
MiniMax
MiniMax 使用 括号声音标签 在提示词中,以及 Morphic 界面中的单独 情感选择器 。
情感
在生成时从下拉菜单中选择情感。这会设置整个输出的整体语调。
自动
模型读取文本并选择最佳情感(默认)
开心
轻快、积极
悲伤
低落、忧郁
愤怒
强烈、激进
恐惧
焦虑、害怕
厌恶
反感、排斥
惊讶
吃惊、惊愕
平静
放松、宁静
流畅
干净、播报风格——非常适合新闻或技术解说
中性
无情感倾向
声音标签
使用括号在提示词中直接添加非语言声音。这些是 仅预设 ——只支持下面列出的标签。
(laughs)
(chuckle)
(coughs)
(clear-throat)
(groans)
(breath)
(pant)
(inhale)
(exhale)
(gasps)
(sniffs)
(sighs)
(snorts)
(burps)
(lip-smacking)
(humming)
(hissing)
(emm)
(whistles)
(sneezes)
(crying)
(applause)
(yawns)
与 ElevenLabs 不同,你 不能 创建自定义标签。写入
(nervous)或(jealous)不会起作用——模型会把它们当作文本读出来。情感语调请使用情感选择器。
停顿
使用 <#x#> 插入定时静默,其中 x 为秒数(0.01–99.99)。
提示
请谨慎使用声音标签——太多会听起来不自然。
大多数情况下将情感设为 自动 。在需要长文本保持一致语调时,请手动覆盖。
标点很重要——逗号和句号会引导模型的节奏和语调。
最后更新于