音声感情コントロールの複製
生成した音声に感情、リアクション、発話の方向性を追加できます。プロンプトの書き方が、そのまま声の演技を直接左右します。
Morphic は 2 つの音声モデルをサポートしています — ElevenLabs と MiniMax。それぞれ感情制御の構文が異なります。モデルを選択し、以下の形式でプロンプトを書いてください。
ElevenLabs
ElevenLabs では 角括弧タグ をプロンプト内に直接書きます。感情、リアクション、指示はすべて角括弧で囲むと、モデルはそれを読み上げる文ではなく、演技の指示として解釈します。
仕組み
[tag] ここにセリフを入力。タグは、その後に新しいタグが現れるまで以降のすべてに影響します。複数のタグを組み合わせて、テキストの任意の場所に配置できます。
[excited] やった、ユーザーが100万人に到達した!
[whispers][tense] 聞かれないようにして。
[tired] 14時間ぶっ通しで働いている。[sigh] もう手の感覚すらない。任意のタグを使用できます
ElevenLabs は 自由記述型です。固定リストはありません — 角括弧内に任意の感情や指示を書けば、モデルがそれを解釈しようとします。次のようなタグも使えます [jealous], [romantic], [awkward], [suspicious tone]、または [continues after a beat] はすべて機能します。
以下のタグは一般的によく使われ、安定して効果がありますが、これらに限定されるわけではありません。
感情
[excited] · [happy] · [cheerfully] · [sad] · [sorrowful] · [angry] · [nervous] · [frustrated] · [calm] · [tired] · [curious] · [sarcastic] · [playful] · [mischievously] · [deadpan] · [flatly]
ニュアンス: [hesitant] · [relieved] · [tense] · [warm] · [resigned tone] · [stammers] · [regretful] · [sympathetic] · [reassuring] · [professional] · [questioning]
リアクション
リアリティを加える非言語の音です。
[laughs] · [giggles] · [sigh] · [gasps] · [gulps] · [crying] · [clears throat] · [light chuckle]
発話
[whispers] · [shouts] · [quietly] · [loudly] · [rushed] · [drawn out] · [dramatic tone]
アクセント
声を変えずにアクセントだけを切り替えられます。
[American accent] · [British accent] · [French accent] · [Southern US accent] · [strong Russian accent] · [strong X accent]
キャラクター
[pirate voice] · [old man voice] · [robot voice]
複数キャラクターの会話
[interrupting] · [overlapping]
間
ElevenLabs は 明示的な 一時停止時間には対応していません。間の長さは文脈、タグ、句読点から推測されます:
[pause]
劇的な沈黙(長さはモデルが判断)
...
ためらいながら続く間
—
短く鋭い間
ALL CAPS
その単語を強調
新しい段落
明確な間 + 抑揚のリセット
ヒント
タグは、本文と内容が合っているときに最も効果的です。
「だめ……お願い [crying] 行かないで。」のほうが、[crying]を中立的な文に付けるより効果的です。タグを組み合わせる:
[whispers][tense]または[hesitant][nervous].選ぶ声質も重要です — 落ち着いた声は大声をうまく出せず、ハイテンションな声はささやきに向きません。
使用する Creative または Natural を最適にすると、タグへの反応が最も良くなります。 Robust はより安定していますが、表現力は控えめです。
約250文字未満のプロンプトでは結果が不安定になることがあります。長いほうがよいです。
MiniMax
MiniMax では 括弧付きの音タグ をプロンプト内で使い、Morphic の UI で別途 感情セレクター を設定します。
感情
生成時にドロップダウンから感情を選択します。これにより、出力全体のトーンが設定されます。
Auto
モデルがテキストを読み取り、最適な感情を選びます(デフォルト)
Happy
明るい、前向き
Sad
沈んだ、憂鬱な
Angry
強い、攻撃的
Fearful
不安な、怖がっている
Disgusted
不快、嫌悪している
Surprised
驚いた、仰天した
Calm
リラックスした、穏やかな
Fluent
明瞭で放送向けスタイル — ニュースや技術解説に最適
Neutral
感情の偏りなし
音タグ
括弧を使って、非言語の音をプロンプトに直接追加します。これらは プリセットのみ です — 下に सूचीしたタグのみがサポートされています。
(laughs)
(chuckle)
(coughs)
(clear-throat)
(groans)
(breath)
(pant)
(inhale)
(exhale)
(gasps)
(sniffs)
(sighs)
(snorts)
(burps)
(lip-smacking)
(humming)
(hissing)
(emm)
(whistles)
(sneezes)
(crying)
(applause)
(yawns)
ElevenLabs とは異なり、 カスタムタグを作成することは できません。
(nervous)または(jealous)と書いても機能しません — モデルはそれをテキストとして読み上げます。感情のトーンには感情セレクターを使ってください。
間
時間指定の無音は <#x#> を使って挿入します。ここで x は秒数(0.01〜99.99)です。
ヒント
音タグは控えめに使ってください — 多すぎると不自然に聞こえることがあります。
ほとんどの場合は感情を Auto に設定してください。長文で一貫したトーンが必要なときは手動で上書きします。
句読点は重要です — カンマとピリオドが、モデルの間合いと抑揚を導きます。
最終更新