音声感情コントロールの複製

生成した音声に感情、リアクション、発話の方向性を追加できます。プロンプトの書き方が、そのまま声の演技を直接左右します。

Morphic は 2 つの音声モデルをサポートしています — ElevenLabsMiniMax。それぞれ感情制御の構文が異なります。モデルを選択し、以下の形式でプロンプトを書いてください。

ElevenLabs

ElevenLabs では 角括弧タグ をプロンプト内に直接書きます。感情、リアクション、指示はすべて角括弧で囲むと、モデルはそれを読み上げる文ではなく、演技の指示として解釈します。

仕組み

[tag] ここにセリフを入力。

タグは、その後に新しいタグが現れるまで以降のすべてに影響します。複数のタグを組み合わせて、テキストの任意の場所に配置できます。

[excited] やった、ユーザーが100万人に到達した!
[whispers][tense] 聞かれないようにして。
[tired] 14時間ぶっ通しで働いている。[sigh] もう手の感覚すらない。

任意のタグを使用できます

ElevenLabs は 自由記述型です。固定リストはありません — 角括弧内に任意の感情や指示を書けば、モデルがそれを解釈しようとします。次のようなタグも使えます [jealous], [romantic], [awkward], [suspicious tone]、または [continues after a beat] はすべて機能します。

以下のタグは一般的によく使われ、安定して効果がありますが、これらに限定されるわけではありません。

感情

[excited] · [happy] · [cheerfully] · [sad] · [sorrowful] · [angry] · [nervous] · [frustrated] · [calm] · [tired] · [curious] · [sarcastic] · [playful] · [mischievously] · [deadpan] · [flatly]

ニュアンス: [hesitant] · [relieved] · [tense] · [warm] · [resigned tone] · [stammers] · [regretful] · [sympathetic] · [reassuring] · [professional] · [questioning]

リアクション

リアリティを加える非言語の音です。

[laughs] · [giggles] · [sigh] · [gasps] · [gulps] · [crying] · [clears throat] · [light chuckle]

発話

[whispers] · [shouts] · [quietly] · [loudly] · [rushed] · [drawn out] · [dramatic tone]

アクセント

声を変えずにアクセントだけを切り替えられます。

[American accent] · [British accent] · [French accent] · [Southern US accent] · [strong Russian accent] · [strong X accent]

キャラクター

[pirate voice] · [old man voice] · [robot voice]

複数キャラクターの会話

[interrupting] · [overlapping]

ElevenLabs は 明示的な 一時停止時間には対応していません。間の長さは文脈、タグ、句読点から推測されます:

これを書いた場合
効果

[pause]

劇的な沈黙(長さはモデルが判断)

...

ためらいながら続く間

短く鋭い間

ALL CAPS

その単語を強調

新しい段落

明確な間 + 抑揚のリセット

ヒント

  • タグは、本文と内容が合っているときに最も効果的です。 「だめ……お願い [crying] 行かないで。」 のほうが、 [crying] を中立的な文に付けるより効果的です。

  • タグを組み合わせる: [whispers][tense] または [hesitant][nervous].

  • 選ぶ声質も重要です — 落ち着いた声は大声をうまく出せず、ハイテンションな声はささやきに向きません。

  • 使用する Creative または Natural を最適にすると、タグへの反応が最も良くなります。 Robust はより安定していますが、表現力は控えめです。

  • 約250文字未満のプロンプトでは結果が不安定になることがあります。長いほうがよいです。

MiniMax

MiniMax では 括弧付きの音タグ をプロンプト内で使い、Morphic の UI で別途 感情セレクター を設定します。

感情

生成時にドロップダウンから感情を選択します。これにより、出力全体のトーンが設定されます。

感情
効果

Auto

モデルがテキストを読み取り、最適な感情を選びます(デフォルト)

Happy

明るい、前向き

Sad

沈んだ、憂鬱な

Angry

強い、攻撃的

Fearful

不安な、怖がっている

Disgusted

不快、嫌悪している

Surprised

驚いた、仰天した

Calm

リラックスした、穏やかな

Fluent

明瞭で放送向けスタイル — ニュースや技術解説に最適

Neutral

感情の偏りなし

音タグ

括弧を使って、非言語の音をプロンプトに直接追加します。これらは プリセットのみ です — 下に सूचीしたタグのみがサポートされています。

タグ
タグ
タグ

(laughs)

(chuckle)

(coughs)

(clear-throat)

(groans)

(breath)

(pant)

(inhale)

(exhale)

(gasps)

(sniffs)

(sighs)

(snorts)

(burps)

(lip-smacking)

(humming)

(hissing)

(emm)

(whistles)

(sneezes)

(crying)

(applause)

(yawns)

ElevenLabs とは異なり、 カスタムタグを作成することは できません。 (nervous) または (jealous) と書いても機能しません — モデルはそれをテキストとして読み上げます。感情のトーンには感情セレクターを使ってください。

時間指定の無音は <#x#> を使って挿入します。ここで x は秒数(0.01〜99.99)です。

ヒント

  • 音タグは控えめに使ってください — 多すぎると不自然に聞こえることがあります。

  • ほとんどの場合は感情を Auto に設定してください。長文で一貫したトーンが必要なときは手動で上書きします。

  • 句読点は重要です — カンマとピリオドが、モデルの間合いと抑揚を導きます。

最終更新