音声感情コントロール

Morphic の音声感情コントロールを使うと、生成される音声がどのように聞こえるかを、感情のトーンから反応、間の取り方、話し方のスタイルまで調整できます。適切な指示を含めてプロンプトを書けば、音声はあなたの指定どおりに演じます。

音声感情コントロールの使い方

Morphic で音声感情コントロールを使う簡単なチュートリアルはこちらです。

  1. Morphic を開いて、プロジェクトに移動します。

  2. 新しいファイルを作成するか、既存のファイルを開きます。

  3. 下部のプロンプトバーで、モードを「Audio」に切り替え、「Speech」を選択します。

  4. 音声モデルとして「ElevenLabs」または「MiniMax」を選択します。

  5. ボイスピッカーから音声と言語を選択します。

  6. 選択したモデルの感情コントロール形式を使ってプロンプトを書きます(下記参照)。

  7. 「Generate」をクリックします。

Morphic は 2 つの音声モデルをサポートしています。それぞれ感情コントロールの構文が異なります。モデルを選択してから、以下のガイドに従ってください。

ElevenLabs

ElevenLabs では、角括弧タグをプロンプトに直接書き込みます。感情、反応、指示を角括弧で囲むと、その部分は話し言葉ではなく演技の指示として解釈されます。

仕組み

[tag] ここにセリフを入力します。

タグは、新しいタグが現れるまで、その後のすべてに影響します。テキストのどこにでもタグを置けて、複数のタグを連続して組み合わせることもできます。

タグなし
タグあり

役をもらえたんだ。本当に役をもらえたんだ。

[excited] 役をもらえたんだ。本当に役をもらえたんだ。

出ないと。今すぐ。

[whispers][tense] 出ないと。今すぐ。

これはうまくいかない気がする。

[sad][hesitant] これはうまくいかない気がする。

宝は古い礼拝堂の地下に埋まっている。

[pirate voice] 宝は古い礼拝堂の地下に埋まっている。

ElevenLabs は自由度が高いです。固定された一覧はありません。角括弧の中に任意の感情や指示を書けば、モデルはそれを解釈しようとします。たとえば [jealous], [romantic], [awkward], [suspicious tone][continues after a beat] などもすべて使えます。

以下のタグは一般的によく使われ、安定して効果が出ますが、これらに限られるわけではありません。

タグ

感情

タグ
効果

[excited]

高いエネルギー、熱意のある話し方

[happy]

温かく、前向きなトーン

[cheerfully]

軽やかで明るい話し方

[sad]

沈んだ、抑えめのトーン

[sorrowful]

深い悲しみ、嘆き

[angry]

鋭く、力強い話し方

[nervous]

不安げで、やや震えた感じ

[frustrated]

張りつめた、いらだちのあるトーン

[calm]

安定した、リラックスした話し方

[tired]

元気がなく、疲れ切った感じ

[curious]

好奇心のある、問いかけるようなトーン

[sarcastic]

乾いた、皮肉っぽい話し方

[playful]

軽快で、からかうような雰囲気

[deadpan]

平板で感情のない話し方

試してみよう:

感情のニュアンス

トーンをより繊細に変化させたいときに使います。全体の演技を覆い隠すことなく、セリフに深みを加えます。

タグ
効果

[hesitant]

自信がなく、ためらう

[relieved]

肩の荷が下りた、緊張が解けた

[tense]

張りつめていて、何かに備えている

[warm]

やさしく、思いやりのあるトーン

[resigned tone]

諦めて受け入れる

[stammers]

言葉に詰まる、うろたえる

[regretful]

何かが違ってほしかったと思う

[sympathetic]

思いやりがあり、理解のある

[reassuring]

安心させるような、落ち着いた

[awe]

驚嘆や感動に打たれる

試してみよう:

反応

セリフの合間や中にリアリティを加える非言語音。

タグ
効果

[laughs]

大きな笑い

[giggles]

やわらかく、軽い笑い

[light chuckle]

短く、控えめな笑い

[sigh]

疲労、安堵、または苛立ちのため息

[gasps]

息をのむ、驚きや衝撃

[gulps]

緊張した飲み込み

[crying]

涙ぐんだ、声が詰まる

[clears throat]

軽い喉の整え

試してみよう:

話し方

感情とは別に、声が実際にどのようにセリフを演じるかを調整します。

タグ
効果

[whispers]

やわらかく、息混じりで、近い話し方

[shouts]

大きく、響く声

[quietly]

小さな声で、抑えめに

[loudly]

声量を上げて、力強く

[rushed]

速いテンポ、切迫したリズム

[drawn out]

ゆっくり、引き伸ばすような話し方

[dramatic tone]

劇的で、強調された強さ

試してみよう:

アクセントとキャラクター

声は変えずにアクセントだけを切り替えるか、声にキャラクターの人格を与えます。

タグ
効果

[American accent]

標準的なアメリカ英語

[British accent]

標準的なイギリス英語

[French accent]

フランス訛りの英語

[Southern US accent]

アメリカ南部訛り

[Australian accent]

オーストラリア英語

[strong Russian accent]

強いロシア訛り

[strong X accent]

X は任意の国籍に置き換えます

[pirate voice]

荒々しく、海を渡る人物の声

[old man voice]

年老いた、くたびれた話し方

[robot voice]

機械的で合成音声のようなトーン

[fantasy narrator]

叙事的で、絵本のようなナレーション

[film noir narrator]

暗く、陰鬱で、皮肉なナレーション

[sarcastically]

乾いた、皮肉っぽいキャラクター読み

試してみよう:

複数キャラクターの会話

1 つのプロンプトで 2 人以上のキャラクターが登場する場面を書くときは、セリフ同士の関わり方を調整するためにこれらを使います。

タグ
効果

[interrupting]

相手のセリフが終わる前に割り込む

[overlapping]

別の声が続いている間に話し始める

試してみよう:

間とテンポ

ElevenLabs は明示的なポーズの長さをサポートしていません。間の長さは文脈、タグ、句読点から推測されます。

これを書く
効果

[pause]

劇的な沈黙(長さはモデルが決定)

...

ためらいがちな、言いかけの間

すべて大文字

単語への強調

新しい段落

明確な間とイントネーションのリセット

試してみよう:

より良い結果を得るためのヒント

ヒント
うまくいく理由

タグをテキストに合わせる

[crying] 行かないで。 は自然に聞こえます。 [crying] をくだけた文に加えるのは自然ではありません。モデルは文脈を把握するために全文を読みます。

タグを組み合わせる

[whispers][tense] または [hesitant][nervous] とすると、2 つの手がかりをモデルに与え、よりニュアンスのある出力にできます。

適切な声を選ぶ

落ち着いた声は説得力のある叫び方はしません。高エネルギーの声は上手にささやけません。役に合った声を選びましょう。

Creative または Natural の安定性を使う

これらの設定では、モデルがタグを表現する余地が広がります。Robust はより一貫していますが、表現力は控えめです。

句読点をリズムの合図として使う

カンマはテンポを遅くします。ピリオドは明確な区切りを作ります。三点リーダーは言葉を言い切らずに余韻を残します。モデルは句読点を読み、それに反応します。

MiniMax

MiniMax では 括弧付きのサウンドタグ をプロンプト内で使い、さらに Morphic の UI で別の 感情セレクター を使います。

感情

生成時にドロップダウンから感情を選択します。これにより、出力全体のトーンが設定されます。

感情
効果

Auto

モデルがテキストを読み、最適な感情を選ぶ(デフォルト)

Happy

明るく、前向き

Sad

沈んだ、物悲しい

Angry

力強く、攻撃的

Fearful

不安げで、怖がっている

Disgusted

不快感、嫌悪

Surprised

驚いた、愕然とした

Calm

落ち着いた、穏やかな

Fluent

きれいで放送向けのスタイル — ニュースや技術ナレーションに最適

Neutral

感情的な偏りなし

サウンドタグ

括弧を使って、非言語音をプロンプトに直接追加します。これらは プリセットのみ で、以下に記載されたタグのみがサポートされます。

タグ
タグ
タグ

(laughs)

(chuckle)

(coughs)

(clear-throat)

(groans)

(breath)

(pant)

(inhale)

(exhale)

(gasps)

(sniffs)

(sighs)

(snorts)

(burps)

(lip-smacking)

(humming)

(hissing)

(emm)

(whistles)

(sneezes)

(crying)

(applause)

(yawns)

ElevenLabs とは異なり、 カスタムタグを作成することは できません。 (nervous) または (jealous) と書いても機能しません。モデルはそれらをテキストとして読み上げます。感情のトーンには感情セレクターを使ってください。

を使って、時間指定の無音を挿入します。 <#x#> ここで x は秒数です(0.01〜99.99)。

ヒント

  • サウンドタグは控えめに使いましょう。多すぎると不自然に聞こえることがあります。

  • 感情は Auto に設定しましょう

  • 。長文全体で一貫したトーンが必要なときは、手動で上書きしてください。句読点も重要です。カンマやピリオドがモデルのテンポとイントネーションを導きます。

最終更新