音声感情コントロール
Morphic の音声感情コントロールを使うと、生成される音声がどのように聞こえるかを、感情のトーンから反応、間の取り方、話し方のスタイルまで調整できます。適切な指示を含めてプロンプトを書けば、音声はあなたの指定どおりに演じます。
音声感情コントロールの使い方
Morphic で音声感情コントロールを使う簡単なチュートリアルはこちらです。
Morphic を開いて、プロジェクトに移動します。
新しいファイルを作成するか、既存のファイルを開きます。
下部のプロンプトバーで、モードを「Audio」に切り替え、「Speech」を選択します。
音声モデルとして「ElevenLabs」または「MiniMax」を選択します。
ボイスピッカーから音声と言語を選択します。
選択したモデルの感情コントロール形式を使ってプロンプトを書きます(下記参照)。
「Generate」をクリックします。
Morphic は 2 つの音声モデルをサポートしています。それぞれ感情コントロールの構文が異なります。モデルを選択してから、以下のガイドに従ってください。
ElevenLabs
ElevenLabs では、角括弧タグをプロンプトに直接書き込みます。感情、反応、指示を角括弧で囲むと、その部分は話し言葉ではなく演技の指示として解釈されます。
仕組み
[tag] ここにセリフを入力します。タグは、新しいタグが現れるまで、その後のすべてに影響します。テキストのどこにでもタグを置けて、複数のタグを連続して組み合わせることもできます。
役をもらえたんだ。本当に役をもらえたんだ。
[excited] 役をもらえたんだ。本当に役をもらえたんだ。
出ないと。今すぐ。
[whispers][tense] 出ないと。今すぐ。
これはうまくいかない気がする。
[sad][hesitant] これはうまくいかない気がする。
宝は古い礼拝堂の地下に埋まっている。
[pirate voice] 宝は古い礼拝堂の地下に埋まっている。
ElevenLabs は自由度が高いです。固定された一覧はありません。角括弧の中に任意の感情や指示を書けば、モデルはそれを解釈しようとします。たとえば [jealous], [romantic], [awkward], [suspicious tone]や [continues after a beat] などもすべて使えます。
以下のタグは一般的によく使われ、安定して効果が出ますが、これらに限られるわけではありません。
タグ
感情
[excited]
高いエネルギー、熱意のある話し方
[happy]
温かく、前向きなトーン
[cheerfully]
軽やかで明るい話し方
[sad]
沈んだ、抑えめのトーン
[sorrowful]
深い悲しみ、嘆き
[angry]
鋭く、力強い話し方
[nervous]
不安げで、やや震えた感じ
[frustrated]
張りつめた、いらだちのあるトーン
[calm]
安定した、リラックスした話し方
[tired]
元気がなく、疲れ切った感じ
[curious]
好奇心のある、問いかけるようなトーン
[sarcastic]
乾いた、皮肉っぽい話し方
[playful]
軽快で、からかうような雰囲気
[deadpan]
平板で感情のない話し方
試してみよう:
感情のニュアンス
トーンをより繊細に変化させたいときに使います。全体の演技を覆い隠すことなく、セリフに深みを加えます。
[hesitant]
自信がなく、ためらう
[relieved]
肩の荷が下りた、緊張が解けた
[tense]
張りつめていて、何かに備えている
[warm]
やさしく、思いやりのあるトーン
[resigned tone]
諦めて受け入れる
[stammers]
言葉に詰まる、うろたえる
[regretful]
何かが違ってほしかったと思う
[sympathetic]
思いやりがあり、理解のある
[reassuring]
安心させるような、落ち着いた
[awe]
驚嘆や感動に打たれる
試してみよう:
反応
セリフの合間や中にリアリティを加える非言語音。
[laughs]
大きな笑い
[giggles]
やわらかく、軽い笑い
[light chuckle]
短く、控えめな笑い
[sigh]
疲労、安堵、または苛立ちのため息
[gasps]
息をのむ、驚きや衝撃
[gulps]
緊張した飲み込み
[crying]
涙ぐんだ、声が詰まる
[clears throat]
軽い喉の整え
試してみよう:
話し方
感情とは別に、声が実際にどのようにセリフを演じるかを調整します。
[whispers]
やわらかく、息混じりで、近い話し方
[shouts]
大きく、響く声
[quietly]
小さな声で、抑えめに
[loudly]
声量を上げて、力強く
[rushed]
速いテンポ、切迫したリズム
[drawn out]
ゆっくり、引き伸ばすような話し方
[dramatic tone]
劇的で、強調された強さ
試してみよう:
アクセントとキャラクター
声は変えずにアクセントだけを切り替えるか、声にキャラクターの人格を与えます。
[American accent]
標準的なアメリカ英語
[British accent]
標準的なイギリス英語
[French accent]
フランス訛りの英語
[Southern US accent]
アメリカ南部訛り
[Australian accent]
オーストラリア英語
[strong Russian accent]
強いロシア訛り
[strong X accent]
X は任意の国籍に置き換えます
[pirate voice]
荒々しく、海を渡る人物の声
[old man voice]
年老いた、くたびれた話し方
[robot voice]
機械的で合成音声のようなトーン
[fantasy narrator]
叙事的で、絵本のようなナレーション
[film noir narrator]
暗く、陰鬱で、皮肉なナレーション
[sarcastically]
乾いた、皮肉っぽいキャラクター読み
試してみよう:
複数キャラクターの会話
1 つのプロンプトで 2 人以上のキャラクターが登場する場面を書くときは、セリフ同士の関わり方を調整するためにこれらを使います。
[interrupting]
相手のセリフが終わる前に割り込む
[overlapping]
別の声が続いている間に話し始める
試してみよう:
間とテンポ
ElevenLabs は明示的なポーズの長さをサポートしていません。間の長さは文脈、タグ、句読点から推測されます。
[pause]
劇的な沈黙(長さはモデルが決定)
...
ためらいがちな、言いかけの間
すべて大文字
単語への強調
新しい段落
明確な間とイントネーションのリセット
試してみよう:
より良い結果を得るためのヒント
タグをテキストに合わせる
[crying] 行かないで。 は自然に聞こえます。 [crying] をくだけた文に加えるのは自然ではありません。モデルは文脈を把握するために全文を読みます。
タグを組み合わせる
[whispers][tense] または [hesitant][nervous] とすると、2 つの手がかりをモデルに与え、よりニュアンスのある出力にできます。
適切な声を選ぶ
落ち着いた声は説得力のある叫び方はしません。高エネルギーの声は上手にささやけません。役に合った声を選びましょう。
Creative または Natural の安定性を使う
これらの設定では、モデルがタグを表現する余地が広がります。Robust はより一貫していますが、表現力は控えめです。
句読点をリズムの合図として使う
カンマはテンポを遅くします。ピリオドは明確な区切りを作ります。三点リーダーは言葉を言い切らずに余韻を残します。モデルは句読点を読み、それに反応します。
MiniMax
MiniMax では 括弧付きのサウンドタグ をプロンプト内で使い、さらに Morphic の UI で別の 感情セレクター を使います。
感情
生成時にドロップダウンから感情を選択します。これにより、出力全体のトーンが設定されます。
Auto
モデルがテキストを読み、最適な感情を選ぶ(デフォルト)
Happy
明るく、前向き
Sad
沈んだ、物悲しい
Angry
力強く、攻撃的
Fearful
不安げで、怖がっている
Disgusted
不快感、嫌悪
Surprised
驚いた、愕然とした
Calm
落ち着いた、穏やかな
Fluent
きれいで放送向けのスタイル — ニュースや技術ナレーションに最適
Neutral
感情的な偏りなし
サウンドタグ
括弧を使って、非言語音をプロンプトに直接追加します。これらは プリセットのみ で、以下に記載されたタグのみがサポートされます。
(laughs)
(chuckle)
(coughs)
(clear-throat)
(groans)
(breath)
(pant)
(inhale)
(exhale)
(gasps)
(sniffs)
(sighs)
(snorts)
(burps)
(lip-smacking)
(humming)
(hissing)
(emm)
(whistles)
(sneezes)
(crying)
(applause)
(yawns)
ElevenLabs とは異なり、 カスタムタグを作成することは できません。
(nervous)または(jealous)と書いても機能しません。モデルはそれらをテキストとして読み上げます。感情のトーンには感情セレクターを使ってください。
間
を使って、時間指定の無音を挿入します。 <#x#> ここで x は秒数です(0.01〜99.99)。
ヒント
サウンドタグは控えめに使いましょう。多すぎると不自然に聞こえることがあります。
感情は Auto に設定しましょう
。長文全体で一貫したトーンが必要なときは、手動で上書きしてください。句読点も重要です。カンマやピリオドがモデルのテンポとイントネーションを導きます。
最終更新