Seed Audio 1.0: 完全ガイド

Seed Audio 1.0: 完全ガイド

Seed Audio 1.0 の使い方を学びましょう。音声、音楽、効果音を一度に生成し、より良いプロンプトを書き、声をクローンし、その場で音声を編集できます。

Seed Audio 1.0 を聴く

ドキュメンタリーのナレーション

音声、温かく落ち着いた語り

スリラーのボイスオーバー

音声、ひそやかで張り詰めた

スパイス市場のアンビエンス

効果音、開放的な屋外のベッド

雷雨

効果音、嵐から雷鳴の一撃へ

オーケストラのキュー

音楽、高まる弦楽と金管

ローファイビート

音楽、柔らかな鍵盤とビニールノイズ

Seed Audio 1.0 の活用例

一度で仕上げる動画の音声

動画クリップに、ナレーション、サウンドデザイン、音楽を一度の生成で付けられます。シーン、誰が話すか、何が起こるか、そしてムードを説明すれば、モデルが音声トラック全体を処理します。

映画的なフィルムスチル: 夕暮れの雨に濡れた通りで傘をさす孤独な人物

ナレーション付きの解説とチュートリアル

落ち着いた声に、ルームトーンと軽い音楽のベッドを一つの出力にまとめます。ナレーションが内容を伝え、モデルが音響空間を満たすことで、その場に置かれた完成した音に仕上がります。

柔らかな窓の光の中、作業台で自転車のホイールを振れ取りする手のオーバーザショルダー

短い広告とプロモ

話し声、効果音、音楽をそのまま使える一つのトラックにまとめます。タイミングをプロンプトに書き込めば、モデルは適切な単語でビートを打ち、合図に合わせて音楽をフェードします。

ゴールデンアワーの日差しに照らされたトラックレーンの上、宙に浮かぶ一足のランニングシューズ

脚本付きの対話とオーディオドラマ

はっきりとした声、正確な感情表現、それに合ったアンビエンスを備えた複数キャラクターのシーンを、すべて一つのプロンプトで実現します。脚本を書き、話者にラベルを付ければ、モデルがキャスティングと演出を行います。

雨の筋がついた窓のそば、小さなカフェのテーブルを挟んで会話中の二人

シリーズ全体で一貫した声

参照クリップからキャラクターやナレーターの声をクローンし、すべてのエピソードや章にわたって引き継ぎます。一つの短いサンプルから、何時間分ものコンテンツで声の一貫性を保てます。

温かなキーライトに照らされたスタジオマイクのある居心地の良い自宅の録音スペース

音声の編集と修復

テイクを延長したり、隙間を埋めたり、セリフを差し替えたり、二つのセグメントをつなぎ合わせたりできます。オリジナルの音声を生成するのと同じモデルが、トラック全体を録り直すことなく修正を処理します。

暗いモニターに光る波形タイムラインが表示された音声編集のワークスペース

Seed Audio 1.0 のプロンプトの書き方

優れたプロンプトは、テキスト読み上げの一文ではなく短いシーンのブリーフのように読めます。そうすることで、モデルは音声、音楽、効果音を一つのシーンに収めます。送信する前に SPACE を一通り確認しましょう。

SPACE含める内容
Speaker声のキャラクター、年齢、感情落ち着いた男性ナレーター、30代半ば、温かい
Phrasing正確なセリフを引用符付きで「小麦粉とバターを合わせてください。」
Ambience音響空間と背景柔らかなキッチンのアンビエンス、低いオーブンファンのうなり
Composition音楽のムード、ジャンル、テンポ軽やかなアコースティックギター、声の下に
Extra cuesタイミング、効果、トランジション最後に短いチャイム、そして静寂

優れたプロンプトを平凡なものと分けるのは二つの習慣です。設定を名指しすること。場所がなければモデルは平板なルームトーンにデフォルトするからです。そして音楽のタイミングを合図すること。「最初のセリフの後にフェードインする」は、そっけない「アップビートな音楽」に勝ります。

Seed Audio 1.0 での音声クローン

ゼロショット音声クローンは、それぞれ約30秒の参照クリップを最大3つまで使い、トレーニングなしで機能します。CLEAR チェックリストに照らしてクリップを準備しましょう。

  • Clean recording、背景ノイズがほとんどないこと
  • Length under 30 seconds、クリップごとに
  • Emotion、求める語りに合っていること
  • Accent consistent、各クリップ内で一貫していること
  • Room tone steady、クリップ間で安定していること

モデルは声のキャラクターを読み取り、生成全体にわたってそれを引き継ぎます。

クリップがない場合は、声をテキストで説明し、「良い」や「プロフェッショナル」ではなく、年齢、アクセント、ペースを示しましょう。キャラクター画像も使えます。モデルは見た目の年齢とキャラクターから合致する声を導き出すので、架空のキャラクターやアニメの話者に役立ちます。

Seed Audio 1.0 の使い方

仕上がったトラックを得るには4つのステップがあり、そのどれにも別のエディターは必要ありません。

  1. シーンのブリーフを書きます。上記の SPACE チェックリストに従い、誰が話すか、何を言うか、設定、そしてムードを説明します。
  2. 声を設定します。短い参照クリップからクローンするか、テキストの説明やキャラクター画像で定義します。
  3. 生成します。一度のパスで、音声、音楽、効果音がすでにミックスされた状態でまとめて返され、最長2分までです。
  4. その場で調整します。編集モードでクリップを延長したり、セリフを差し替えたり、隙間を埋めたりでき、録り直しは不要です。

よくある質問

Seed Audio 1.0 の音声インペインティングとは何ですか?

インペインティングは、既存の二つの音声セグメントの間の隙間を、その周囲のコンテンツを再生成することなく埋めます。周囲の音声をコンテキストとして与えると、モデルは欠けている部分だけを生成し、周囲の声のキャラクターや音響空間に合わせます。

Seed Audio 1.0 はどの言語に対応していますか?

ローンチ時点では英語と中国語に対応しており、より幅広い言語のサポートが計画されています。音声クローンでは、参照クリップの言語を出力の言語に合わせると、最も一貫した結果が得られます。

Seed Audio 1.0 は既存の音声を編集できますか?

はい。ゼロから生成するだけでなく、同じモデルがクリップを延長したり、隙間を埋めたり、一つのセリフを差し替えたり、二つのテイクをつないで一つの連続した作品にしたりします。そのため、録り直すことなくトラックを修正できます。

Seed Audio 1.0 は複数の話者を一度に生成できますか?

はい。プロンプトで各セリフにラベルを付けます。例えば Host: ... や Guest: ... のようにすれば、モデルは一度の生成で各話者にはっきりとした声、感情、ペースを与えます。追加の声は、参照クリップ、テキストの説明、キャラクター画像で定義できます。

Seed Audio 1.0 の生成はどのくらいの長さにできますか?

一度のパスで最長2分までです。より長い作品では、継続モードが声のキャラクター、音楽スタイル、そしてこれまでの内容との一貫性を保ちながら出力を延長します。

Seed Audio 1.0 はテキスト読み上げとは違いますか?

大きく違います。テキスト読み上げは書かれたテキストから一つの音声トラックを生成します。Seed Audio 1.0 は、声、背景音楽、効果音を一つの出力にまとめてシーン全体を生成し、その後で特定の部分を修正する編集ツールも備えています。範囲の違いは、声だけか、音声制作全体かということです。