音声合成
音声合成は、テキスト入力から人間の音声をAIで生成し、発音・抑揚・ペース・表現の質を含む人間の声の特徴を再現した話し言葉の音声出力を生むものである。現代の音声合成システムは、ロボット的なテキスト読み上げをはるかに超え、特定の声の音色・アクセント・感情・話し方に近づく出力を生んだり、定義した特徴を持つまったく新しい合成声を生成したりできる。
現代の音声合成は、自然な音声を特徴づける音響パターンを学習するために、人間の音声の大規模データセットで学習した深層学習モデルを使う。ニューラルテキスト読み上げシステムは、テキストから各音素の文脈における音響特性を予測し、入力テキストの内容と句読点に合わせてプロソディ・強調・ペースを適応させる音声を、テキストから直接波形オーディオを生成する。ボイスクローニングは、特定人物の音声録音でモデルをファインチューニングし、その声で任意のテキスト入力を話す複製を、元の話者に近い特徴で可能にする。感情制御機能により、合成音声が中立な読みからエネルギッシュ・悲しみ・緊迫など指定した感情トーンを表現できる。主要な合成システムの品質は、出力が聴取者に録音された人間の音声と区別できない水準に達しており、同意・真正性・欺瞞的な音声コンテンツ作成への悪用の可能性について重要な考慮を生んでいる。
コンテンツクリエイターにとって、音声合成は、ナレーション、キャラクターの声、ローカライズ、プレゼンターコンテンツを、収録セッションなしで規模を拡大して制作することを可能にする。ElevenLabsなどのプラットフォームは高品質な音声合成を制作ワークフロー水準で利用可能にし、音声合成とAI動画生成の統合により、テキストだけから完全な音声・視覚の合成メディアを制作できる。