Génération audio
Disponible maintenant

Gemini 3.1 Flash TTS

par Google DeepMind

La synthèse vocale la plus expressive de Google, avec balises audio et dialogue multi-locuteurs.

Gemini 3.1 Flash TTS

Fonctionnalités clés

Spécifications techniques

Multilingue

Contrôle du style, du rythme et de l'accent dans de nombreuses langues

Jusqu'à 2

Deux voix distinctes dans une génération multi-locuteurs

Balises audio

Notes en langage naturel et indices entre crochets

SynthID

Filigrane imperceptible de provenance IA sur la sortie

Cas d'utilisation

Narration et voix off vidéo

Ajoutez une narration naturelle à une vidéo IA ou en prises réelles, avec le ton et le rythme définis en langage clair.

Dialogue de personnages

Donnez voix à des scènes à deux locuteurs pour shorts, jeux et explicatifs, chaque personnage avec sa propre voix.

Voix off localisée

Narrez le même script dans de nombreuses langues avec un rythme et un accent natifs.

Livre audio et format long

Gardez un rendu naturel et constant sur de longs passages de narration.

Explicatifs et tutoriels

Une narration claire et dirigeable pour walkthroughs produit, leçons et tutoriels.

Spots et promos

Des lectures vocales expressives et fidèles à la marque, avec l'énergie et l'emphase que vous dirigez.

Exemples de prompts

Narration douce

Dis ceci avec douceur et lenteur, comme pour rassurer un enfant : La tempête est passée. Tu es en sécurité maintenant.

Edit prompt

Réaction intégrée

Je n'arrive pas à croire que tu aies fait ça [laughs]. La meilleure surprise de l'année.

Edit prompt

Du murmure au normal

[whispering] Ne fais pas un bruit. [normal voice] Bon, c'est bon.

Edit prompt

Contrôle de l'accent

Lis ceci avec un accent britannique : Quel beau temps aujourd'hui, n'est-ce pas ?

Edit prompt

Rythme dramatique

Lis ceci lentement et avec gravité : Chaque. Mot. Compte.

Edit prompt

Scène à deux voix

Maya : Tu as eu des nouvelles pour le poste ? Tom : Oui. Je commence lundi.

Edit prompt

Tarifs simples

Commencez gratuitement dès aujourd'hui, avec la possibilité de mettre à niveau ou d'annuler à tout moment.

Basic

$0/ mois
facturé comme $0 par an

500 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Standard

$0/ mois
facturé comme $0 par an

2800 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Pro

$0/ mois
facturé comme $0 par an

6000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 4 plus à un coût supplémentaire

Tous les modèles

Workflows

Pro Max

$0/ mois
facturé comme $0 par an

24000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 9 plus à un coût supplémentaire

Tous les modèles

Workflows

Enterprise

Pour des limites plus élevées

Personnalisé

conditions de tarification et de facturation

Crédits illimités
Limites de sièges personnalisées
Tous les modèles
Workflows
Pricing Gradient

Free

For playing around

$0

forever free

Jusqu'à 20 crédits
1 utilisateur uniquement
Modèles limités
Workflows

Questions fréquentes

Qu'est-ce que Gemini 3.1 Flash TTS ?
Gemini 3.1 Flash TTS est le modèle de synthèse vocale de Google, annoncé le 15 avril 2026. Il produit une narration expressive et naturelle que vous dirigez avec des instructions en langage clair et des balises audio intégrées, prend en charge le dialogue multi-locuteurs et appose un filigrane SynthID sur chaque clip.
Que puis-je créer avec sur Morphic ?
Utilisez Gemini 3.1 Flash TTS pour la voix off, la narration, le dialogue de personnages, les lectures localisées et les spots expressifs. Générez l'audio sur Morphic, puis déposez-le dans Canvas à côté de vos clips vidéo dans le même workflow.
Comment diriger la voix ?
De deux façons, que vous pouvez combiner. Écrivez une instruction en langage clair avant votre ligne, comme « Dis ceci avec douceur et lenteur : », et ajoutez des indices entre crochets, comme [laughs] ou [whispering], là où vous les voulez. Gemini joue l'indice au lieu de le lire.
Prend-il en charge plusieurs locuteurs ?
Oui. Gemini 3.1 Flash TTS peut donner voix à un échange entre deux locuteurs en une seule génération, chaque locuteur ayant une voix distincte. Étiquetez chaque ligne avec le nom du locuteur et attribuez une voix à chacun avant de générer.
Combien de langues prend-il en charge ?
Gemini 3.1 Flash TTS narre dans de nombreuses langues, avec un contrôle de l'accent, du rythme et du style pour chacune. Choisissez la voix et la langue qui conviennent à votre script avant de générer.
En quoi diffère-t-il d'ElevenLabs sur Morphic ?
Les deux produisent une voix de qualité humaine sur Morphic. ElevenLabs est une suite audio complète couvrant voix, musique et effets sonores avec des réglages de voix fins. Gemini 3.1 Flash TTS se concentre sur une parole expressive et dirigeable, avec direction en langage clair, balises audio intégrées et dialogue multi-locuteurs. Beaucoup de créateurs utilisent les deux, l'un pour la voix, l'autre pour la musique et les effets.
Appose-t-il un filigrane sur l'audio ?
Oui. Chaque clip généré par Gemini 3.1 Flash TTS porte le filigrane SynthID imperceptible de Google pour la provenance IA. Il est inaudible pour les auditeurs et conçu pour survivre aux modifications courantes comme le réencodage.
Comment utiliser Gemini 3.1 Flash TTS sur Morphic ?
Ouvrez Morphic, passez la barre de prompt en mode Audio et choisissez Parole. Sélectionnez Gemini 3.1 Flash TTS comme modèle audio, écrivez votre script avec la direction ou les balises de votre choix, choisissez une voix et une langue, puis générez.