Question 1

Quelle est la différence entre T2A et TA2A dans Seed Audio 1.0 ?

Accepted Answer

T2A, prompt texte vers audio, construit tout à partir de votre description : l'environnement, la musique, les effets sonores et la voix de chaque personnage. TA2A, prompt texte plus audio vers audio, y ajoute jusqu'à trois enregistrements de référence que vous associez à des personnages précis, pour que ces voix suivent les enregistrements plutôt qu'une description écrite. Tout le reste du prompt est identique.

Question 2

Seed Audio 1.0 peut-il cloner une voix ?

Accepted Answer

Oui. Au-delà du T2A et du TA2A, il existe un mode de clonage vocal : envoyez un seul extrait audio, et la voix clonée devient disponible pour de la synthèse vocale simple. ByteDance le documente comme un clonage à partir d'un unique extrait. Si la voix doit apparaître dans une scène complète avec musique, effets et autres locuteurs, utilisez plutôt le TA2A, qui accepte jusqu'à trois extraits de référence et associe chacun à un personnage.

Question 3

Comment fonctionne le contrôle du minutage dans Seed Audio 1.0 ?

Accepted Answer

Placez un timecode de la forme [5.5s:8.0s] au début d'une réplique et le modèle fait tenir le jeu exactement dans cette fenêtre, en ajustant le débit et les pauses pour que ça tombe juste. C'est la fonction qui rend le modèle pratique en doublage, où l'audio doit coller à l'image. Les répliques sans timecode gardent un rythme naturel.

Question 4

Quelles langues Seed Audio 1.0 prend-il en charge ?

Accepted Answer

Vingt : anglais, chinois, japonais, coréen, espagnol du Mexique, espagnol d'Espagne, indonésien, allemand, portugais du Brésil, français, thaï, vietnamien, malais, philippin, italien, russe, néerlandais, polonais, turc et suédois. Écrivez le prompt dans la même langue que le script pour le résultat le plus régulier.

Question 5

Seed Audio 1.0 peut-il générer plusieurs locuteurs à la fois ?

Accepted Answer

Oui. Décrivez la voix de chaque personnage au fil de la scène, et le modèle donne à chaque locuteur une voix, une émotion et un rythme distincts en une seule génération, avec l'ambiance et les effets autour d'eux. En mode TA2A, vous pouvez associer jusqu'à trois de ces personnages à des enregistrements de référence.

Question 6

Quelle peut être la durée d'une génération Seed Audio 1.0 ?

Accepted Answer

Jusqu'à deux minutes d'audio par passe, à partir d'un prompt de 3 000 caractères maximum. La génération est non-streaming : le modèle rend la piste mixée complète plutôt que de renvoyer de l'audio en temps réel. Les productions plus longues se construisent scène par scène.

Question 7

Seed Audio 1.0 peut-il narrer un livre audio ?

Accepted Answer

C'est l'un des usages où le modèle est le plus à sa place. Un seul prompt couvre la voix du narrateur, celles des personnages et le design sonore autour, si bien qu'une scène arrive finie plutôt qu'en pistes séparées à mixer. Gardez la même référence vocale d'un chapitre à l'autre et le narrateur reste constant sur tout le livre.

Question 8

Seed Audio 1.0 est-il différent d'une synthèse vocale classique ?

Accepted Answer

Nettement. Une synthèse vocale classique choisit une voix et lit un texte. Seed Audio 1.0 passe du texte-vers-parole au référence-vers-audio : un seul prompt décrit l'environnement, la musique, les effets et la voix de chaque personnage, et le modèle rend la scène entière déjà mixée. La différence d'échelle est celle d'une production audio complète face à la seule voix.

SCENE	À inclure	Exemple
Scène	Météo, lieu, contexte, acoustique	Couloir après les cours, pas lointains, réverbération
Casting	Ce que fait ou porte chaque personnage	Sac sur l'épaule, salut depuis la porte
Effets	Ambiance et genre musical, effets sonores	Tambours de guerre, cuivres graves, un casier qui claque
Notes de voix	Genre, âge, accent, émotion, ton, débit	Adolescent, accent américain, voix claire et sûre
Énoncés	Ce que dit chaque personnage, entre guillemets	« Hé, Emma, tu es libre samedi ? »

Seed Audio 1.0 : le guide complet

Narration de documentaire

Voix off de thriller

Ambiance de marché aux épices

Orage

Cue orchestral

Beat lo-fi

Cas d'usage de Seed Audio 1.0

Audio vidéo en une passe

Explications et tutoriels narrés

Pubs et promos courtes

Dialogues écrits et fiction audio

Livres audio et narration longue

Doublage vidéo à l'image près

Comment écrire un prompt Seed Audio 1.0

Contrôler le minutage à la seconde

Distribuer des voix depuis un audio de référence (TA2A)

Comment utiliser Seed Audio 1.0

Questions fréquentes

Écoutez Seed Audio 1.0