Écoutez Seed Audio 1.0
Narration de documentaire
Voix, chaleureuse et posée
Voix off de thriller
Voix, feutrée et tendue
Ambiance de marché aux épices
Effets sonores, nappe en plein air
Orage
Effets sonores, tempête jusqu'au coup de tonnerre
Cue orchestral
Musique, cordes et cuivres en montée
Beat lo-fi
Musique, claviers doux et vinyle
Cas d'usage de Seed Audio 1.0
Audio de vidéo en une passe
Donnez à un clip vidéo sa narration, son sound design et sa musique en une seule génération. Décrivez la scène, qui parle, ce qui se passe et l'ambiance, et le modèle gère toute la piste audio.

Vidéos explicatives et tutoriels narrés
Une voix posée avec un room tone et une légère nappe musicale en une seule sortie. La narration porte le contenu, et le modèle remplit l'espace acoustique pour que ça sonne placé et fini.

Publicités courtes et promos
Réplique parlée, effets sonores et musique en une seule piste prête à l'emploi. Écrivez le timing dans le prompt, et le modèle tombe sur le bon mot et fait descendre la musique au bon moment.

Dialogues scénarisés et fiction audio
Des scènes multi-personnages avec des voix distinctes, une interprétation émotionnelle juste et une ambiance assortie, le tout dans un seul prompt. Écrivez le script, identifiez les locuteurs, et le modèle distribue les rôles et dirige.

Voix cohérente sur toute une série
Clonez une voix de personnage ou de narrateur à partir d'un clip de référence et conservez-la sur chaque épisode ou chapitre. Une voix cohérente sur des heures de contenu à partir d'un seul échantillon court.

Édition et réparation audio
Prolongez une prise, comblez un trou, remplacez une réplique ou raccordez deux segments. Le même modèle qui génère de l'audio original gère la révision sans réenregistrer toute la piste.

Comment rédiger un prompt Seed Audio 1.0
Un bon prompt se lit comme un court brief de scène, pas comme une ligne de synthèse vocale, pour que le modèle intègre voix, musique et effets dans une seule scène. Passez par SPACE avant d'envoyer.
| SPACE | À inclure | Exemple |
|---|---|---|
| Speaker | Caractère de la voix, âge, émotion | Narrateur masculin calme, la trentaine, chaleureux |
| Phrasing | La réplique exacte, entre guillemets | « Mélangez la farine et le beurre. » |
| Ambience | Espace acoustique et fond sonore | Douce ambiance de cuisine, un léger ronronnement de four |
| Composition | Ambiance, genre ou tempo de la musique | Guitare acoustique légère, sous la voix |
| Extra cues | Timing, effets, transitions | Un bref carillon à la fin, puis le silence |
Deux habitudes distinguent les bons prompts des génériques : nommez le décor, car sans lieu le modèle retombe sur un room tone plat, et indiquez le timing de la musique, où « entre en fondu après la première réplique » vaut mieux qu'un simple « musique entraînante ».
Clonage de voix avec Seed Audio 1.0
Le clonage de voix zero-shot fonctionne à partir de jusqu'à trois clips de référence d'environ 30 secondes chacun, sans entraînement. Préparez les clips selon la checklist CLEAR :
- Clean recording, avec peu de bruit de fond
- Length under 30 seconds par clip
- Emotion alignée sur l'interprétation que vous voulez
- Accent consistent au sein de chaque clip
- Room tone steady d'un clip à l'autre
Le modèle lit le caractère vocal et le conserve sur toute la génération.
Sans clip, décrivez la voix en texte, en donnant l'âge, l'accent et le débit plutôt que « agréable » ou « professionnelle ». Une image de personnage fonctionne aussi : le modèle en dérive une voix assortie à partir de l'âge apparent et du caractère, utile pour des locuteurs fictifs ou animés.
Comment utiliser Seed Audio 1.0
Obtenir une piste finie prend quatre étapes, et aucune ne nécessite un éditeur séparé.
- Rédigez le brief de scène. Décrivez qui parle, ce qu'ils disent, le décor et l'ambiance, en suivant la checklist SPACE ci-dessus.
- Réglez la voix. Clonez-la à partir d'un court clip de référence, ou définissez-la avec une description texte ou une image de personnage.
- Générez. Une seule passe renvoie la voix, la musique et les effets sonores ensemble, déjà mixés, jusqu'à deux minutes.
- Affinez sur place. Prolongez le clip, remplacez une réplique ou comblez un trou avec les modes d'édition, sans réenregistrement.
Questions fréquentes
L'inpainting comble un trou entre deux segments audio existants sans régénérer ce qui l'entoure. Vous fournissez l'audio environnant comme contexte, et le modèle génère uniquement la partie manquante, assortie en caractère vocal et en espace acoustique à ce qui l'entoure.
L'anglais et le chinois au lancement, avec une prise en charge linguistique plus large prévue. Pour le clonage de voix, faire correspondre la langue du clip de référence à celle de la sortie donne le résultat le plus cohérent.
Oui. Au-delà de la génération à partir de zéro, le même modèle prolonge un clip, comble un trou, remplace une seule réplique ou raccorde deux prises en une pièce continue, pour que vous puissiez réviser une piste sans la réenregistrer.
Oui. Identifiez chaque réplique dans le prompt, par exemple Animateur : ... et Invité : ..., et le modèle donne à chaque locuteur une voix, une émotion et un rythme distincts dans une seule génération. Définissez des voix supplémentaires par clip de référence, description texte ou image de personnage.
Jusqu'à deux minutes en une seule passe. Pour des productions plus longues, le mode de continuation prolonge la sortie tout en préservant le caractère vocal, le style musical et la cohérence avec ce qui précède.
Considérablement. La synthèse vocale produit une seule piste vocale à partir d'un texte écrit. Seed Audio 1.0 génère la scène complète, la voix, la musique de fond et les effets sonores ensemble dans une seule sortie, avec des outils d'édition pour réviser des sections spécifiques ensuite. La différence de portée, c'est toute la production audio face à la voix seule.
