Seed Audio 1.0 : le guide complet

Seed Audio 1.0 : le guide complet

Apprenez à utiliser Seed Audio 1.0 : générez voix, musique et effets sonores en une passe, clonez des voix et éditez l'audio sur place, avec des exemples.

Écoutez Seed Audio 1.0

Narration de documentaire

Voix, chaleureuse et posée

Voix off de thriller

Voix, feutrée et tendue

Ambiance de marché aux épices

Effets sonores, nappe en plein air

Orage

Effets sonores, tempête jusqu'au coup de tonnerre

Cue orchestral

Musique, cordes et cuivres en montée

Beat lo-fi

Musique, claviers doux et vinyle

Cas d'usage de Seed Audio 1.0

Audio de vidéo en une passe

Donnez à un clip vidéo sa narration, son sound design et sa musique en une seule génération. Décrivez la scène, qui parle, ce qui se passe et l'ambiance, et le modèle gère toute la piste audio.

Un plan de film cinématographique : une silhouette seule avec un parapluie dans une rue luisante de pluie au crépuscule

Vidéos explicatives et tutoriels narrés

Une voix posée avec un room tone et une légère nappe musicale en une seule sortie. La narration porte le contenu, et le modèle remplit l'espace acoustique pour que ça sonne placé et fini.

Plan par-dessus l'épaule de mains dévoilant une roue de vélo sur un établi dans une douce lumière de fenêtre

Publicités courtes et promos

Réplique parlée, effets sonores et musique en une seule piste prête à l'emploi. Écrivez le timing dans le prompt, et le modèle tombe sur le bon mot et fait descendre la musique au bon moment.

Une chaussure de course figée en plein vol au-dessus d'une piste ensoleillée à l'heure dorée

Dialogues scénarisés et fiction audio

Des scènes multi-personnages avec des voix distinctes, une interprétation émotionnelle juste et une ambiance assortie, le tout dans un seul prompt. Écrivez le script, identifiez les locuteurs, et le modèle distribue les rôles et dirige.

Deux personnes en pleine conversation autour d'une petite table de café près d'une fenêtre striée de pluie

Voix cohérente sur toute une série

Clonez une voix de personnage ou de narrateur à partir d'un clip de référence et conservez-la sur chaque épisode ou chapitre. Une voix cohérente sur des heures de contenu à partir d'un seul échantillon court.

Un coin d'enregistrement maison chaleureux avec un micro de studio éclairé par une lumière clé chaude

Édition et réparation audio

Prolongez une prise, comblez un trou, remplacez une réplique ou raccordez deux segments. Le même modèle qui génère de l'audio original gère la révision sans réenregistrer toute la piste.

Un espace de travail d'édition audio avec une timeline de forme d'onde lumineuse sur un moniteur sombre

Comment rédiger un prompt Seed Audio 1.0

Un bon prompt se lit comme un court brief de scène, pas comme une ligne de synthèse vocale, pour que le modèle intègre voix, musique et effets dans une seule scène. Passez par SPACE avant d'envoyer.

SPACEÀ inclureExemple
SpeakerCaractère de la voix, âge, émotionNarrateur masculin calme, la trentaine, chaleureux
PhrasingLa réplique exacte, entre guillemets« Mélangez la farine et le beurre. »
AmbienceEspace acoustique et fond sonoreDouce ambiance de cuisine, un léger ronronnement de four
CompositionAmbiance, genre ou tempo de la musiqueGuitare acoustique légère, sous la voix
Extra cuesTiming, effets, transitionsUn bref carillon à la fin, puis le silence

Deux habitudes distinguent les bons prompts des génériques : nommez le décor, car sans lieu le modèle retombe sur un room tone plat, et indiquez le timing de la musique, où « entre en fondu après la première réplique » vaut mieux qu'un simple « musique entraînante ».

Clonage de voix avec Seed Audio 1.0

Le clonage de voix zero-shot fonctionne à partir de jusqu'à trois clips de référence d'environ 30 secondes chacun, sans entraînement. Préparez les clips selon la checklist CLEAR :

  • Clean recording, avec peu de bruit de fond
  • Length under 30 seconds par clip
  • Emotion alignée sur l'interprétation que vous voulez
  • Accent consistent au sein de chaque clip
  • Room tone steady d'un clip à l'autre

Le modèle lit le caractère vocal et le conserve sur toute la génération.

Sans clip, décrivez la voix en texte, en donnant l'âge, l'accent et le débit plutôt que « agréable » ou « professionnelle ». Une image de personnage fonctionne aussi : le modèle en dérive une voix assortie à partir de l'âge apparent et du caractère, utile pour des locuteurs fictifs ou animés.

Comment utiliser Seed Audio 1.0

Obtenir une piste finie prend quatre étapes, et aucune ne nécessite un éditeur séparé.

  1. Rédigez le brief de scène. Décrivez qui parle, ce qu'ils disent, le décor et l'ambiance, en suivant la checklist SPACE ci-dessus.
  2. Réglez la voix. Clonez-la à partir d'un court clip de référence, ou définissez-la avec une description texte ou une image de personnage.
  3. Générez. Une seule passe renvoie la voix, la musique et les effets sonores ensemble, déjà mixés, jusqu'à deux minutes.
  4. Affinez sur place. Prolongez le clip, remplacez une réplique ou comblez un trou avec les modes d'édition, sans réenregistrement.

Questions fréquentes

Qu'est-ce que l'inpainting audio dans Seed Audio 1.0 ?

L'inpainting comble un trou entre deux segments audio existants sans régénérer ce qui l'entoure. Vous fournissez l'audio environnant comme contexte, et le modèle génère uniquement la partie manquante, assortie en caractère vocal et en espace acoustique à ce qui l'entoure.

Quelles langues Seed Audio 1.0 prend-il en charge ?

L'anglais et le chinois au lancement, avec une prise en charge linguistique plus large prévue. Pour le clonage de voix, faire correspondre la langue du clip de référence à celle de la sortie donne le résultat le plus cohérent.

Seed Audio 1.0 peut-il éditer de l'audio existant ?

Oui. Au-delà de la génération à partir de zéro, le même modèle prolonge un clip, comble un trou, remplace une seule réplique ou raccorde deux prises en une pièce continue, pour que vous puissiez réviser une piste sans la réenregistrer.

Seed Audio 1.0 peut-il générer plusieurs locuteurs à la fois ?

Oui. Identifiez chaque réplique dans le prompt, par exemple Animateur : ... et Invité : ..., et le modèle donne à chaque locuteur une voix, une émotion et un rythme distincts dans une seule génération. Définissez des voix supplémentaires par clip de référence, description texte ou image de personnage.

Quelle durée peut atteindre une génération Seed Audio 1.0 ?

Jusqu'à deux minutes en une seule passe. Pour des productions plus longues, le mode de continuation prolonge la sortie tout en préservant le caractère vocal, le style musical et la cohérence avec ce qui précède.

Seed Audio 1.0 est-il différent de la synthèse vocale ?

Considérablement. La synthèse vocale produit une seule piste vocale à partir d'un texte écrit. Seed Audio 1.0 génère la scène complète, la voix, la musique de fond et les effets sonores ensemble dans une seule sortie, avec des outils d'édition pour réviser des sections spécifiques ensuite. La différence de portée, c'est toute la production audio face à la voix seule.