Seed Audio 1.0 들어보기
다큐멘터리 내레이션
음성, 따뜻하고 차분한
스릴러 보이스오버
음성, 나직하고 긴장된
향신료 시장 분위기
음향 효과, 야외 배경음
천둥번개
음향 효과, 폭풍에서 천둥소리까지
오케스트라 큐
음악, 고조되는 현악과 금관
로파이 비트
음악, 부드러운 건반과 바이닐
Seed Audio 1.0 활용 사례
한 번에 완성하는 영상 오디오
영상 클립에 내레이션, 사운드 디자인, 음악을 한 번의 생성으로 입혀 보세요. 장면, 화자, 상황, 분위기를 설명하면 모델이 전체 오디오 트랙을 처리합니다.

내레이션이 있는 설명 영상과 튜토리얼
차분한 음성에 룸 톤과 가벼운 음악 배경을 하나의 출력물로 담습니다. 내레이션이 내용을 전달하고, 모델이 음향 공간을 채워 자연스럽게 배치되고 완성된 느낌을 줍니다.

짧은 광고와 프로모션
대사, 음향 효과, 음악을 바로 사용할 수 있는 하나의 트랙으로 만듭니다. 프롬프트에 타이밍을 적어 두면 모델이 알맞은 단어에서 비트를 맞추고 신호에 맞춰 음악을 페이드합니다.

대본 대화와 오디오 드라마
구별되는 목소리, 정확한 감정 전달, 어울리는 분위기를 갖춘 다중 인물 장면을 단 하나의 프롬프트로 만듭니다. 대본을 쓰고 화자를 표시하면 모델이 배역을 정하고 연출합니다.

시리즈 전반의 일관된 음성
레퍼런스 클립에서 인물이나 내레이터 목소리를 복제해 모든 에피소드나 챕터에 이어 사용하세요. 짧은 샘플 하나로 수 시간 분량의 콘텐츠에 걸쳐 음성 일관성을 유지합니다.

오디오 편집과 복원
테이크를 늘리고, 빈 부분을 채우고, 대사를 교체하고, 두 구간을 이어 붙이세요. 원본 오디오를 생성하는 바로 그 모델이 전체 트랙을 다시 녹음하지 않고도 수정을 처리합니다.

Seed Audio 1.0 프롬프트 작성법
강력한 프롬프트는 text-to-speech 대사가 아니라 짧은 장면 브리프처럼 읽혀야 하며, 그래야 모델이 음성, 음악, 효과를 하나의 장면에 담아냅니다. 보내기 전에 SPACE를 점검하세요.
| SPACE | 포함할 요소 | 예시 |
|---|---|---|
| Speaker | 목소리 성격, 나이, 감정 | 차분한 남성 내레이터, 30대 중반, 따뜻함 |
| Phrasing | 정확한 대사, 따옴표 안에 | '밀가루와 버터를 섞으세요.' |
| Ambience | 음향 공간과 배경음 | 부드러운 주방 분위기, 낮은 오븐 팬 소리 |
| Composition | 음악 분위기, 장르, 템포 | 가벼운 어쿠스틱 기타, 음성 아래로 |
| Extra cues | 타이밍, 효과, 전환 | 끝에 짧은 종소리, 그다음 정적 |
강력한 프롬프트를 평범한 것과 구분 짓는 두 가지 습관이 있습니다. 장소가 없으면 모델이 밋밋한 룸 톤으로 기본 처리하므로 배경을 지정할 것, 그리고 음악 타이밍을 신호로 줄 것. "첫 대사 이후 페이드인"이 밋밋한 "경쾌한 음악"보다 낫습니다.
Seed Audio 1.0 음성 복제
제로샷 음성 복제는 각각 약 30초 분량의 레퍼런스 클립 최대 3개로 학습 없이 작동합니다. CLEAR 체크리스트에 맞춰 클립을 준비하세요.
- Clean recording, 배경 소음이 거의 없도록
- Length under 30 seconds, 클립당 30초 미만으로
- Emotion, 원하는 전달 방식에 맞게
- Accent consistent, 각 클립 안에서 일관되게
- Room tone steady, 클립 간에 일정하게
모델이 목소리의 성격을 읽어 생성 전체에 걸쳐 이어 갑니다.
클립이 없으면 텍스트로 목소리를 묘사하되, "좋은"이나 "전문적인" 대신 나이, 억양, 속도를 지정하세요. 인물 이미지도 사용할 수 있습니다. 모델이 겉보기 나이와 성격에서 어울리는 목소리를 도출하므로, 가상의 화자나 애니메이션 화자에 유용합니다.
Seed Audio 1.0 사용법
완성된 트랙을 얻는 데는 네 단계가 걸리며, 그중 어느 것도 별도의 편집기가 필요하지 않습니다.
- 장면 브리프를 작성하세요. 위의 SPACE 체크리스트를 따라 누가 말하고, 무엇을 말하며, 배경과 분위기가 어떤지 설명합니다.
- 목소리를 설정하세요. 짧은 레퍼런스 클립에서 복제하거나, 텍스트 설명이나 인물 이미지로 정의합니다.
- 생성하세요. 한 번의 생성으로 음성, 음악, 음향 효과가 이미 믹싱된 상태로 최대 2분 길이까지 함께 반환됩니다.
- 제자리에서 다듬으세요. 편집 모드로 클립을 늘리고, 대사를 교체하고, 빈 부분을 채우되 다시 녹음할 필요가 없습니다.
자주 묻는 질문
인페인팅은 두 기존 오디오 구간 사이의 빈 부분을 주변 내용을 다시 생성하지 않고 채웁니다. 주변 오디오를 컨텍스트로 제공하면 모델이 누락된 부분만 생성하며, 그 부분을 둘러싼 목소리 성격과 음향 공간에 맞춥니다.
출시 시점에는 영어와 중국어를 지원하며, 더 폭넓은 언어 지원이 계획되어 있습니다. 음성 복제의 경우 레퍼런스 클립 언어를 출력 언어와 맞추면 가장 일관된 결과를 얻습니다.
가능합니다. 처음부터 생성하는 것 외에도, 같은 모델이 클립을 늘리고, 빈 부분을 채우고, 한 대사를 교체하고, 두 테이크를 하나의 연속된 조각으로 이어 붙이므로, 다시 녹음하지 않고도 트랙을 수정할 수 있습니다.
가능합니다. 프롬프트에서 각 대사를 표시하면, 예를 들어 Host: ... 와 Guest: ... 처럼, 모델이 각 화자에게 구별되는 목소리, 감정, 속도를 단 한 번의 생성으로 부여합니다. 추가 목소리는 레퍼런스 클립, 텍스트 설명, 또는 인물 이미지로 정의할 수 있습니다.
한 번의 생성으로 최대 2분입니다. 더 긴 제작물의 경우, 이어서 생성 모드가 목소리 성격, 음악 스타일, 그리고 앞선 내용과의 일관성을 유지하면서 출력을 연장합니다.
상당히 다릅니다. text-to-speech는 작성된 텍스트에서 하나의 음성 트랙을 만듭니다. Seed Audio 1.0은 전체 장면, 즉 음성, 배경 음악, 음향 효과를 하나의 출력물로 함께 생성하며, 이후 특정 구간을 수정할 수 있는 편집 도구를 제공합니다. 범위의 차이는 오직 음성만이 아니라 오디오 제작 전체라는 점입니다.
