Seed Audio 1.0 사용법: 프롬프트와 참조 오디오

다큐멘터리 내레이션

음성, 따뜻하고 차분한

스릴러 보이스오버

음성, 나직하고 긴장된

향신료 시장 분위기

음향 효과, 야외 배경음

천둥번개

음향 효과, 폭풍에서 천둥소리까지

오케스트라 큐

음악, 고조되는 현악과 금관

로파이 비트

음악, 부드러운 건반과 바이닐

Seed Audio 1.0 사용해보기

Seed Audio 1.0 활용 사례

영상 오디오를 한 번에

한 번의 생성으로 클립에 내레이션, 사운드 디자인, 음악을 넣습니다. 장면과 말하는 사람, 벌어지는 일, 분위기를 쓰면 모델이 오디오 트랙 전체를 맡습니다.

설명 영상과 튜토리얼

정돈된 목소리에 룸톤과 가벼운 음악 베드를 더해 한 번에 출력합니다. 내레이션이 내용을 이끌고, 모델이 음향 공간을 채워 자리 잡힌 완성된 소리가 됩니다.

부드러운 창가 조명 아래 작업대에서 자전거 바퀴를 정렬하는 손을 어깨 너머로 잡은 샷

짧은 광고와 프로모

대사, 음향 효과, 음악을 바로 쓸 수 있는 트랙 하나로. 프롬프트에 타이밍을 적으면 모델이 원하는 단어에 강세를 넣고 알맞은 순간에 음악을 줄입니다.

대본 있는 대화와 오디오 드라마

뚜렷이 다른 목소리와 정확한 감정 연기, 어울리는 앰비언스를 갖춘 다중 인물 장면을 프롬프트 하나로. 대본을 쓰고 각 목소리를 설명하면 모델이 배역과 연출을 맡습니다.

빗줄기가 흐르는 창가의 작은 카페 테이블을 사이에 두고 대화 중인 두 사람

오디오북과 긴 내레이션

녹음실 없이 내레이션, 인물 목소리, 사운드 디자인을 준비합니다. ByteDance는 비용을 사람 녹음의 10분의 1 수준으로 봅니다. 화자를 정한 다음 책을 장면 단위로 진행하세요.

따뜻한 키 라이트로 밝혀진 스튜디오 마이크가 있는 아늑한 홈 레코딩 공간

프레임에 맞는 더빙

대사마다 타임스탬프를 넣으면 모델이 연기를 그 구간에 정확히 맞춰, 대사가 컷 근처가 아니라 컷에 떨어집니다. 지원하는 스무 개 언어 모두에서 됩니다.

Seed Audio 1.0 프롬프트 쓰는 법

좋은 프롬프트는 음성 합성용 한 줄이 아니라 짧은 장면 브리프처럼 읽힙니다. 그래야 모델이 음성과 음악, 효과음을 한 장면 안에 담을 수 있습니다. 보내기 전에 SCENE을 훑어보세요.

SCENE	담을 내용	예시
장면	날씨, 장소, 상황, 음향	방과 후 복도, 멀리서 나는 발소리, 울림
배역	각 인물의 동작이나 차림	가방을 어깨에 메고, 문에서 손을 흔들며
효과음과 음악	음악의 분위기와 장르, 음향 효과	묵직한 전쟁 북, 낮은 금관, 사물함 “철컥”
목소리 메모	성별, 나이, 억양, 감정, 톤, 속도	십대 남학생, 미국식 억양, 밝고 당당한 목소리
대사	각 인물이 하는 말, 따옴표 안에	“엠마, 토요일에 시간 돼?”

좋은 프롬프트와 평범한 프롬프트를 가르는 습관이 셋 있습니다.

길게 쓰세요. 한도는 3,000자이고, 공식 예시는 그 대부분을 씁니다. 여기서 묘사는 군더더기가 아닙니다. 환경과 음악, 인물마다의 연기가 모두 모델이 만들어 내는 것이라, 잘라 낸 문장 하나가 곧 모델에게 넘긴 판단이 됩니다.

소리를 글자로 쓰세요. 의성어가 통합니다. 가방 지퍼의 “지익”, 멀어지는 학교 종의 “딩동댕”, 칼날이 공기를 가르는 “붕, 붕”. 소리는 이름을 대는 것보다 글자로 적는 쪽이 더 잘 맞습니다.

언어를 맞추세요. 말하게 할 대사와 같은 언어로 프롬프트를 쓰세요. 한국어 대본을 영어로 설명하는 것이 억양이 어색해지는 가장 흔한 원인입니다.

학교 종소리 “딩동댕”이 가까운 데서 먼 데로 잦아들고, 방과 후 복도에 멀리서 나는 발소리, 학생들의 웅성거림, 이따금 들리는 사물함 “철컥” 소리, 그리고 복도의 울림. 제이크(십대 남학생, 미국식 억양, 밝고 젊은 목소리, 명랑하고 당당함)가 장난스럽게 놀리듯 말한다. “엠마, 토요일에 시간 돼? 내가 쏠게, 새로 생긴 놀이공원!” 가방 지퍼가 “지익” 하고 열린다. 엠마(십대 여학생, 미국식 억양, 달콤하고 부드러운 바람 섞인 목소리, 수줍음)가 당황해 목소리를 낮춘다. “어… 나 아직 숙제 못 끝냈어.” 제이크가 말끝을 늘이며 구슬린다. “일요일에 하면 되지, 반나절이면 되잖아!” 엠마가 마음이 풀려 중얼거린다. “그치만… 월요일까지야.” 제이크가 부드럽게 말한다. “같이 해 주고 그다음에 나가자, 어때?” 엠마가 웃음을 참지 못하고 수줍게 넘어간다. “…알았어, 딱 반나절만이야?” 제이크가 신나서. “좋았어!” 두 사람의 발소리가 멀어지며 끝난다.

프롬프트 편집

초 단위로 타이밍 제어하기

Seed Audio 1.0은 정밀한 시간 제어를 지원합니다. 대사 앞에 [시작:끝] 형태로 타임스탬프를 넣으면 모델이 그 대사의 연기를 해당 구간에 정확히 맞춥니다. 맞추려고 속도를 올리거나 늦추고, 사이를 넣습니다.

라이언(젊은 남성, 따뜻한 목소리)이 불안한 듯, 살짝 숨이 차서 부른다. “[5.5s:8.0s] 마야! 잠깐, 정말 오늘 밤에 떠나는 거야?” 마야(젊은 여성, 부드러운 목소리)가 애써 침착함을 지키며 조용히 답한다. “[8.5s:11.5s] 가야 해. 몇 년을 이것만 좇아왔는데, 지금 물러설 순 없어.”

프롬프트 편집

이 기능 덕분에 이 모델을 더빙에 쓸 수 있습니다. 대사마다 인점과 아웃점을 타임라인에서 가져와 프롬프트에 적으면, 돌아온 트랙이 늘이거나 자르지 않고 화면에 그대로 얹힙니다. 타임스탬프를 빼면 모델이 장면에 자연스러운 호흡을 줍니다.

참조 오디오로 배역 정하기(TA2A)

장면에 목소리를 넣는 방법은 둘입니다. T2A에서는 설명을 쓰면 모델이 배역을 정합니다. TA2A에서는 참조 오디오를 올리면 생성되는 목소리가 그 녹음을 따라갑니다.

이와 별개로, 장면 작업 바깥에 더 단순한 음성 클로닝 모드가 있습니다. 클립 하나를 올리면 복제된 목소리를 일반 음성 합성에 쓸 수 있습니다. 목소리가 대본만 읽으면 될 때 쓰세요. 그 목소리가 음악과 효과음, 다른 인물과 함께 장면 안에 놓여야 한다면 TA2A로 넘어가세요.

TA2A는 각 30초 이내의 참조 클립을 최대 3개까지 받습니다. 어떤 목소리가 어느 화자의 것인지 모델이 알 수 있도록 각 클립을 본문에서 인물에 연결한 다음, 장면은 T2A와 똑같이 쓰면 됩니다.

[거리 앰비언스: 지나가는 차, 멀리서 들리는 말소리, 희미한 바람.] 마커스(남성 목소리, 매끄럽고 자신 있는, 따뜻하고 장난기 있는 진행자 톤, 또렷한 발음, 연기하는 사람은 <<TGT_SPK1>>)가 밝고 친근하게 말한다. “안녕하세요! 짧게 하나 여쭐게요, 지금까지 가장 창피했던 일이 뭐예요?” 타일러(조금 더 젊은 남성 목소리, 살짝 긴장한, 가벼운 웃음이 섞여 표현이 풍부한, 연기하는 사람은 <<TGT_SPK2>>)가 길게 신음하고 곤란한 웃음을 흘리며 말한다. “아, 진짜 안 듣는 게 나아요. 알았어요, 대신 우리끼리만이에요.” 마커스(연기하는 사람은 <<TGT_SPK1>>)가 몸을 기울이며 궁금해한다. “이제 꼭 들어야겠는데요. 말씀해 보세요.” [둘이 웃음을 터뜨린다. 거리 앰비언스가 부풀었다가 잦아든다.]

프롬프트 편집

TA2A 프롬프트에서 확실히 해야 할 것은 셋입니다. 무엇을 생성할지, 어떤 참조 오디오를 쓸지, 그리고 각 참조 오디오가 무슨 용도인지. 클립은 @Audio1, @Audio2, @Audio3로 고르며, 이번 작업에만 올리거나 에셋 라이브러리에서 골라 시리즈 전체에서 재사용할 수 있습니다.

[거리 앰비언스: 지나가는 차, 멀리서 들리는 말소리] 같은 대괄호 지시는 소리를 특정 화자에게 묶지 않고 장면을 열고 닫는 깔끔한 방법입니다.

참조 클립은 CLEAR 체크리스트로 준비하세요.

배경 소음이 적은 깨끗한 녹음
클립당 30초 미만의 길이
원하는 연기와 맞는 감정
클립 안에서 일관된 억양
클립들 사이에 안정적인 룸톤

클립이 아예 없다면 “좋은”이나 “전문적인” 대신 나이와 억양, 말하는 속도를 적어 목소리를 텍스트로 설명하세요. 캐릭터 이미지도 됩니다. 모델이 겉보기 나이와 성격에서 어울리는 목소리를 끌어내므로 가상의 화자나 애니메이션 화자에 유용합니다.

Seed Audio 1.0 사용법

완성 트랙까지는 네 단계입니다.

장면 브리프를 씁니다. 배경, 배역, 음악과 효과음, 각 목소리, 대사를 위의 SCENE 체크리스트에 따라 적습니다. 최대 3,000자.
목소리를 정합니다. T2A라면 프롬프트에서 설명하고, TA2A라면 참조 클립을 3개까지 올려 연결합니다. 캐릭터 이미지도 됩니다.
필요하면 타이밍을 더합니다. 정확한 구간에 들어가야 하는 대사에 [시작:끝] 타임스탬프를 넣습니다.
생성합니다. 한 번에 음성, 음악, 음향 효과가 믹싱된 채로 최대 2분까지 돌아옵니다.

2분을 넘는 작업, 오디오북 한 장이나 에피소드 하나라면 장면 단위로 진행하고, 배역이 흔들리지 않도록 생성마다 같은 음성 참조를 유지하세요.

자주 묻는 질문

Seed Audio 1.0의 T2A와 TA2A는 어떻게 다른가요?

T2A(텍스트→오디오)는 환경, 음악, 음향 효과, 인물마다의 목소리까지 전부 설명에서 만들어 냅니다. TA2A(텍스트+오디오→오디오)는 여기에 참조 녹음을 3개까지 더해 특정 인물에 연결하고, 그 목소리들은 글로 쓴 설명이 아니라 녹음을 따라갑니다. 프롬프트의 나머지는 똑같습니다.

Seed Audio 1.0은 목소리를 복제할 수 있나요?

네. T2A와 TA2A 외에 음성 클로닝 모드가 있습니다. 오디오 클립 하나를 올리면 복제된 목소리를 일반 음성 합성에 쓸 수 있습니다. ByteDance는 이를 클립 한 개로 하는 복제로 설명합니다. 그 목소리가 음악과 효과음, 다른 화자와 함께 한 장면에 등장해야 한다면, 참조 클립을 세 개까지 받아 각각을 인물에 연결하는 TA2A를 쓰세요.

Seed Audio 1.0의 시간 제어는 어떻게 동작하나요?

대사 앞에 [5.5s:8.0s] 형태의 타임스탬프를 넣으면 모델이 속도와 사이를 조절해 연기를 그 구간에 정확히 맞춥니다. 오디오가 화면과 맞아야 하는 더빙에서 이 모델을 실용적으로 만들어 주는 기능입니다. 타임스탬프가 없는 대사는 자연스러운 호흡으로 읽힙니다.

Seed Audio 1.0은 어떤 언어를 지원하나요?

스무 개입니다. 영어, 중국어, 일본어, 한국어, 멕시코 스페인어, 카스티야 스페인어, 인도네시아어, 독일어, 브라질 포르투갈어, 프랑스어, 태국어, 베트남어, 말레이어, 필리핀어, 이탈리아어, 러시아어, 네덜란드어, 폴란드어, 튀르키예어, 스웨덴어. 대본과 같은 언어로 프롬프트를 쓰면 결과가 가장 일정합니다.

Seed Audio 1.0은 여러 화자를 한 번에 만들 수 있나요?

네. 장면을 쓰면서 인물마다 목소리를 설명하면, 모델이 한 번의 생성으로 화자마다 다른 목소리와 감정, 호흡을 주고 주변의 앰비언스와 효과음까지 함께 만듭니다. TA2A 모드에서는 그중 3명까지 참조 녹음에 연결할 수 있습니다.

Seed Audio 1.0의 생성 길이는 얼마나 되나요?

한 번에 최대 2분 분량의 오디오이고, 프롬프트는 최대 3,000자입니다. 생성은 논스트리밍이라 오디오를 실시간으로 돌려주는 대신 믹싱된 완성 트랙을 렌더링합니다. 더 긴 작업은 장면 단위로 만듭니다.

Seed Audio 1.0으로 오디오북 내레이션을 할 수 있나요?

이 모델이 가장 잘 맞는 쓰임 중 하나입니다. 프롬프트 하나가 화자의 목소리와 인물들의 목소리, 그 주변의 사운드 디자인까지 아우르므로, 장면이 믹싱을 기다리는 별개 트랙이 아니라 완성된 상태로 도착합니다. 장마다 같은 음성 참조를 유지하면 화자가 책 전체에서 그대로 이어집니다.

Seed Audio 1.0은 일반 음성 합성과 다른가요?

상당히 다릅니다. 일반 음성 합성은 목소리를 고르고 텍스트를 읽습니다. Seed Audio 1.0은 텍스트에서 음성으로, 다시 참조에서 오디오로 나아갑니다. 프롬프트 하나로 환경, 음악, 효과음, 인물마다의 목소리를 설명하면 모델이 장면 전체를 믹싱된 상태로 돌려줍니다. 범위의 차이는 목소리만이냐, 완성된 오디오 결과물 전체냐입니다.

Seed Audio 1.0 들어보기

다큐멘터리 내레이션

스릴러 보이스오버

향신료 시장 분위기

천둥번개

오케스트라 큐

로파이 비트

Seed Audio 1.0 활용 사례

영상 오디오를 한 번에

설명 영상과 튜토리얼

짧은 광고와 프로모

대본 있는 대화와 오디오 드라마

오디오북과 긴 내레이션

프레임에 맞는 더빙

Seed Audio 1.0 프롬프트 쓰는 법

초 단위로 타이밍 제어하기

참조 오디오로 배역 정하기(TA2A)

Seed Audio 1.0 사용법

자주 묻는 질문