Kling 3.0은 텍스트 프롬프트 하나로 네이티브 오디오가 포함된 멀티샷 시네마틱 시퀀스를 만들어 내는 Kuaishou의 AI 영상 생성 모델입니다. 개별 샷, 카메라 앵글, 캐릭터 대사를 한 번의 생성 안에서 모두 정의할 수 있는, 스토리보드 수준의 제어를 지원하는 최초의 영상 모델입니다. 이 가이드에서는 Kling 3.0에서 최상의 결과를 얻기 위한 프롬프트 작성법, Kling 2.6에서 달라진 점, 전체 기능 목록, 기술 사양, 그리고 다양한 크리에이티브·상업 워크플로우에 어떻게 들어맞는지를 다룹니다. 간단한 개요와 생성 시작 단계를 보려면 Kling 3.0 모델 페이지를 참고하세요.
Kling 3.0이란?
Kling 3.0은 Kuaishou가 2026년 2월에 공개한 영상 생성 모델입니다. 이전의 두 모델인 Kling Video 2.6과 Kling O1을 하나의 통합 아키텍처로 병합해 만들어졌습니다. Video 2.6은 모션 제어와 함께 텍스트-투-비디오·이미지-투-비디오 생성을 담당했고, Kling O1은 시각적 품질과 일관성에 초점을 맞췄습니다. Kling 3.0은 이 둘을 합쳐, 한 번의 생성으로 영상·오디오·엘리먼트 일관성을 모두 만들어 내는 모델로 완성되었습니다.
결과적으로 Kling 3.0은 단순한 클립 생성기라기보다 장면 감독에 가까운 방식으로 동작합니다. 프롬프트에 서사를 설명하면, 모델이 샷을 계획하고 카메라 앵글을 배정하며 립싱크된 대사를 동기화해 생성하고, 모든 컷에 걸쳐 캐릭터의 외형을 일관되게 유지합니다. 출력은 3초에서 15초까지, 네이티브 4K 해상도까지 지원합니다.
Morphic에서 Kling 3.0은 영상 생성 스위트의 일부로 제공됩니다. Morphic의 이미지·음악·오디오 도구와 동일한 워크스페이스에서 사용할 수 있어, 여러 포맷에 걸친 자산이 필요한 프로젝트에 특히 유용합니다.
Kling 3.0 프롬프트 작성법
프롬프트를 어떻게 쓰느냐에 따라 결과물이 완전히 달라집니다. Kling 3.0은 영상 모델이므로 시각적 외형뿐 아니라 움직임, 타이밍, 카메라 연출에 반응합니다. 가장 좋은 결과를 만들어 내는 프롬프트는 사진 캡션이 아니라 단편 영화의 장면 설명처럼 읽힙니다.
다양한 유형의 영상 콘텐츠에서 탄탄한 결과를 얻기 위한 프롬프트 프레임워크를 정리했습니다.
1. 카메라 언어로 시작하기
프롬프트의 첫 단어들이 전체 생성의 시각적 톤을 결정합니다. Kling 3.0은 시네마틱 용어를 이해하고 곧바로 반응합니다. 다른 내용을 설명하기 전에 구체적인 카메라 동작을 먼저 지정하면 모델의 시각적 접근 방식이 일관되게 고정됩니다.
| 나쁜 프롬프트 | 좋은 프롬프트 |
|---|---|
| "A woman walking through a city at night, cinematic look" | "Handheld tracking shot following a woman in a dark coat walking through rain-slicked city streets at night, neon reflections on the pavement, shallow depth of field" |
첫 번째 프롬프트는 카메라 동작을 전적으로 모델에 맡깁니다. 두 번째 프롬프트는 핸드헬드, 트래킹, 피사체를 따라가는 식으로 카메라가 어떻게 움직여야 하는지를 정확히 지정합니다. 또한 조명과 분위기에 영향을 주는 구체적인 환경 디테일로 장면을 단단히 묶어 줍니다.
Kling 3.0이 잘 반응하는 카메라 용어로는 트래킹 샷, 오비탈 팬, 매크로 클로즈업, POV, 윕팬, 느린 푸시인, 정적인 와이드 샷, 미세한 드리프트가 있는 핸드헬드 등이 있습니다.
2. 멀티샷 프롬프트는 라벨로 구조화하기
한 번의 생성에서 여러 카메라 앵글을 쓰려면 각 샷에 명확한 라벨을 붙이세요. Kling 3.0은 샷 수, 각 샷의 길이, 프레임에서 일어나는 일을 직접 정의할 수 있는 커스텀 멀티샷 모드를 지원합니다. 샷 라벨이 명확할수록 모델이 그만큼 정확하게 따라갑니다.
| 나쁜 프롬프트 | 좋은 프롬프트 |
|---|---|
| "A man orders food at a restaurant, then the waiter brings the meal, then he eats" | "Shot 1: medium shot of a man in a navy shirt sitting at a restaurant table, scanning the menu, warm interior lighting. Shot 2: over-the-shoulder close-up of the menu in his hands, his finger pointing at an item. Shot 3: wide shot of the waiter approaching the table carrying a plate, the man looking up. Shot 4: close-up of the plate being set down on the table, steam rising from the food." |
첫 번째 프롬프트는 사건의 흐름만 나열할 뿐 시각적인 방향성을 전혀 주지 않습니다. 두 번째 프롬프트는 서사를 각기 다른 샷으로 쪼개고, 각각에 특정한 프레이밍, 피사체 위치, 시각적 디테일을 부여합니다. 바로 이것이 커스텀 멀티샷 모드가 설계된 목적입니다.
3. 화자와 대사를 직접 태깅하기
대사가 있는 장면에서는 Kling 3.0이 어떤 캐릭터가 어떤 대사를 하는지 알아야 합니다. 명시적으로 태깅하지 않으면 모델이 엉뚱한 얼굴에 목소리를 배정하거나, 특히 세 명 이상이 등장할 때 화자 혼동을 일으킬 수 있습니다.
| 나쁜 프롬프트 | 좋은 프롬프트 |
|---|---|
| "Two people sit at a cafe table and talk about their weekend plans and whether they should go hiking or stay in the city" | "A young woman in a white blouse and a man in a grey jacket sit at an outdoor cafe table. The woman lifts her coffee cup and says 'I was thinking we could do the coastal trail on Saturday.' The man leans back and replies 'That works, but we should leave early before it gets too hot.'" |
첫 번째 프롬프트는 대화의 주제만 요약할 뿐 실제 대사나 화자 정보를 주지 않습니다. 두 번째 프롬프트는 각 캐릭터에 외형 설명과 구체적인 대사를 함께 묶어, 모델이 입 모양과 목소리를 올바른 얼굴에 매칭할 수 있게 합니다.
4. 참고 이미지로 캐릭터 고정하기
참고 이미지를 업로드하면 Kling 3.0은 생성 과정 전반에서 이를 시각적 앵커로 사용합니다. 캐릭터 외형을 텍스트만으로 설명하는 것보다 훨씬 안정적이며, 여러 샷이나 별도의 생성을 거쳐 일관성을 유지할 때 특히 그렇습니다.
참고 이미지를 최대한 활용하려면 다음과 같이 하세요.
- 가능하다면 캐릭터를 다양한 각도에서 보여 주는 2~4장의 참고 이미지를 업로드하세요. 모델이 고정할 수 있는 시각 정보가 더 많아집니다.
- 참고 영상을 업로드하면 모델이 캐릭터의 외형뿐 아니라 자연스러운 목소리 톤까지 함께 추출해, 생성 내내 둘을 일관되게 유지합니다.
- 제품 영상이라면 제품 이미지를 참고 자료로 업로드해, 카메라가 움직이는 동안에도 브랜드·텍스트·색상이 일관되게 유지되도록 하세요.
5. 정적 장면이 아니라 시간에 따른 움직임과 액션을 설명하기
영상 모델에 프롬프트를 쓸 때 가장 흔한 실수는 사진을 묘사하듯 쓰는 것입니다. Kling 3.0은 움직임을 생성하므로, 프롬프트는 클립이 진행되는 동안 무엇이 어떻게 변하는지를 설명해야 합니다. 피사체가 어떻게 움직이는지, 카메라는 어떻게 반응하는지, 장면은 어떻게 전개되는지를 담아야 합니다.
| 나쁜 프롬프트 | 좋은 프롬프트 |
|---|---|
| "A perfume bottle on a velvet surface with soft lighting and rose petals" | "Camera slowly orbits around a glass perfume bottle on a dark velvet surface, soft golden light catching the facets of the bottle as it rotates into view, scattered rose petals shift gently from the air movement, the camera gradually tightens from a wide framing to a close-up of the label" |
첫 번째 프롬프트는 정지된 이미지를 설명합니다. 두 번째 프롬프트는 카메라가 어떻게 움직이는지, 빛이 시간에 따라 피사체와 어떻게 상호작용하는지, 프레이밍이 어떻게 변하는지를 설명합니다. 이 방식이 모델에 분명한 모션 경로를 제시해 줍니다.
Kling 3.0에서 새로워진 점
Kling 3.0은 Kling Video 2.6에서 상당한 수준으로 발전한 버전입니다. 아래 표는 공식 Kling 3.0 모델 문서를 바탕으로 달라진 점을 정리한 것입니다.
| 기능 | Kling Video 2.6 | Kling Video 3.0 |
|---|---|---|
| 텍스트-투-비디오 | 지원 | 지원 |
| 이미지-투-비디오 | 지원 | 지원 |
| 시작/끝 프레임-투-비디오 | 지원 | 지원 |
| 네이티브 오디오 | 지원 | 지원 |
| 멀티샷 생성 | 미지원 | 지원 |
| 시작 프레임 + 엘리먼트 참조 | 미지원 | 지원 |
| 다중 캐릭터 공동 참조(3명 이상) | 미지원 | 지원 |
| 다국어 지원(중국어, 영어, 일본어, 한국어, 스페인어) | 미지원 | 지원 |
| 방언과 억양 | 미지원 | 지원 |
| 15초 출력 길이 | 미지원 | 지원 |
| 유연한 길이(3~15초) | 미지원 | 지원 |
| 네이티브 4K 해상도 | 미지원 | 지원 |
가장 눈에 띄는 추가 기능은 멀티샷 생성과 엘리먼트 참조 시스템입니다. 멀티샷은 한 번의 생성으로 최대 6개의 카메라 컷을 만들 수 있어, 개별 클립을 따로 생성한 뒤 수동으로 이어 붙이는 작업이 필요 없습니다. 엘리먼트 참조 시스템으로는 캐릭터의 외형과 음성 톤을 재사용 가능한 엘리먼트에 묶어, 샷 간은 물론 별도의 영상 생성에서도 일관성을 유지할 수 있습니다.
방언·억양까지 아우르는 다국어 지원도 새롭습니다. Kling 2.6도 네이티브 오디오를 지원했지만, 3.0은 이를 다섯 개 언어로 확장하고 구체적인 억양(영어의 경우 미국식·영국식·인도식, 중국어의 경우 광동어·동북 방언·베이징 방언·쓰촨 방언·대만 방언)을 재현하며, 한 장면 안에서의 코드 스위칭까지 처리합니다.
Kling 3.0의 역량
멀티샷 스토리보드 생성
Kling 3.0은 멀티샷 영상을 위한 두 가지 모드를 제공합니다. 자동 모드에서는 멀티샷 토글을 켜면 모델이 장면 설명을 읽고 카메라 전환, 샷 프레이밍, 페이싱을 스스로 계획합니다. 커스텀 모드에서는 사용자가 각 샷을 개별적으로 정의해 길이, 카메라 앵글, 서사 내용을 지정하면 모델이 스토리보드를 그대로 따릅니다.
커스텀 모드는 컷 타이밍이 중요한 제품 광고나 대사 시퀀스처럼 구조화된 콘텐츠에 특히 유용합니다. 자동 모드는 서사형 프롬프트를 모델이 해석해 시각적 커버리지를 결정하게 두고 싶을 때 잘 맞습니다.
캐릭터별 음성 바인딩이 가능한 네이티브 오디오
영상과 오디오는 한 번의 생성에서 함께 만들어집니다. 모델은 립싱크된 대사를 생성하며, 프롬프트에서 캐릭터와 대사를 짝지어 어떤 캐릭터가 어떤 대사를 하는지 제어할 수 있습니다. 기본 립싱크를 넘어 Kling 3.0은 음성 톤이 묶인 캐릭터 엘리먼트 생성을 지원합니다. 한 번 음성을 캐릭터 엘리먼트에 바인딩하면, 그 캐릭터가 다시 등장할 때마다 별도로 지정하지 않아도 같은 음성이 유지됩니다.
모델은 영어, 중국어, 일본어, 한국어, 스페인어로 대사를 지원하며, 방언·억양을 지원하고 한 장면 안에서 다국어 코드 스위칭도 처리합니다.
엘리먼트 참조 시스템
2~4장의 참고 이미지나 짧은 참고 영상을 업로드해 재사용 가능한 캐릭터 엘리먼트를 만들 수 있습니다. 캐릭터 엘리먼트의 경우 오디오를 업로드하거나 제공되는 음성 중에서 선택해 음성 톤을 함께 지정할 수 있습니다. 프롬프트에서 엘리먼트를 사용하면, 카메라 움직임·장면 전환·멀티샷 시퀀스 내내 모델이 캐릭터의 외형과 음성을 그대로 고정합니다.
이 시스템은 한 프레임 안에서 특징이 섞이지 않게 세 명 이상의 뚜렷한 캐릭터를 지원하므로, 대사 장면이나 여러 인물이 등장하는 영상에 결정적입니다.
텍스트와 로고 보존
모델은 업로드된 이미지 속 간판, 제품 라벨, 로고 같은 텍스트 콘텐츠를 인식하고 영상 전체에서 텍스트 일관성을 유지합니다. 영상 안에서 새로운 텍스트 콘텐츠를 생성할 수도 있습니다. 카메라가 연속해서 움직이는 중에도 텍스트가 선명하게 유지되므로, 브랜드 요소가 또렷하고 읽히는 상태로 남아 있어야 하는 상업 콘텐츠에서 특히 유용합니다.
유연한 길이와 해상도
Kling 3.0은 한 번의 생성으로 3초에서 15초까지의 영상을 만들 수 있으며, 네이티브 4K까지의 해상도를 지원합니다. 길이가 확장되면서 모델은 더 복잡한 서사 전개, 장면 전환, 짧은 클립에서는 담기 어려웠던 액션 시퀀스를 펼칠 여유를 갖게 됩니다. 해상도 옵션에는 1080p와 720p도 포함됩니다.
Kling 3.0 기술 사양
| 사양 | 세부 내용 |
|---|---|
| 생성 모드 | 텍스트-투-비디오, 이미지-투-비디오, 시작/끝 프레임-투-비디오 |
| 최대 길이 | 15초 |
| 최소 길이 | 3초 |
| 최대 해상도 | 네이티브 4K |
| 기타 해상도 | 1080p, 720p |
| 화면비 | 16:9, 9:16, 1:1 |
| 멀티샷 | 한 번의 생성당 최대 6개의 카메라 컷 |
| 멀티샷 모드 | 자동(모델이 샷 계획) 및 커스텀(사용자가 각 샷 정의) |
| 네이티브 오디오 | 립싱크 대사, 음성 톤 제어 |
| 지원 언어 | 영어, 중국어, 일본어, 한국어, 스페인어 |
| 방언·억양 지원 | 지원(중국어·영어 방언, 지역 억양) |
| 코드 스위칭 | 지원(한 장면 안에서 여러 언어 전환) |
| 캐릭터 엘리먼트 | 2~4장의 이미지 또는 영상 참조로 생성 |
| 음성 바인딩 | 캐릭터 엘리먼트에 음성 톤 바인딩 |
| 다중 캐릭터 공동 참조 | 한 프레임에 3명 이상의 뚜렷한 캐릭터 |
| 텍스트 보존 | 업로드 이미지의 텍스트를 읽고 유지 |
| 모델 계보 | Kling Video 2.6 + Kling O1 통합 |
| 출시일 | 2026년 2월 |
Kling 3.0 활용 사례
숏폼 영상 제작자와 내러티브 크리에이터
멀티샷 생성은 Kling 3.0이 짧은 내러티브 콘텐츠에 특히 유용한 이유입니다. 숏·리버스 숏 대사, 상황 설정 샷, 클로즈업까지 포함된 완결된 장면을 한 번의 생성으로 만들 수 있습니다. 숏 드라마, 마이크로 시리즈, 스토리 중심의 소셜 콘텐츠를 다루는 크리에이터라면 개별 클립을 만들고 수작업으로 편집해 붙이는 과정이 사라집니다. 15초 길이에 최대 6개의 컷을 붙일 수 있어 한 번의 생성 안에서 도입·전개·결말까지 풀어낼 공간이 충분합니다.
제품·이커머스 영상
제품 광고에서는 브랜드 텍스트와 로고가 또렷하게 유지되는 동안 카메라가 대상 주변을 움직여야 합니다. Kling 3.0의 텍스트 보존은 이를 네이티브로 처리해, 오비탈 샷이나 트래킹 움직임 중에도 라벨이 읽히도록 유지합니다. 엘리먼트 참조 시스템과 결합하면 제품의 시각적 정체성을 고정한 상태로, 카메라 앵글·조명 구성·배경 환경이 다른 여러 광고 변형을 제품 자체는 일관되게 유지한 채 생성할 수 있습니다. Morphic에서는 제품 영상을 생성하고, 같은 워크스페이스에서 썸네일이나 소셜 자산을 함께 만들 수 있습니다.
소셜 미디어 콘텐츠 팀
유연한 화면비(16:9, 9:16, 1:1)와 빠른 반복은, 포맷마다 별도의 제작 워크플로우를 두지 않고도 플랫폼별 영상 콘텐츠를 만들어 낼 수 있게 해 줍니다. 여기서는 콘텐츠 컨셉만 설명하면 모델이 샷 플래닝을 맡아 주는 자동 스토리보드의 멀티샷 모드가 유용합니다. Instagram, TikTok, YouTube Shorts, 피드 포스트까지 다루는 물량이 많은 팀에서는 제작 사이클이 크게 빨라집니다.
다국어·로컬라이즈 콘텐츠
방언과 코드 스위칭 지원은 대부분의 AI 영상 모델이 소화하지 못하는 활용 사례를 열어 줍니다. 발표자가 한국어로 진행하는 교육 영상, 등장인물이 대화 중에 영어와 스페인어를 오가는 관광 광고, 현지 억양이 담긴 소셜 클립 모두 자연스러운 입 모양과 일관된 표정으로 생성할 수 있습니다. 여러 시장을 타깃으로 하는 브랜드라면, 오디오를 다시 녹음하지 않고도 같은 프롬프트 프레임워크로 현지화된 영상 콘텐츠를 만들 수 있다는 뜻입니다.
Morphic에서는 Kling 3.0을 플랫폼의 이미지·오디오 도구와 함께 사용해, 영상부터 썸네일, 배경 음악까지 완결된 콘텐츠 패키지를 여러 애플리케이션을 오가지 않고 한 곳에서 구성할 수 있습니다.
자주 묻는 질문
Kling 3.0은 Morphic에서 사용할 수 있습니다. Morphic 플랜에 가입한 뒤 프롬프트 바에서 비디오 모드를 선택하고, 모델 드롭다운에서 Kling 3.0을 고르세요. 이미지·음악·오디오 생성 도구와 나란히 자리해 여러 콘텐츠 유형을 한 워크스페이스에서 다룰 수 있습니다.
두 모델 모두 텍스트-투-비디오와 이미지-투-비디오를 다루지만, 용도가 다릅니다. Kling 3.0은 멀티샷 스토리보드와 네이티브 오디오를 갖춘 핵심 생성 모델입니다. Kling 3.0 Omni는 여기에 더 깊은 엘리먼트 일관성 제어, 영상 기반 캐릭터 참조, 음성 톤 바인딩을 더합니다. 프롬프트로부터 잘 다듬어진 영상 한 편이 필요하다면 Kling 3.0이 적절한 선택입니다. 여러 생성에 걸쳐 같은 캐릭터가 등장하는 시리즈를 만든다면, Omni가 이를 유지하기 위한 일관성 도구를 제공합니다.
모델은 영어, 중국어, 일본어, 한국어, 스페인어 다섯 개 언어로 립싱크된 대사를 생성합니다. 기본 언어 지원을 넘어 구체적인 방언과 억양까지 재현하는데, 영어의 경우 미국식·영국식·인도식 억양을, 중국어의 경우 광동어·동북 방언·베이징 방언·쓰촨 방언·대만 방언을 포함합니다. 같은 클립 안에서 등장인물이 대화 중간에 언어를 전환할 수도 있습니다.
멀티샷은 하나의 영상 안에서 최대 6개의 서로 다른 카메라 컷을 만들어 냅니다. 두 가지 옵션이 있는데, 자동 모드에서는 모델이 프롬프트를 바탕으로 샷 전환을 계획하고, 커스텀 모드에서는 사용자가 직접 각 샷의 프레이밍·길이·카메라 앵글을 정의합니다. 커스텀 모드에서는 모델이 스토리보드를 그대로 따르고, 자동 모드에서는 서사를 해석해 최적의 샷 커버리지를 결정합니다. 두 모드 모두 모든 컷에 걸쳐 캐릭터 일관성을 유지합니다.
최대 해상도는 네이티브 4K로, 업스케일이 아닌 해당 해상도에서 직접 생성됩니다. 더 빠른 생성이나 작은 파일 크기가 필요할 때는 1080p와 720p도 사용할 수 있습니다. 생성당 길이는 3초에서 15초 사이입니다. 지원 화면비는 16:9, 9:16, 1:1로 와이드스크린, 세로형, 정사각형 포맷을 모두 아우릅니다.


