Morphic의 Kling 3.0: 기능, 멀티샷 영상, 네이티브 오디오

Morphic에서 Kling 3.0으로 시네마틱한 AI 영상을 생성하세요. 멀티샷 스토리보드, 네이티브 4K, 내장 오디오, 클립당 최대 15초를 지원합니다.

Morphic의 Kling 3.0: 기능, 멀티샷 영상, 네이티브 오디오

Kling 3.0은 텍스트 프롬프트 하나를 연출된 영상 시퀀스로 바꿔 주는 AI 영상 모델입니다. Kuaishou가 개발해 2026년 2월에 출시되었으며, 이전에는 별도 도구와 수작업 편집이 필요했던 작업들을 한 번에 처리합니다. 최대 6개의 카메라 컷으로 구성된 멀티샷 스토리보드, 다섯 개 언어의 립싱크 대사를 지원하는 네이티브 오디오, 어떤 앵글에서도 유지되는 캐릭터 일관성이 그 예입니다. 출력은 네이티브 4K 해상도까지 지원하며, 3초에서 15초까지 자유로운 길이를 선택할 수 있습니다. Morphic에서 이미지, 음악, 오디오 생성 기능과 함께 사용할 수 있습니다.

Morphic에서 Kling 3.0 사용하는 방법

1. 비디오 모드 선택

프롬프트 바에서 비디오 모드를 선택합니다. 그러면 인터페이스가 영상 생성 모드로 전환되고, 해상도·길이·네이티브 오디오 포함 여부 등 설정을 구성할 수 있습니다.

2. 모델로 Kling 3.0 선택

모델 드롭다운을 열고 사용 가능한 영상 모델 목록에서 Kling 3.0을 선택합니다. Morphic은 여러 영상 모델을 제공하므로, 플랫폼을 바꾸지 않고도 서로 다른 생성 모델의 결과를 비교할 수 있습니다.

3. 프롬프트 작성

원하는 장면을 설명합니다. 주제, 환경, 카메라 움직임, 조명, 그리고 대사까지 포함해 주세요. 사진가가 아니라 감독처럼 생각하세요. 고정된 한 프레임이 아니라 시간 흐름에 따라 무슨 일이 일어나는지를 적어야 합니다. 여러 컷이 필요하다면 멀티샷 토글을 켜거나 프롬프트에서 각 샷에 라벨을 붙이세요.

4. 생성하기

프롬프트를 실행합니다. Kling 3.0은 3초에서 15초 사이의 영상 클립을 생성하며, 옵션을 켜면 네이티브 오디오도 함께 만들어집니다. 결과를 확인하고 필요하면 프롬프트를 조정해 원하는 클립이 나올 때까지 다시 생성해 보세요.

Kling 3.0이란?

Kling 3.0은 Kuaishou가 2026년 2월에 공개한 최신 AI 영상 생성 모델입니다. 이전 모델인 Kling Video 2.6과 Kling O1을 단일 멀티모달 아키텍처로 통합하여, 한 번의 생성 과정에서 영상과 오디오, 텍스트를 함께 처리합니다.

기존 AI 영상 모델이 오디오 없이 독립된 단일 샷 클립을 만들어 내는 데 그쳤다면, Kling 3.0은 동기화된 대사와 네이티브 오디오가 포함된 멀티샷 시퀀스를 생성합니다. 트래킹 샷, 클로즈업, 숏·리버스 숏 같은 시네마틱 언어를 이해하며, 프롬프트에 서사를 설명하면 장면 전환을 스스로 구성할 수도 있습니다.

Kling 3.0은 Morphic의 멀티 모델 영상 생성 스위트의 일부로 제공되며, Morphic의 이미지·음악·오디오 도구와 동일한 워크스페이스에서 함께 사용할 수 있습니다.

Kling 3.0의 기능과 역량

두 가지 제어 모드를 지원하는 멀티샷 스토리보드 생성

이 기능이야말로 현재 이용 가능한 다른 모든 AI 영상 모델과 Kling 3.0을 구분 짓는 특징입니다. 한 번의 생성으로 최대 6개의 카메라 컷을 만들어 내며, 이를 두 가지 방식으로 제어할 수 있습니다.

  • 자동 멀티샷: 멀티샷 토글을 켜면 모델이 프롬프트를 바탕으로 샷 전환을 스스로 계획합니다. 장면 설명을 읽고 어디에서 컷을 나눌지, 어떤 앵글을 쓸지, 시퀀스의 속도는 어떻게 할지 결정합니다.
  • 커스텀 멀티샷: 각 샷을 직접 정의합니다. 샷 수, 각 샷의 길이, 카메라 앵글, 프레임에서 일어나는 일을 설정하면 모델이 스토리보드를 그대로 따릅니다.

자동 모드는 서사형 프롬프트에서 빠르게 결과를 얻고 싶을 때 유용합니다. 커스텀 모드는 샷별 페이싱이 구체적인 제품 광고처럼 정밀한 제어가 필요한 경우에 더 적합합니다.

음성 바인딩이 가능한 엘리먼트 참조

대부분의 AI 영상 모델은 캐릭터의 외모를 고정하기 위해 참고 이미지 업로드를 지원합니다. Kling 3.0은 여기서 한 걸음 더 나아갑니다. 짧은 영상 클립을 참고 자료로 업로드하면 모델이 캐릭터의 외형뿐 아니라 자연스러운 목소리 톤까지 함께 추출합니다. 그 음성은 캐릭터 엘리먼트에 묶이므로, 해당 캐릭터가 대사를 할 때마다 프롬프트에서 매번 다시 지정하지 않아도 같은 목소리가 유지됩니다.

2~4장의 참고 이미지로 엘리먼트를 만들고, 오디오를 업로드하거나 제공되는 음성 중에서 골라 음성 톤을 별도로 지정하는 방법도 있습니다. 여러 생성에 걸쳐 반복 등장하는 캐릭터에 특히 유용합니다.

방언, 억양, 다국어 코드 스위칭

Kling 3.0의 네이티브 오디오는 영어, 중국어, 일본어, 한국어, 스페인어 다섯 개 언어를 지원합니다. 단순한 언어 지원을 넘어 구체적인 방언과 억양까지 재현할 수 있는데, 중국어의 경우 광동어, 동북 방언, 쓰촨 방언, 베이징 방언을, 영어의 경우 미국식·영국식·인도식 억양을 포함합니다.

코드 스위칭도 처리하므로, 등장인물이 한 영상 안에서 대화 중간에 언어를 전환할 수 있습니다. 이중언어로 진행되는 비즈니스 미팅, 여행객이 서툰 스페인어로 길을 묻는 장면, 여러 방언이 섞인 가족 대화 등을 자연스러운 입 모양과 일관된 표정으로 생성할 수 있습니다.

네이티브 4K 영상 출력

모델은 저해상도에서 업스케일한 것이 아닌, 네이티브 4K 해상도까지 지원합니다. 덕분에 직물의 짜임이나 머리카락 한 올 같은 세부 요소, 피부 질감이 업스케일링 특유의 부드럽고 매끈해진 느낌 없이 실제 디테일을 그대로 담아냅니다. 1080p와 720p 같은 낮은 해상도도 선택할 수 있으며, 16:9, 9:16, 1:1 화면비를 지원합니다.

카메라 움직임 속에서도 보존되는 텍스트와 로고

Kling 3.0은 간판, 제품 라벨, 로고 같은 업로드 이미지의 텍스트를 읽어들여, 카메라가 움직이는 동안에도 영상 내내 가독성을 유지합니다. 영상 안에서 새로운 텍스트 콘텐츠를 생성할 수도 있습니다. 제품을 오비탈로 촬영하거나 트래킹 샷을 쓰는 동안 브랜드 텍스트가 또렷하게 유지되어야 하는 상업용 작업에서, 후반 작업 없이 텍스트 오버레이 문제를 해결할 수 있습니다.

멀티샷 시퀀스 전반의 캐릭터 일관성

참고 이미지나 짧은 참고 영상을 업로드하면 모델이 클립 전체에서 캐릭터의 외모를 고정합니다. 줌, 팬, 틸트 같은 카메라 움직임이 있어도 얼굴, 의상, 비율, 특징적인 디테일이 흔들리지 않고 유지됩니다. 한 장면에 세 명 이상의 뚜렷이 구분되는 캐릭터를 배치해도 특징이 섞이지 않기 때문에, 대사가 있는 장면이나 여러 인물이 등장하는 영상에 중요합니다.

3초에서 15초까지의 유연한 길이

한 번의 생성으로 3초에서 15초 사이의 연속된 영상을 만들 수 있습니다. 길이가 늘어났다는 사실 자체보다 더 큰 의미는, 모델이 좀 더 복잡한 액션을 전개하고 장면 전환을 구성하며, 5초 대에서 끊기지 않고 서사의 아크를 완성할 여유를 갖게 된다는 점입니다.

자주 묻는 질문

Kling 3.0은 Morphic에서 사용할 수 있나요?

Kling 3.0은 Morphic의 영상 생성 스위트의 일부로 사용할 수 있습니다. 생성을 시작하려면 Morphic 플랜에 가입한 뒤 프롬프트 바에서 비디오 모드를 선택하고, 모델 드롭다운에서 Kling 3.0을 고르면 됩니다. Morphic에서는 Kling 3.0을 이미지·음악·오디오 생성 도구와 함께 사용할 수 있어, 크리에이티브 워크플로우 전체를 한 곳에서 처리할 수 있습니다.

Kling 3.0과 Kling 3.0 Omni의 차이는 무엇인가요?

Kling 3.0은 멀티샷 스토리보드와 네이티브 오디오를 포함해 텍스트-투-비디오와 이미지-투-비디오를 다루는 핵심 영상 생성 모델입니다. Kling 3.0 Omni는 여기에 더 강력한 캐릭터 일관성 제어 기능과, 영상 참조를 사용해 특정 캐릭터에 음성 톤을 바인딩하는 기능을 더합니다. 대부분의 영상 생성 용도에는 Kling 3.0이 적절한 출발점이며, 여러 생성에 걸쳐 캐릭터 일관성이 중요하다면 Omni를 고려할 만합니다.

오디오에서 지원하는 언어와 억양은 어떻게 되나요?

Kling 3.0은 영어, 중국어, 일본어, 한국어, 스페인어 다섯 개 언어로 립싱크된 대사를 생성합니다. 기본 언어 지원을 넘어 특정 억양과 방언도 재현할 수 있는데, 영어의 경우 미국식·영국식·인도식 억양을, 중국어의 경우 광동어·동북 방언·베이징 방언·쓰촨 방언·대만 방언을 포함합니다. 같은 클립 안에서 등장인물이 대화 중간에 언어를 전환하는 것도 가능합니다.

Kling 3.0은 어떤 해상도와 길이를 지원하나요?

출력은 네이티브 4K 해상도까지 지원하며 1080p, 720p도 선택할 수 있습니다. 각 생성은 3초에서 15초 사이입니다. 화면비는 와이드스크린용 16:9, 세로형 소셜 콘텐츠용 9:16, 정사각형 포맷용 1:1을 지원합니다.

Kling 3.0에서 더 좋은 결과를 얻으려면 어떻게 해야 하나요?

이미지 프롬프트에서 영상 프롬프트로 넘어갈 때 가장 큰 변화는, 외형뿐 아니라 움직임을 설명해야 한다는 점입니다. 출력 품질을 끌어올리는 몇 가지 방법이 있습니다.

  • 카메라 언어를 앞세우세요. "핸드헬드 트래킹 샷"이나 "느린 오비탈 팬"으로 프롬프트를 시작하면 전체 생성의 시각적 톤이 잡힙니다.
  • 복수 인물 장면에서는 화자를 명시적으로 태깅하세요. 프롬프트 안에서 각 캐릭터와 대사를 직접 짝지어 주면 모델이 얼굴에 맞는 목소리를 매칭합니다.
  • 각 샷의 길이, 프레이밍, 카메라 앵글을 정밀하게 제어해야 할 때는 커스텀 멀티샷 모드를 사용하세요.
  • 캐릭터 일관성을 위해 참고 이미지나 영상을 업로드하세요. 외형과 음성 특성이 묶인 엘리먼트를 만들어 두면, 반복 등장하는 캐릭터에 대해 모델이 확실한 기준점을 가질 수 있습니다.

Morphic에서는 워크스페이스를 벗어나지 않고도 프롬프트를 조정해 빠르게 반복할 수 있습니다. 프롬프트 예시와 함께 더 자세한 내용을 보려면 Kling 3.0 전체 가이드를 참고하세요.

chair
스토리에 생명을 불어넣으세요
다운로드도 설치도 필요 없습니다. Morphic을 사용해 아이디어를 아름답게 만들어진 스토리로 변환하는 성장하는 크리에이터 커뮤니티에 참여하세요.