Happy Horse 1.1: 완벽 가이드, 프롬프트, 기능

Morphic에서 사용하는 Happy Horse 1.1 완벽 가이드. Alibaba의 오디오·비디오 동시 생성 모델이 하는 일, 스펙, 네이티브 오디오와 립싱크, 최대 9명 피사체까지의 reference-to-video, 예시가 포함된 프롬프트 작성을 다룹니다.

Morphic에서 사용해 보기

Happy Horse 1.1 기능과 성능

Happy Horse 1.1은 Alibaba의 비디오 모델로, fal에서 제공되며 Morphic에서 사용할 수 있습니다. 비디오와 오디오를 한 번의 패스로 함께 생성하고, 7개 언어에 걸친 네이티브 립싱크를 갖추었으며, 최대 9명의 피사체, 9가지 화면비, 1080p 출력을 지원하는 reference-to-video를 지원합니다.

기능	하는 일	적합한 용도
오디오·비디오 동시 생성	클립과 동기화된 오디오를 한 번의 패스로 생성, 별도 오디오 단계 없음	대화 장면, 음악 클립, 토킹헤드
다국어 립싱크	7개 언어로 말하고 립싱크하며, 입 모양이 음운을 따름	현지화 광고, 다국어 진행자
reference-to-video, 최대 9명	최대 9명의 참조 피사체를 새 장면으로 이어가며, 각 피사체를 인덱스로 지정	앙상블 장면, 캐릭터 일관 시리즈
image-to-video	정지된 첫 프레임을 오디오가 있는 1080p 움직이는 클립으로 애니메이트	제품 컷, 키 아트, 사진 애니메이션
9가지 화면비	16:9와 9:16부터 울트라와이드 21:9까지, 9가지 비율로 제공	시네마틱, 세로, 정사각 납품

한 번의 패스로 오디오와 비디오 동시 생성

Happy Horse는 오디오를 나중에 더하지 않고 그림과 소리를 함께 생성합니다. 립싱크가 있는 대사, 실내 환경음, 효과음, 음악이 모두 같은 생성에서 나오므로 첫 프레임부터 움직임과 소리가 맞물립니다. 소리는 동작과 같은 프롬프트에 적습니다.

다국어 네이티브 립싱크

이 모델은 영어, 표준 중국어, 광둥어, 일본어, 한국어, 독일어, 프랑스어로 말하고 립싱크합니다. 입 모양은 근사치가 아니라 말하는 언어의 음운을 따르므로, 대화 장면과 같은 샷의 현지화 버전에 적합합니다.

최대 9명 피사체까지의 reference-to-video

최대 9장의 참조 이미지를 전달하고 프롬프트에서 각 이미지를 제공한 순서대로 character1부터 character9까지 인덱스로 지정합니다. 최대 9명이면 전체 출연진이 샷마다 알아볼 수 있게 유지됩니다. 각 피사체를 설명한 다음 장면과 동작을 적습니다.

image-to-video

제품 컷이나 캐릭터 프레임 같은 정지된 첫 프레임을 제공하고 움직임과 소리를 설명하는 프롬프트를 더하면, 모델이 그 조명과 디테일을 유지하면서 이미지에서 바깥으로 애니메이트합니다. 시작 이미지가 없을 때는 text-to-video도 실행합니다.

9가지 화면비

9가지 비율로 납품합니다: 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4, 4:5. 같은 프롬프트 틀로 울트라와이드 시네마틱 컷과 세로 소셜 컷을 포맷별 별도 워크플로 없이 만듭니다.

Happy Horse 1.1 기술 스펙

스펙	Happy Horse 1.1
제공처	Alibaba (fal에서 제공)
모드	text-to-video, image-to-video, reference-to-video
오디오	네이티브, 동기화, 다국어 립싱크
언어	7개 (영어, 표준 중국어, 광둥어, 일본어, 한국어, 독일어, 프랑스어)
해상도	720p 또는 1080p
길이	3~15초 (기본 5초)
화면비	16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4, 4:5
참조 이미지	최대 9장 (character1~character9)
프롬프트 길이	최대 2,500 characters
출시	2026년 6월

뉴스 앵커가 저녁 헤드라인을 읽는다, 싱크된 스튜디오 오디오지금 사용해보기

Happy Horse 1.1 활용 사례

대화와 토킹헤드 장면

캐릭터가 동기화된 입 움직임, 실내음, 타이밍과 함께 말하며 한 번의 패스로 생성됩니다. 대사를 프롬프트에 적으면 오디오가 움직임과 함께 돌아옵니다.

다중 캐릭터 앙상블 장면

참조 이미지에서 최대 9명의 피사체를 한 장면으로 이어가며, 각 피사체를 인덱스로 불러 전체 출연진이 샷마다 알아볼 수 있게 합니다.

뮤직비디오와 퍼포먼스 클립

비디오와 오디오가 함께 생성되므로 움직임이 첫 패스부터 비트에 맞습니다. 스코어와 동기화된 움직임의 퍼포먼스 클립을 한 번의 생성으로 만듭니다.

울트라와이드 시네마틱 컷

21:9 비율로 와이드스크린 시네마틱 프레임을 만든 다음, 같은 프롬프트에서 같은 장면을 9:16 세로로 납품합니다.

다국어 광고 현지화

같은 장면과 캐릭터를 유지하면서 대사를 언어별로 바꾸고 네이티브 립싱크로, 하나의 기획을 여러 시장에 내보냅니다.

Happy Horse 1.1을 최대한 활용하는 법

Happy Horse는 움직임과 소리를 함께 명시하는 브리프와, 캐릭터를 일관되게 유지해야 할 때의 깔끔한 참조 이미지 세트를 잘 살립니다. 몇 가지 실천이 품질의 대부분을 좌우합니다:

항상 오디오를 명시하세요. 대화, 효과음, 환경음, 음악을 쉬운 말로 적어, 무음 클립이 아니라 모델이 움직임과 함께 소리를 생성하게 합니다.
사진이 아니라 움직임을 적으세요. 한 순간의 프레임이 어떻게 보이는지뿐 아니라 피사체와 카메라가 클립 동안 어떻게 움직이는지를 설명합니다.
참조에 인덱스를 부여하세요. reference-to-video에서는 참조 이미지를 제공한 순서대로 각 피사체를 character1, character2 등으로 지정합니다.
깔끔한 립싱크를 위해 대사는 짧게. 말하는 캐릭터에는 입이 보이는 정면 프레임을 쓰고 각 대사를 짧게 유지합니다.
한 클립에 한 동작. 하나의 액션을 몇 초에 담고, 여러 개를 한 생성에 몰아넣지 않습니다.
비율을 먼저 정하세요. 시네마틱 컷에는 21:9, 세로에는 9:16을 고릅니다. 프레이밍이 액션 연출 방식을 바꾸기 때문입니다.

Happy Horse 1.1 프롬프트 가이드

좋은 프롬프트는 캡션이 아니라 짧은 샷 브리프처럼 읽힙니다. 결과를 좌우하는 것은 두 가지입니다. 샷에 무엇이 담기는지에 대한 명확한 목록과, 모호한 표현 대신 구체적인 표현입니다.

프롬프트에 들어가는 것

요소	포함할 것	예시
피사체	프레임에 누가·무엇이 있는지, 구체적으로	유리 책상에 앉은 네이비 정장 차림의 뉴스 앵커
움직임	무엇이, 어떻게 움직이는지	그가 두 번째 카메라로 돌아서며 손짓한다
카메라	샷 종류와 움직임 하나	미디엄 샷, 천천히 들어가기
오디오	대화, 효과음, 환경음, 음악	그가 "안녕하세요"라고 말한다. 부드러운 스튜디오 실내음
포맷	길이와 화면비	10초, 16:9

참조와 대사 구문

reference-to-video에서는 참조 이미지를 제공한 순서대로 각 피사체를 character1, character2 등으로 지정합니다. 타이밍이 있는 대사는 립싱크가 원하는 위치에 오도록, 말하는 대사를 클립 타임라인에 맞춰 표시합니다.

참조와 타이밍 대사

character1과 character2가 카페 테이블을 사이에 두고 마주 앉아 있고, 따뜻한 창가 빛. 0-4s: character1이 프랑스어로 "Tu as vu ça?"라고 말하고, 4-8s: character2가 웃으며 "Incroyable."라고 대답합니다. 은은한 카페 앰비언스, 잔잔한 핸드헬드.

프롬프트 편집

약한 프롬프트 vs 강한 프롬프트

카메라, 움직임과 그 타이밍, 오디오를 운에 맡기지 말고 명시합니다.

초점	약한	강한
카메라	밤 도시의 여성	비에 젖은 거리를 걷는 여성을 따라가는 핸드헬드 트래킹 샷, 상점 불빛이 포장도로에 반사, 얕은 피사계 심도
움직임과 타이밍	문이 열리고 누군가 들어온다	문이 천천히 열리고, 한 박자 뒤 인물이 통과한 뒤, 카메라가 미디엄 샷으로 자리잡는다
오디오	접시에 요리를 담는 셰프	접시에 요리를 담는 셰프의 클로즈업, 피어오르는 김. 오디오: 팬에서 지글거리는 소리, 부드러운 주방 환경음, 그리고 "서비스."

흔한 실수

프롬프트를 무음으로 두기: 모델은 오디오를 비디오와 함께 생성하므로 항상 최소 하나의 소리 단서를 적습니다.
모호한 카메라: "시네마틱"은 모델에 아무것도 알려주지 않습니다. 샷과 움직임을 명시합니다.
인덱스 없는 참조: reference-to-video에서는 "이 참조들을 사용"이 아니라 각 피사체를 character1, character2로 라벨링합니다.
한 클립에 너무 많이: 한 클립에 한 액션을 유지하고, 깔끔한 립싱크를 위해 대사는 짧게 유지합니다.

간단한 가격

오늘 무료로 시작하고 언제든지 업그레이드하거나 취소할 수 있습니다.

Basic

/ 월

청구 금액 $0 년

900 월간 크레딧

1 명 전용

모든 모델

워크플로

Standard

/ 월

청구 금액 $0 년

3200 월간 크레딧

1 명 전용

모든 모델

워크플로

Pro

/ 월

청구 금액 $0 년

6200 공유 월간 크레딧

1 사용자

+ 최대 4 명 추가 비용으로 추가 가능

모든 모델

워크플로

Pro Max

/ 월

청구 금액 $0 년

24000 공유 월간 크레딧

1 사용자

+ 최대 9 명 추가 비용으로 추가 가능

모든 모델

워크플로

Enterprise

더 높은 제한

사용자 정의

가격 및 청구 조건

대용량 크레딧

맞춤형 시트 제한

모든 모델

워크플로

Free

For playing around

forever free

최대 20 크레딧

1명 전용

일부 모델

워크플로

플랜 세부 정보 비교

자주 묻는 질문

Happy Horse 1.1에서 최상의 결과를 얻으려면?

Happy Horse 1.1은 오디오를 비디오와 함께 생성하므로 모든 프롬프트에 오디오를 명시하세요. 정지 프레임이 아니라 움직임을 설명하고, 샷 종류와 카메라 움직임 하나를 줍니다. 다중 캐릭터 장면에서는 각 피사체를 character1, character2로 인덱스하고, 깔끔한 립싱크를 위해 대사는 짧게 유지합니다. 720p로 초안을 만든 뒤 채택한 컷을 1080p로 다시 실행합니다.

Happy Horse 1.1은 오디오를 생성하나요?

네. Happy Horse 1.1은 오디오를 비디오와 함께 한 번의 패스로 생성하므로 움직임과 동기화된 상태를 유지합니다. 한 번의 생성에 립싱크 대화, 효과음, 환경음, 음악을 담을 수 있고, 7개 언어에 걸친 네이티브 립싱크를 갖추었으며 별도 오디오 단계가 없습니다.

Happy Horse 1.1의 reference-to-video는 어떻게 작동하나요?

최대 9장의 참조 이미지를 전달하고, 제공한 순서대로 각 이미지를 character1부터 character9까지 인덱스로 지정합니다. 어느 피사체가 어느 이미지에서 오는지 밝힌 다음 장면과 동작을 설명합니다. Happy Horse 1.1은 각 피사체를 새 장면으로 이어가 출연진이 샷마다 알아볼 수 있게 합니다.

Happy Horse 1.1은 어떤 해상도, 길이, 화면비를 지원하나요?

Happy Horse 1.1은 720p 또는 1080p를 3~15초 클립으로 출력하며 기본은 5초입니다. 16:9, 9:16, 울트라와이드 21:9에 더해 9:21, 5:4, 4:5를 포함한 9가지 화면비를 지원합니다. 프레이밍이 액션 연출 방식을 바꾸므로 비율을 먼저 고릅니다.

Morphic에서 Happy Horse 1.1을 어떻게 사용하나요?

Morphic을 열고 프롬프트 바를 Video 모드로 전환한 뒤 Happy Horse 1.1을 고릅니다. 장면을 설명하고, image-to-video에는 정지 이미지를, reference-to-video에는 최대 9장의 참조 이미지를 첨부하고, 해상도와 화면비를 선택한 뒤 프롬프트를 실행합니다. 오디오는 같은 패스에서 생성됩니다.