Happy Horse 1.1 기능과 성능
Happy Horse 1.1은 Alibaba의 비디오 모델로, fal에서 제공되며 Morphic에서 사용할 수 있습니다. 비디오와 오디오를 한 번의 패스로 함께 생성하고, 7개 언어에 걸친 네이티브 립싱크를 갖추었으며, 최대 9명의 피사체, 9가지 화면비, 1080p 출력을 지원하는 reference-to-video를 지원합니다.
| 기능 | 하는 일 | 적합한 용도 |
|---|---|---|
| 오디오·비디오 동시 생성 | 클립과 동기화된 오디오를 한 번의 패스로 생성, 별도 오디오 단계 없음 | 대화 장면, 음악 클립, 토킹헤드 |
| 다국어 립싱크 | 7개 언어로 말하고 립싱크하며, 입 모양이 음운을 따름 | 현지화 광고, 다국어 진행자 |
| reference-to-video, 최대 9명 | 최대 9명의 참조 피사체를 새 장면으로 이어가며, 각 피사체를 인덱스로 지정 | 앙상블 장면, 캐릭터 일관 시리즈 |
| image-to-video | 정지된 첫 프레임을 오디오가 있는 1080p 움직이는 클립으로 애니메이트 | 제품 컷, 키 아트, 사진 애니메이션 |
| 9가지 화면비 | 16:9와 9:16부터 울트라와이드 21:9까지, 9가지 비율로 제공 | 시네마틱, 세로, 정사각 납품 |
한 번의 패스로 오디오와 비디오 동시 생성
Happy Horse는 오디오를 나중에 더하지 않고 그림과 소리를 함께 생성합니다. 립싱크가 있는 대사, 실내 환경음, 효과음, 음악이 모두 같은 생성에서 나오므로 첫 프레임부터 움직임과 소리가 맞물립니다. 소리는 동작과 같은 프롬프트에 적습니다.
다국어 네이티브 립싱크
이 모델은 영어, 표준 중국어, 광둥어, 일본어, 한국어, 독일어, 프랑스어로 말하고 립싱크합니다. 입 모양은 근사치가 아니라 말하는 언어의 음운을 따르므로, 대화 장면과 같은 샷의 현지화 버전에 적합합니다.
최대 9명 피사체까지의 reference-to-video
최대 9장의 참조 이미지를 전달하고 프롬프트에서 각 이미지를 제공한 순서대로 character1부터 character9까지 인덱스로 지정합니다. 최대 9명이면 전체 출연진이 샷마다 알아볼 수 있게 유지됩니다. 각 피사체를 설명한 다음 장면과 동작을 적습니다.
image-to-video
제품 컷이나 캐릭터 프레임 같은 정지된 첫 프레임을 제공하고 움직임과 소리를 설명하는 프롬프트를 더하면, 모델이 그 조명과 디테일을 유지하면서 이미지에서 바깥으로 애니메이트합니다. 시작 이미지가 없을 때는 text-to-video도 실행합니다.
9가지 화면비
9가지 비율로 납품합니다: 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4, 4:5. 같은 프롬프트 틀로 울트라와이드 시네마틱 컷과 세로 소셜 컷을 포맷별 별도 워크플로 없이 만듭니다.
Happy Horse 1.1 기술 스펙
| 스펙 | Happy Horse 1.1 |
|---|---|
| 제공처 | Alibaba (fal에서 제공) |
| 모드 | text-to-video, image-to-video, reference-to-video |
| 오디오 | 네이티브, 동기화, 다국어 립싱크 |
| 언어 | 7개 (영어, 표준 중국어, 광둥어, 일본어, 한국어, 독일어, 프랑스어) |
| 해상도 | 720p 또는 1080p |
| 길이 | 3~15초 (기본 5초) |
| 화면비 | 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4, 4:5 |
| 참조 이미지 | 최대 9장 (character1~character9) |
| 프롬프트 길이 | 최대 2,500 characters |
| 출시 | 2026년 6월 |
Happy Horse 1.1 활용 사례
대화와 토킹헤드 장면
캐릭터가 동기화된 입 움직임, 실내음, 타이밍과 함께 말하며 한 번의 패스로 생성됩니다. 대사를 프롬프트에 적으면 오디오가 움직임과 함께 돌아옵니다.
다중 캐릭터 앙상블 장면
참조 이미지에서 최대 9명의 피사체를 한 장면으로 이어가며, 각 피사체를 인덱스로 불러 전체 출연진이 샷마다 알아볼 수 있게 합니다.
뮤직비디오와 퍼포먼스 클립
비디오와 오디오가 함께 생성되므로 움직임이 첫 패스부터 비트에 맞습니다. 스코어와 동기화된 움직임의 퍼포먼스 클립을 한 번의 생성으로 만듭니다.
울트라와이드 시네마틱 컷
21:9 비율로 와이드스크린 시네마틱 프레임을 만든 다음, 같은 프롬프트에서 같은 장면을 9:16 세로로 납품합니다.
다국어 광고 현지화
같은 장면과 캐릭터를 유지하면서 대사를 언어별로 바꾸고 네이티브 립싱크로, 하나의 기획을 여러 시장에 내보냅니다.
Happy Horse 1.1을 최대한 활용하는 법
Happy Horse는 움직임과 소리를 함께 명시하는 브리프와, 캐릭터를 일관되게 유지해야 할 때의 깔끔한 참조 이미지 세트를 잘 살립니다. 몇 가지 실천이 품질의 대부분을 좌우합니다:
- 항상 오디오를 명시하세요. 대화, 효과음, 환경음, 음악을 쉬운 말로 적어, 무음 클립이 아니라 모델이 움직임과 함께 소리를 생성하게 합니다.
- 사진이 아니라 움직임을 적으세요. 한 순간의 프레임이 어떻게 보이는지뿐 아니라 피사체와 카메라가 클립 동안 어떻게 움직이는지를 설명합니다.
- 참조에 인덱스를 부여하세요. reference-to-video에서는 참조 이미지를 제공한 순서대로 각 피사체를 character1, character2 등으로 지정합니다.
- 깔끔한 립싱크를 위해 대사는 짧게. 말하는 캐릭터에는 입이 보이는 정면 프레임을 쓰고 각 대사를 짧게 유지합니다.
- 한 클립에 한 동작. 하나의 액션을 몇 초에 담고, 여러 개를 한 생성에 몰아넣지 않습니다.
- 비율을 먼저 정하세요. 시네마틱 컷에는 21:9, 세로에는 9:16을 고릅니다. 프레이밍이 액션 연출 방식을 바꾸기 때문입니다.
Happy Horse 1.1 프롬프트 가이드
좋은 프롬프트는 캡션이 아니라 짧은 샷 브리프처럼 읽힙니다. 결과를 좌우하는 것은 두 가지입니다. 샷에 무엇이 담기는지에 대한 명확한 목록과, 모호한 표현 대신 구체적인 표현입니다.
프롬프트에 들어가는 것
| 요소 | 포함할 것 | 예시 |
|---|---|---|
| 피사체 | 프레임에 누가·무엇이 있는지, 구체적으로 | 유리 책상에 앉은 네이비 정장 차림의 뉴스 앵커 |
| 움직임 | 무엇이, 어떻게 움직이는지 | 그가 두 번째 카메라로 돌아서며 손짓한다 |
| 카메라 | 샷 종류와 움직임 하나 | 미디엄 샷, 천천히 들어가기 |
| 오디오 | 대화, 효과음, 환경음, 음악 | 그가 "안녕하세요"라고 말한다. 부드러운 스튜디오 실내음 |
| 포맷 | 길이와 화면비 | 10초, 16:9 |
참조와 대사 구문
reference-to-video에서는 참조 이미지를 제공한 순서대로 각 피사체를 character1, character2 등으로 지정합니다. 타이밍이 있는 대사는 립싱크가 원하는 위치에 오도록, 말하는 대사를 클립 타임라인에 맞춰 표시합니다.
character1 and character2 sit across a café table, warm window light. 0-4s: character1 says in French, "Tu as vu ça?"; 4-8s: character2 laughs and replies, "Incroyable." Soft café ambience, gentle handheld.
약한 프롬프트 vs 강한 프롬프트
카메라, 움직임과 그 타이밍, 오디오를 운에 맡기지 말고 명시합니다.
| 초점 | 약한 | 강한 |
|---|---|---|
| 카메라 | 밤 도시의 여성 | 비에 젖은 거리를 걷는 여성을 따라가는 핸드헬드 트래킹 샷, 상점 불빛이 포장도로에 반사, 얕은 피사계 심도 |
| 움직임과 타이밍 | 문이 열리고 누군가 들어온다 | 문이 천천히 열리고, 한 박자 뒤 인물이 통과한 뒤, 카메라가 미디엄 샷으로 자리잡는다 |
| 오디오 | 접시에 요리를 담는 셰프 | 접시에 요리를 담는 셰프의 클로즈업, 피어오르는 김. 오디오: 팬에서 지글거리는 소리, 부드러운 주방 환경음, 그리고 "서비스." |
흔한 실수
- 프롬프트를 무음으로 두기: 모델은 오디오를 비디오와 함께 생성하므로 항상 최소 하나의 소리 단서를 적습니다.
- 모호한 카메라: "시네마틱"은 모델에 아무것도 알려주지 않습니다. 샷과 움직임을 명시합니다.
- 인덱스 없는 참조: reference-to-video에서는 "이 참조들을 사용"이 아니라 각 피사체를 character1, character2로 라벨링합니다.
- 한 클립에 너무 많이: 한 클립에 한 액션을 유지하고, 깔끔한 립싱크를 위해 대사는 짧게 유지합니다.
자주 묻는 질문
Happy Horse 1.1은 오디오를 비디오와 함께 생성하므로 모든 프롬프트에 오디오를 명시하세요. 정지 프레임이 아니라 움직임을 설명하고, 샷 종류와 카메라 움직임 하나를 줍니다. 다중 캐릭터 장면에서는 각 피사체를 character1, character2로 인덱스하고, 깔끔한 립싱크를 위해 대사는 짧게 유지합니다. 720p로 초안을 만든 뒤 채택한 컷을 1080p로 다시 실행합니다.
네. Happy Horse 1.1은 오디오를 비디오와 함께 한 번의 패스로 생성하므로 움직임과 동기화된 상태를 유지합니다. 한 번의 생성에 립싱크 대화, 효과음, 환경음, 음악을 담을 수 있고, 7개 언어에 걸친 네이티브 립싱크를 갖추었으며 별도 오디오 단계가 없습니다.
최대 9장의 참조 이미지를 전달하고, 제공한 순서대로 각 이미지를 character1부터 character9까지 인덱스로 지정합니다. 어느 피사체가 어느 이미지에서 오는지 밝힌 다음 장면과 동작을 설명합니다. Happy Horse 1.1은 각 피사체를 새 장면으로 이어가 출연진이 샷마다 알아볼 수 있게 합니다.
Happy Horse 1.1은 720p 또는 1080p를 3~15초 클립으로 출력하며 기본은 5초입니다. 16:9, 9:16, 울트라와이드 21:9에 더해 9:21, 5:4, 4:5를 포함한 9가지 화면비를 지원합니다. 프레이밍이 액션 연출 방식을 바꾸므로 비율을 먼저 고릅니다.
Morphic을 열고 프롬프트 바를 Video 모드로 전환한 뒤 Happy Horse 1.1을 고릅니다. 장면을 설명하고, image-to-video에는 정지 이미지를, reference-to-video에는 최대 9장의 참조 이미지를 첨부하고, 해상도와 화면비를 선택한 뒤 프롬프트를 실행합니다. 오디오는 같은 패스에서 생성됩니다.

