Happy Horse 1.1 : guide complet, prompts et fonctionnalités

Le guide complet de Happy Horse 1.1 sur Morphic : ce que fait le modèle audio-vidéo conjoint d'Alibaba, ses specs, l'audio natif et la synchro labiale, le reference-to-video avec jusqu'à 9 sujets, et le prompting avec des exemples.

Essayer sur Morphic

Fonctionnalités et capacités de Happy Horse 1.1

Happy Horse 1.1 est le modèle vidéo d'Alibaba, servi sur fal et disponible sur Morphic. Il génère la vidéo et l'audio ensemble en une seule passe, avec une synchro labiale native dans sept langues, et prend en charge le reference-to-video avec jusqu'à neuf sujets, neuf formats d'image et une sortie 1080p.

Fonctionnalité	Ce qu'elle fait	Idéale pour
Audio et vidéo conjoints	Génère le clip et son audio synchronisé en une seule passe, sans étape audio séparée	Scènes de dialogue, clips musicaux, têtes parlantes
Synchro labiale multilingue	Parle et synchronise les lèvres dans 7 langues, avec des formes de bouche qui suivent la phonétique	Pubs localisées, présentateurs multilingues
Reference-to-video, jusqu'à 9	Reporte jusqu'à neuf sujets de référence dans une nouvelle scène, chacun appelé par index	Scènes d'ensemble, séries à personnages reconnaissables
Image-to-video	Anime une première image fixe en un clip 1080p en mouvement avec audio	Plans produit, key art, animation de photos
Neuf formats d'image	Livre du 16:9 et 9:16 au ultrawide 21:9, en neuf formats	Livraison cinéma, vertical et carré

Audio et vidéo conjoints en une seule passe

Happy Horse génère l'image et le son ensemble plutôt que d'ajouter l'audio après coup. Le dialogue parlé avec synchro labiale, l'ambiance sonore de la pièce, les effets sonores et la musique sortent tous de la même génération, si bien que le mouvement et le son s'alignent dès la première image. Vous décrivez le son dans le même prompt que l'action.

Synchro labiale native multilingue

Le modèle parle et synchronise les lèvres en anglais, mandarin, cantonais, japonais, coréen, allemand et français. Les formes de bouche suivent la phonétique de la langue parlée plutôt que d'être approximées, ce qui en fait un bon choix pour les scènes de dialogue et les versions localisées d'un même plan.

Reference-to-video avec jusqu'à 9 sujets

Passez jusqu'à neuf images de référence et désignez chacune par index dans le prompt, de character1 à character9 dans l'ordre où vous les fournissez. Avec jusqu'à neuf sujets, un casting complet reste reconnaissable d'un plan à l'autre. Décrivez chaque sujet, puis la scène et l'action.

Image-to-video

Fournissez une première image fixe, comme un plan produit ou une image de personnage, ajoutez un prompt décrivant le mouvement et le son, et le modèle anime à partir de cette image tout en conservant sa lumière et ses détails. Il fait aussi du text-to-video quand vous n'avez pas d'image de départ.

Neuf formats d'image

Livrez en neuf formats : 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4 et 4:5. Le même cadre de prompt produit un montage cinéma ultrawide et un montage social vertical sans workflow distinct par format.

Specs techniques de Happy Horse 1.1

Spec	Happy Horse 1.1
Fournisseur	Alibaba (servi sur fal)
Modes	Texte vers vidéo, image vers vidéo, référence vers vidéo
Audio	Natif, synchronisé, avec synchro labiale multilingue
Langues	7 (anglais, mandarin, cantonais, japonais, coréen, allemand, français)
Résolution	720p ou 1080p
Durée	3 à 15 secondes (5 par défaut)
Formats d'image	16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4, 4:5
Images de référence	Jusqu'à 9 (character1 à character9)
Longueur du prompt	Jusqu'à 2,500 characters
Sortie	Juin 2026

Un présentateur lit le titre du journal du soir, son studio synchroniséEssayer maintenant

Cas d'usage de Happy Horse 1.1

Scènes de dialogue et de têtes parlantes

Les personnages parlent avec un mouvement des lèvres synchronisé, l'ambiance de la pièce et le timing, générés en une seule passe. Écrivez la réplique dans le prompt et l'audio revient avec le mouvement.

Scènes d'ensemble multi-personnages

Reportez jusqu'à neuf sujets d'images de référence dans une seule scène, en appelant chacun par index pour que tout le casting reste reconnaissable d'un plan à l'autre.

Clips musicaux et de performance

Comme la vidéo et l'audio se génèrent ensemble, le mouvement tombe sur le tempo dès la première passe. Construisez un clip de performance avec une bande-son et un mouvement synchronisé en une seule génération.

Montages cinéma ultrawide

Utilisez le format 21:9 pour un cadre cinéma en grand écran, puis livrez la même scène en vertical 9:16 à partir du même prompt.

Localisation de pubs multilingues

Gardez la même scène et les mêmes personnages et changez le dialogue d'une langue à l'autre avec synchro labiale native, pour qu'un seul traitement parte dans plusieurs marchés.

Comment tirer le meilleur de Happy Horse 1.1

Happy Horse récompense un brief qui nomme ensemble le mouvement et le son, et un jeu propre d'images de référence quand les personnages doivent rester identiques. Quelques pratiques portent l'essentiel de la qualité :

Nommez toujours l'audio. Dialogue, effets sonores, ambiance ou musique en langage clair, pour que le modèle génère le son avec le mouvement au lieu d'un clip silencieux.
Écrivez du mouvement, pas une photo. Décrivez comment le sujet et la caméra bougent au fil du clip, pas seulement à quoi ressemble l'image à un instant donné.
Indexez vos références. Pour le reference-to-video, désignez chaque sujet par character1, character2, et ainsi de suite, dans l'ordre où vous fournissez les images de référence.
Gardez les répliques courtes pour une synchro labiale propre. Pour les personnages qui parlent, utilisez un cadre de face avec la bouche visible et gardez chaque réplique brève.
Un temps par clip. Concentrez une seule action sur quelques secondes plutôt que d'en entasser plusieurs dans une génération.
Choisissez le format d'emblée. Optez pour le 21:9 pour un montage cinéma ou le 9:16 pour le vertical, car le cadrage change la façon de mettre en scène l'action.

Guide de prompt Happy Horse 1.1

Un bon prompt se lit comme un court brief de plan, pas comme une légende. Deux choses déterminent le résultat : une liste claire de ce que contient le plan, et une formulation concrète à la place d'une formulation vague.

Ce qui entre dans un prompt

Élément	Ce qu'il faut inclure	Exemple
Sujet	Qui ou quoi est dans le cadre, décrit concrètement	un présentateur de journal en costume bleu marine à un bureau en verre
Mouvement	Ce qui bouge, et comment	il se tourne vers une seconde caméra et fait un geste
Caméra	Type de plan plus un mouvement	plan moyen, lent travelling avant
Audio	Dialogue, effets, ambiance ou musique	il dit : « Bonsoir » ; douce ambiance de studio
Format	Durée et format d'image	10 secondes, 16:9

Syntaxe de référence et de dialogue

Pour le reference-to-video, désignez chaque sujet par character1, character2, et ainsi de suite, dans l'ordre où vous fournissez les images de référence. Pour un dialogue minuté, marquez les répliques parlées sur la timeline du clip afin que la synchro labiale tombe là où vous le voulez.

Référence et dialogue minuté

character1 et character2 sont attablés face à face dans un café, lumière chaude de fenêtre. 0-4 s : character1 dit en français « Tu as vu ça ? » ; 4-8 s : character2 rit et répond « Incroyable. » Douce ambiance de café, caméra portée discrète.

Modifier le prompt

Prompts faibles vs forts

Nommez la caméra, le mouvement et son timing, et l'audio plutôt que de les laisser au hasard.

Focus	Faible	Fort
Caméra	Une femme dans une ville la nuit	Plan de suivi à l'épaule d'une femme à travers des rues luisantes de pluie, lumières des boutiques se reflétant sur le pavé, faible profondeur de champ
Mouvement et timing	La porte s'ouvre et quelqu'un entre	La porte s'ouvre lentement, une silhouette passe après un temps, puis la caméra se cale sur un plan moyen
Audio	Un chef dresse un plat	Gros plan d'un chef dressant un plat, vapeur qui monte. Audio : grésillement de poêle, douce ambiance de cuisine, et « Service. »

Erreurs courantes

Laisser le prompt silencieux : écrivez toujours au moins une indication sonore, car le modèle génère l'audio avec la vidéo.
Caméra vague : « cinématographique » ne dit rien au modèle ; nommez le plan et le mouvement.
Références non indexées : pour le reference-to-video, étiquetez chaque sujet par character1, character2, plutôt que « utilise ces références ».
Trop dans un clip : gardez une action par clip, et gardez les répliques courtes pour une synchro labiale propre.

Tarifs simples

Commencez gratuitement dès aujourd'hui, avec la possibilité de mettre à niveau ou d'annuler à tout moment.

Basic

/ mois

facturé comme $0 par an

900 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Standard

/ mois

facturé comme $0 par an

3200 mensuel crédits

1 utilisateur uniquement

Tous les modèles

Workflows

Pro

/ mois

facturé comme $0 par an

6200 partagé mensuel crédits

1 utilisateur

+ jusqu'à 4 plus à un coût supplémentaire

Tous les modèles

Workflows

Pro Max

/ mois

facturé comme $0 par an

24000 partagé mensuel crédits

1 utilisateur

+ jusqu'à 9 plus à un coût supplémentaire

Tous les modèles

Workflows

Enterprise

Pour des limites plus élevées

Personnalisé

conditions de tarification et de facturation

Crédits à haut volume

Limites de sièges personnalisées

Tous les modèles

Workflows

Free

For playing around

forever free

Jusqu'à 20 crédits

1 utilisateur uniquement

Modèles limités

Workflows

Comparer les détails des plans

Questions fréquentes

Comment obtenir les meilleurs résultats avec Happy Horse 1.1 ?

Nommez l'audio dans chaque prompt, puisque Happy Horse 1.1 génère le son avec la vidéo. Décrivez le mouvement plutôt qu'une image fixe, et donnez un type de plan avec un mouvement de caméra. Pour les scènes multi-personnages, indexez chaque sujet par character1, character2, et gardez les répliques courtes pour une synchro labiale propre. Faites un brouillon en 720p, puis relancez le plan retenu en 1080p.

Happy Horse 1.1 génère-t-il de l'audio ?

Oui. Happy Horse 1.1 génère l'audio avec la vidéo en une seule passe, si bien qu'il reste synchronisé avec le mouvement. Une génération peut inclure un dialogue en synchro labiale, des effets sonores, de l'ambiance et de la musique, avec une synchro labiale native dans sept langues et sans étape audio séparée.

Comment fonctionne le reference-to-video dans Happy Horse 1.1 ?

Passez jusqu'à neuf images de référence et désignez chacune par index, de character1 à character9, dans l'ordre où vous les fournissez. Indiquez quel sujet vient de quelle image, puis décrivez la scène et l'action. Happy Horse 1.1 reporte chaque sujet dans la nouvelle scène pour qu'un casting reste reconnaissable d'un plan à l'autre.

Quelles résolutions, durées et formats d'image Happy Horse 1.1 prend-il en charge ?

Happy Horse 1.1 sort du 720p ou du 1080p en clips de 3 à 15 secondes, avec 5 secondes par défaut. Il prend en charge neuf formats d'image, dont le 16:9, le 9:16 et l'ultrawide 21:9, plus le 9:21, 5:4 et 4:5. Choisissez le format en premier, car le cadrage change la façon de mettre en scène l'action.

Comment utiliser Happy Horse 1.1 sur Morphic ?

Ouvrez Morphic, basculez la barre de prompt en mode Vidéo et choisissez Happy Horse 1.1. Décrivez la scène, attachez une image fixe pour l'image-to-video ou jusqu'à neuf images de référence pour le reference-to-video, choisissez une résolution et un format d'image, puis lancez le prompt. L'audio se génère dans la même passe.