Question 1

Qu'est-ce que l'inférence dans le contexte de la génération IA ?

Accepted Answer

L'inférence est le processus consistant à exécuter un modèle IA entraîné pour générer de nouvelles sorties ( images, vidéos, texte ou autres contenus ) à partir d'entrées utilisateur telles que des prompts ou des images de référence. C'est la phase opérationnelle qui suit l'entraînement et représente ce qui se passe réellement lorsqu'un créateur demande une génération.

Question 2

En quoi l'inférence est-elle différente de l'entraînement ?

Accepted Answer

L'entraînement est le processus consistant à construire les capacités d'un modèle en l'exposant à de grands ensembles de données et en ajustant ses paramètres au fil de nombreuses itérations : un processus computationnellement massif et ponctuel. L'inférence est le processus d'utilisation du modèle déjà entraîné pour générer de nouvelles sorties, ce qui est comparativement moins exigeant en calcul mais nécessite tout de même des ressources GPU importantes pour les grands modèles.

Question 3

Pourquoi l'inférence prend-elle du temps ?

Accepted Answer

Le temps d'inférence est déterminé par le nombre d'étapes de traitement effectuées par le modèle, la résolution de la sortie et la taille du modèle lui-même. Les modèles de diffusion, qui affinent itérativement le bruit sur plusieurs étapes de débruitage, sont particulièrement exigeants en calcul car chaque étape nécessite l'exécution de la passe avant complète du modèle : un processus qui doit être répété des dizaines ou des centaines de fois par génération.

Question 4

Quels facteurs influencent la vitesse d'inférence ?

Accepted Answer

Les principaux facteurs sont la taille du modèle (les modèles plus grands nécessitent plus de calcul par étape), le nombre d'étapes de débruitage (plus d'étapes signifient une meilleure qualité mais un temps de génération plus long), la résolution de sortie (une résolution plus élevée nécessite plus de mémoire et de calcul) et le matériel disponible (de meilleurs GPU réduisent significativement le temps d'inférence).

Question 5

Comment fonctionnent les coûts d'inférence sur les plateformes de génération IA ?

Accepted Answer

La plupart des plateformes facturent par génération en fonction du coût computationnel de l'exécution de l'inférence, qui varie selon la qualité du modèle, la résolution de sortie et la durée de génération pour la vidéo. Les modèles premium offrant une qualité de sortie supérieure coûtent généralement plus cher par génération car ils consomment plus de calcul pendant l'inférence.

Question 6

Qu'est-ce que la distillation de modèle et comment se rapporte-t-elle à l'inférence ?

Accepted Answer

La distillation de modèle est une technique permettant de créer des modèles plus petits et plus rapides qui approximent le comportement de modèles plus grands et plus performants. Les modèles distillés exécutent l'inférence beaucoup plus rapidement et à moindre coût, tout en essayant de conserver l'essentiel de la qualité de l'original. De nombreuses plateformes proposent des variantes de modèles distillés pour les cas d'usage où la vitesse importe plus que la qualité maximale.

Question 7

La qualité de l'inférence peut-elle être contrôlée par l'utilisateur ?

Accepted Answer

Oui. Sur la plupart des plateformes, les utilisateurs peuvent contrôler la qualité de l'inférence via des paramètres tels que le nombre d'étapes d'échantillonnage, l'échelle de guidage et le choix de l'échantillonneur. Plus d'étapes produisent généralement une meilleure qualité au prix de temps de génération plus longs. Certaines plateformes abstraient ces contrôles en de simples préréglages de qualité ( brouillon, standard et haute qualité ) qui ajustent automatiquement les paramètres d'inférence sous-jacents.

Question 8

Que signifie « inférence en temps réel » ?

Accepted Answer

L'inférence en temps réel désigne des configurations optimisées pour produire des sorties suffisamment rapides pour des applications interactives : dans certains cas, de manière quasi instantanée. Atteindre l'inférence en temps réel nécessite généralement l'utilisation de modèles distillés plus petits et la réduction de la résolution ou de la qualité de sortie, ce qui la rend adaptée aux aperçus en direct, aux expériences interactives ou à l'itération rapide plutôt qu'à la production finale.

Inférence

Qu’est-ce que Inférence ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Types et variantes

Prêt à créer votre première scène dans Morphic ?

Cas d’usage courants

Réalisez des scènes, créez des personnages, livrez des films entiers

FAQ