L'inférence (Inference) est le processus d'utilisation d'un modèle IA entraîné pour générer des sorties à partir de nouvelles entrées, distinct de la phase d'entraînement où le modèle apprend des motifs à partir des données. Pendant l'inférence, le modèle applique ses connaissances apprises pour produire des images, vidéos ou autre contenu à partir des prompts ou entrées de conditionnement fournis par l'utilisateur.
L'inférence est coûteuse en calcul, en particulier pour les grands modèles générant des images ou vidéos haute résolution, exigeant une puissance de traitement GPU et une mémoire significatives. La vitesse d'inférence détermine le temps d'attente des utilisateurs pour que les générations se terminent ; l'optimisation des performances d'inférence est un axe majeur pour rendre la génération IA pratique pour des applications en temps réel ou à grand volume. Des techniques comme la distillation de modèles, la quantification et des moteurs d'inférence spécialisés sont utilisées pour réduire les besoins computationnels et accélérer les temps de génération.
Comprendre l'inférence comme distincte de l'entraînement aide les créateurs à saisir pourquoi certains modèles sont plus rapides que d'autres, pourquoi certaines modifications affectent la vitesse de génération et comment les ressources computationnelles impactent les flux pratiques. Pour des plateformes comme Morphic qui proposent plusieurs modèles, les coûts et vitesses d'inférence entrent en jeu dans l'allocation des crédits et le choix des modèles adaptés à chaque cas d'usage.