Inférence
Qu’est-ce que Inférence ?
L'inférence est ce qui se passe lorsque vous cliquez sur « générer » : l'IA applique tout ce qu'elle a appris durant l'entraînement pour produire une nouvelle image ou vidéo à partir de votre prompt.
En un coup d’œil
- Aussi appelé
- Inférence de modèleGénérationPasse avant
- Utilisé pour
- Générer des images et vidéos à partir de promptsExécuter des modèles IA pour produire de nouvelles sortiesAppliquer les connaissances d'un modèle entraîné aux entrées utilisateur
- Outils courants
- Stable diffusionMidjourneyRunwayKlingToute plateforme de génération IA
- Termes liés
- Diffusion modelsSamplingCFG scaleLatent spaceModel distillation
- How it works in simple terms
- Un modèle IA entraîné contient des motifs et paramètres appris. Lors de l'inférence, le modèle prend votre entrée ( un prompt textuel, une image de référence ou un autre conditionnement ) et la fait passer par ces paramètres appris en une seule passe avant, produisant une sortie qui reflète à la fois les motifs des données d'entraînement et le guidage spécifique que vous avez fourni.
- Where you encounter this
- L'inférence se produit chaque fois que vous générez du contenu avec un outil IA. Le temps d'attente entre la soumission d'un prompt et la réception d'un résultat est le temps d'inférence. La tarification au coût par génération sur les plateformes IA reflète le coût computationnel de l'exécution de l'inférence. Lorsque les plateformes proposent des options de vitesse : qualité brouillon contre haute qualité, ou différentes tailles de modèles : elles proposent différentes configurations d'inférence.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Compared with related concepts
L'inférence est la contrepartie opérationnelle de l'entraînement. L'entraînement est le processus computationnellement massif et ponctuel consistant à construire les capacités d'un modèle à partir de millions d'exemples ; l'inférence est le calcul comparativement plus petit qui exécute le modèle entraîné pour produire des sorties individuelles. Un modèle entraîné une seule fois peut ensuite être utilisé pour d'innombrables exécutions d'inférence, ce qui explique pourquoi les grandes entreprises investissent massivement dans l'entraînement mais peuvent proposer l'inférence à des coûts par génération relativement faibles.
Astuce de pro
Lorsque vous rencontrez des temps de génération lents ou que vous souhaitez réduire les coûts, recherchez des paramètres qui contrôlent les étapes d'inférence ou les niveaux de qualité. Réduire les étapes par rapport au défaut peut produire des sorties plus rapides et de moindre fidélité, adaptées à l'exploration de concepts, tandis que maximiser les étapes et la résolution consomme plus de calcul pour produire le résultat de la plus haute qualité pour la production finale.
Types et variantes
- Les configurations d'inférence varient selon le nombre d'étapes d'échantillonnage utilisées (plus d'étapes produisent généralement une meilleure qualité mais prennent plus de temps), l'échelle de guidage appliquée (la mesure dans laquelle le modèle suit le prompt), la résolution d'image demandée et l'architecture sous-jacente du modèle.
- L'inférence par lots permet à plusieurs générations de s'exécuter simultanément, améliorant le débit.
- L'inférence en temps réel optimise la vitesse au-dessus de la qualité, permettant une génération quasi instantanée pour les applications interactives.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- L'inférence est au cœur de chaque flux de génération IA.
- C'est ce qui se produit lors de la génération d'images à partir de prompts, de la création de vidéos à partir de texte ou d'images de référence, de l'exécution de transferts de style, de l'inpainting, de l'agrandissement d'images, ou de l'utilisation de tout modèle IA pour produire un nouveau contenu.
- Comprendre l'inférence aide les créateurs à gérer les coûts de génération, à interpréter les compromis entre vitesse et qualité, et à faire des choix éclairés sur les modèles et paramètres à utiliser pour différentes tâches.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
L'inférence est le processus consistant à exécuter un modèle IA entraîné pour générer de nouvelles sorties ( images, vidéos, texte ou autres contenus ) à partir d'entrées utilisateur telles que des prompts ou des images de référence. C'est la phase opérationnelle qui suit l'entraînement et représente ce qui se passe réellement lorsqu'un créateur demande une génération.
L'entraînement est le processus consistant à construire les capacités d'un modèle en l'exposant à de grands ensembles de données et en ajustant ses paramètres au fil de nombreuses itérations : un processus computationnellement massif et ponctuel. L'inférence est le processus d'utilisation du modèle déjà entraîné pour générer de nouvelles sorties, ce qui est comparativement moins exigeant en calcul mais nécessite tout de même des ressources GPU importantes pour les grands modèles.
Le temps d'inférence est déterminé par le nombre d'étapes de traitement effectuées par le modèle, la résolution de la sortie et la taille du modèle lui-même. Les modèles de diffusion, qui affinent itérativement le bruit sur plusieurs étapes de débruitage, sont particulièrement exigeants en calcul car chaque étape nécessite l'exécution de la passe avant complète du modèle : un processus qui doit être répété des dizaines ou des centaines de fois par génération.
Les principaux facteurs sont la taille du modèle (les modèles plus grands nécessitent plus de calcul par étape), le nombre d'étapes de débruitage (plus d'étapes signifient une meilleure qualité mais un temps de génération plus long), la résolution de sortie (une résolution plus élevée nécessite plus de mémoire et de calcul) et le matériel disponible (de meilleurs GPU réduisent significativement le temps d'inférence).
La plupart des plateformes facturent par génération en fonction du coût computationnel de l'exécution de l'inférence, qui varie selon la qualité du modèle, la résolution de sortie et la durée de génération pour la vidéo. Les modèles premium offrant une qualité de sortie supérieure coûtent généralement plus cher par génération car ils consomment plus de calcul pendant l'inférence.
La distillation de modèle est une technique permettant de créer des modèles plus petits et plus rapides qui approximent le comportement de modèles plus grands et plus performants. Les modèles distillés exécutent l'inférence beaucoup plus rapidement et à moindre coût, tout en essayant de conserver l'essentiel de la qualité de l'original. De nombreuses plateformes proposent des variantes de modèles distillés pour les cas d'usage où la vitesse importe plus que la qualité maximale.
Oui. Sur la plupart des plateformes, les utilisateurs peuvent contrôler la qualité de l'inférence via des paramètres tels que le nombre d'étapes d'échantillonnage, l'échelle de guidage et le choix de l'échantillonneur. Plus d'étapes produisent généralement une meilleure qualité au prix de temps de génération plus longs. Certaines plateformes abstraient ces contrôles en de simples préréglages de qualité ( brouillon, standard et haute qualité ) qui ajustent automatiquement les paramètres d'inférence sous-jacents.
L'inférence en temps réel désigne des configurations optimisées pour produire des sorties suffisamment rapides pour des applications interactives : dans certains cas, de manière quasi instantanée. Atteindre l'inférence en temps réel nécessite généralement l'utilisation de modèles distillés plus petits et la réduction de la résolution ou de la qualité de sortie, ce qui la rend adaptée aux aperçus en direct, aux expériences interactives ou à l'itération rapide plutôt qu'à la production finale.