Modèles de diffusion
Qu’est-ce que Modèles de diffusion ?
Les modèles de diffusion apprennent à créer des images en partant de bruit aléatoire et en le nettoyant progressivement, étape par étape, jusqu'à ce qu'une image cohérente émerge correspondant à un prompt textuel ou à d'autres instructions.
En un coup d’œil
- Aussi appelé
- Modèles de diffusion par débruitageModèles génératifs basés sur le scoreModèles de diffusion latente (pour la variante d'espace latent)
- Utilisé pour
- Génération text-to-imageéDition d'image et inpaintingGénération vidéoGénération audioFine-tuning de modèles personnalisés
- Outils courants
- Stable diffusionDALL-e 2DALL-e 3MidjourneyImagenPlateformes de génération vidéo IA
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Les Generative Adversarial Networks, ou GANs, étaient l'architecture dominante de génération d'images avant les modèles de diffusion. Les GANs utilisent deux réseaux concurrents, un générateur et un discriminateur, entraînés de manière adversariale. Bien que capables de produire des images nettes, les GANs sont instables à entraîner, sujets au mode collapse et moins diversifiés dans leurs sorties. Les modèles de diffusion sont plus stables, produisent une plus grande diversité, gèrent le conditionnement plus fiablement et s'adaptent mieux à l'ajout de calcul, c'est pourquoi ils ont remplacé les GANs comme approche dominante pour la génération d'images et de vidéos de haute qualité.
Astuce de pro
Lors de l'utilisation d'outils basés sur la diffusion, le nombre d'étapes de débruitage, souvent appelé inference steps ou sampling steps dans l'interface, affecte directement à la fois la qualité et le temps de génération. Plus d'étapes donnent au modèle plus d'opportunités d'affiner l'image, produisant généralement de meilleurs détails et une meilleure cohérence, mais chaque étape prend du temps. Pour l'exploration rapide de concepts, des nombres d'étapes plus bas produisent rapidement des résultats utilisables. Pour les générations de qualité finale, des nombres d'étapes plus élevés extraient plus de détails du modèle. Trouver le nombre minimum d'étapes qui produit une qualité acceptable pour votre cas d'usage est un moyen pratique d'équilibrer vitesse et qualité de sortie.
Types et variantes
- Les modèles de diffusion en espace pixel opèrent directement sur les pixels d'image en pleine résolution, nécessitant des ressources de calcul importantes.
- Les modèles de diffusion latente, dont Stable Diffusion, opèrent dans un espace latent compressé plutôt que directement sur les pixels, réduisant considérablement les exigences de calcul tout en maintenant la qualité de sortie.
- Les modèles basés sur le score sont une approche mathématiquement liée qui atteint une qualité de génération similaire via une formulation différente.
- Les modèles de diffusion vidéo étendent l'architecture à la dimension temporelle, générant des séquences cohérentes d'images plutôt que des images individuelles.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- Générer des images à partir de prompts textuels dans des applications créatives, commerciales et de recherche.
- Inpainting et outpainting d'images existantes en remplaçant ou en étendant des régions via une génération basée sur la diffusion.
- Fine-tuner des modèles de diffusion pré-entraînés sur des datasets personnalisés pour produire des modèles de personnages spécialisés, des générateurs cohérents en style ou des outils spécifiques à un domaine.
- Génération vidéo utilisant des architectures de modèles de diffusion temporels qui produisent un mouvement cohérent sur plusieurs images.
- Recherche sur les capacités, l'alignement et la sécurité de l'IA générative en utilisant les cadres de modèles de diffusion.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
Un modèle de diffusion est un type d'IA générative qui crée des images en apprenant à inverser un processus d'ajout de bruit. En partant de bruit aléatoire, il supprime progressivement le bruit étape par étape jusqu'à ce qu'une image cohérente émerge, guidée par un prompt textuel ou une autre entrée de conditionnement.
Les modèles de diffusion produisent des sorties de haute qualité et diversifiées, sont plus stables à entraîner et meilleurs pour suivre le conditionnement textuel que les architectures génératives antérieures comme les GANs. Leur capacité à s'adapter au calcul et à gérer une large gamme d'entrées de conditionnement en a fait l'architecture dominante de la génération moderne d'images et de vidéos par IA.
Un modèle de diffusion latente opère dans une représentation compressée de l'image appelée espace latent plutôt que directement sur les pixels en pleine résolution. Cela réduit considérablement les exigences de calcul tout en maintenant la qualité de sortie, et c'est l'approche utilisée par Stable Diffusion et de nombreux autres systèmes de génération d'images de production.
Un encodeur de texte convertit le prompt écrit en une représentation numérique fournie au réseau de débruitage à chaque étape, guidant la direction dans laquelle le processus de débruitage doit aller pour produire une image cohérente avec le prompt plutôt qu'une image statistiquement plausible quelconque.
Les étapes de débruitage sont les itérations individuelles de suppression de bruit que le modèle de diffusion effectue pour produire une image finale. Plus d'étapes donnent au modèle plus d'opportunités d'affiner l'image, améliorant généralement la qualité et le détail, mais chaque étape nécessite du temps de calcul. Des nombres d'étapes plus bas génèrent plus rapidement mais peuvent produire des résultats moins raffinés.
La plupart des principaux outils text-to-image utilisent des architectures de modèles de diffusion, dont Stable Diffusion, DALL-E 2, DALL-E 3, Midjourney et Imagen. La plupart des modèles contemporains de génération vidéo par IA sont également basés sur la diffusion ou fortement influencés par les principes des modèles de diffusion.
Les GANs utilisent des réseaux générateur et discriminateur concurrents entraînés de manière adversariale et étaient l'approche dominante avant les modèles de diffusion. Les GANs sont sujets à l'instabilité et à une diversité limitée. Les modèles de diffusion sont plus stables à entraîner, produisent des sorties plus diversifiées et gèrent le conditionnement textuel plus fiablement, c'est pourquoi ils ont remplacé les GANs pour la plupart des applications de génération de haute qualité.
Oui. Les modèles de diffusion vidéo étendent l'architecture pour inclure la dimension temporelle, générant des séquences cohérentes d'images plutôt que des images individuelles. La plupart des systèmes modernes de génération vidéo par IA sont construits sur ou significativement influencés par les principes des modèles de diffusion appliqués aux séquences temporelles.