Modèles de diffusion
Qu’est-ce que Modèles de diffusion ?
Les modèles de diffusion apprennent à créer des images en partant de bruit aléatoire et en le nettoyant progressivement, étape par étape, jusqu'à ce qu'une image cohérente émerge correspondant à un prompt textuel ou à d'autres instructions.
En un coup d’œil
- Aussi appelé
- Modèles de diffusion par débruitageModèles génératifs basés sur le scoreModèles de diffusion latente (pour la variante d'espace latent)
- Utilisé pour
- Génération text-to-imageéDition d'image et inpaintingGénération vidéoGénération audioFine-tuning de modèles personnalisés
- Outils courants
- Stable diffusionDALL-e 2DALL-e 3MidjourneyImagenPlateformes de génération vidéo IA
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Les Generative Adversarial Networks, ou GANs, étaient l'architecture dominante de génération d'images avant les modèles de diffusion. Les GANs utilisent deux réseaux concurrents, un générateur et un discriminateur, entraînés de manière adversariale. Bien que capables de produire des images nettes, les GANs sont instables à entraîner, sujets au mode collapse et moins diversifiés dans leurs sorties. Les modèles de diffusion sont plus stables, produisent une plus grande diversité, gèrent le conditionnement plus fiablement et s'adaptent mieux à l'ajout de calcul, c'est pourquoi ils ont remplacé les GANs comme approche dominante pour la génération d'images et de vidéos de haute qualité.
Astuce de pro
Lors de l'utilisation d'outils basés sur la diffusion, le nombre d'étapes de débruitage, souvent appelé inference steps ou sampling steps dans l'interface, affecte directement à la fois la qualité et le temps de génération. Plus d'étapes donnent au modèle plus d'opportunités d'affiner l'image, produisant généralement de meilleurs détails et une meilleure cohérence, mais chaque étape prend du temps. Pour l'exploration rapide de concepts, des nombres d'étapes plus bas produisent rapidement des résultats utilisables. Pour les générations de qualité finale, des nombres d'étapes plus élevés extraient plus de détails du modèle. Trouver le nombre minimum d'étapes qui produit une qualité acceptable pour votre cas d'usage est un moyen pratique d'équilibrer vitesse et qualité de sortie.
Types et variantes
- Les modèles de diffusion en espace pixel opèrent directement sur les pixels d'image en pleine résolution, nécessitant des ressources de calcul importantes.
- Les modèles de diffusion latente, dont Stable Diffusion, opèrent dans un espace latent compressé plutôt que directement sur les pixels, réduisant considérablement les exigences de calcul tout en maintenant la qualité de sortie.
- Les modèles basés sur le score sont une approche mathématiquement liée qui atteint une qualité de génération similaire via une formulation différente.
- Les modèles de diffusion vidéo étendent l'architecture à la dimension temporelle, générant des séquences cohérentes d'images plutôt que des images individuelles.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- Générer des images à partir de prompts textuels dans des applications créatives, commerciales et de recherche.
- Inpainting et outpainting d'images existantes en remplaçant ou en étendant des régions via une génération basée sur la diffusion.
- Fine-tuner des modèles de diffusion pré-entraînés sur des datasets personnalisés pour produire des modèles de personnages spécialisés, des générateurs cohérents en style ou des outils spécifiques à un domaine.
- Génération vidéo utilisant des architectures de modèles de diffusion temporels qui produisent un mouvement cohérent sur plusieurs images.
- Recherche sur les capacités, l'alignement et la sécurité de l'IA générative en utilisant les cadres de modèles de diffusion.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.