Les modèles de diffusion (Diffusion Models) sont une classe de modèles d'IA génératifs qui créent des images ou de la vidéo en apprenant à inverser un processus de bruitage progressif. Ils partent d'un bruit pur et le raffinent itérativement à travers des étapes de débruitage apprises jusqu'à ce qu'une image cohérente émerge qui correspond aux caractéristiques des données d'entraînement et aux entrées de conditionnement fournies comme les prompts texte. Cette approche forme la base de modèles comme Stable Diffusion, DALL-E 2, Imagen et de nombreux autres systèmes de génération d'images contemporains. Les modèles de diffusion représentent un changement fondamental par rapport aux approches antérieures comme les GAN. Leur capacité à produire des sorties de haute fidélité et diverses tout en étant relativement stables à entraîner en a fait l'architecture dominante dans la génération d'images et de vidéo IA moderne.