Réseau antagoniste génératif (GAN)

Qu’est-ce que Réseau antagoniste génératif (GAN) ?

Un GAN est un système d'IA où deux réseaux s'affrontent : l'un tente de créer des fausses images convaincantes, l'autre tente de repérer les fausses : et grâce à cette compétition, le générateur s'améliore pour produire des résultats de plus en plus réalistes.

En un coup d’œil

Aussi appelé
GANRéseau antagonisteRéseau générateur-discriminateur
Utilisé pour
Synthèse d'imagesGénération vidéoTransfert de styleGénération de visagesUpscaling d'imageTranslation de domaine
Outils courants
StyleGANPix2PixCycleGANBigGANESRGAN
Termes liés
Diffusion modelLatent spaceNeural networkStyleGANImage synthesisDiscriminator

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

Comparaison

Comparaison

GANmodèle de diffusion

les GAN génèrent des images en une seule passe avant à travers le générateur, ce qui les rend rapides mais parfois instables à entraîner et sujets au mode collapse. Les modèles de diffusion génèrent les images par un processus itératif de débruitage, plus lent mais généralement plus stable, plus contrôlable et capable d'une plus grande diversité et qualité. La plupart des outils de génération d'image et de vidéo de premier plan sont passés à des architectures basées sur la diffusion, bien que les GAN restent préférés lorsque la vitesse est critique.


Imaginez plutôt…

Pensez à un GAN comme à un faussaire et un détective d'art en compétition. Le faussaire (générateur) continue de produire de fausses peintures pour les faire passer pour des originaux, tandis que le détective (discriminateur) étudie à la fois les œuvres réelles et fausses pour mieux repérer les contrefaçons. Au fur et à mesure que le détective s'améliore, le faussaire doit travailler plus dur pour le tromper : et grâce à ce va-et-vient, le faussaire devient finalement extraordinairement doué pour produire des contrefaçons convaincantes.


Astuce de pro

Lorsque vous évaluez des outils IA pour des applications en temps réel comme l'amélioration vidéo en direct ou la génération rapide de portraits, vérifiez s'ils utilisent une approche basée sur GAN. Les GAN peuvent être nettement plus rapides à l'inférence que les modèles de diffusion, ce qui compte lorsque la latence est une contrainte.

Types et variantes

  • La famille des GAN comprend de nombreuses architectures distinctes conçues pour différentes tâches.
  • DCGAN ( Deep Convolutional GAN ) a établi l'usage de couches convolutionnelles pour la génération d'images.
  • Progressive GAN et StyleGAN ont amélioré la résolution et le contrôle, StyleGAN devenant le standard pour la synthèse de visages de haute qualité.
  • Les GAN conditionnels (cGAN) permettent de guider la génération par des étiquettes de classe ou d'autres conditions d'entrée.
  • Pix2Pix réalise la translation image-vers-image avec des données d'entraînement appariées, tandis que CycleGAN obtient une translation similaire sans exemples appariés.
  • ESRGAN applique l'entraînement antagoniste à la super-résolution d'image.
  • Des approches hybrides plus récentes combinent des composantes GAN avec des éléments de diffusion ou de transformer pour hériter des avantages de chaque paradigme.

Prêt à créer votre première scène dans Morphic ?

Essayer Morphic

Cas d’usage courants

  • Les GAN ont été largement utilisés dans les applications IA créatives et commerciales.
  • Les usages courants incluent la génération de données d'entraînement synthétiques pour d'autres modèles de machine learning, la production de visages humains réalistes pour avatars et banques d'images, l'amélioration et l'upscaling vidéo en temps réel, le transfert de styles artistiques entre images et la motorisation d'outils d'animation de portrait.
  • En diffusion et post-production, les upscalers basés sur GAN sont utilisés pour améliorer des séquences d'archives ou basse résolution.
  • Les techniques de deepfake : à la fois les applications nuisibles et les applications légitimes comme le remplacement de visage au cinéma : dérivent également des architectures GAN.

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

FAQ

Que signifie GAN ?

GAN signifie Generative Adversarial Network ( réseau antagoniste génératif ). Le terme 'adversarial' renvoie à la relation compétitive entre les deux réseaux ( le générateur et le discriminateur ) qui pilote le processus d'entraînement.

Qui a inventé les GAN ?

Les GAN ont été introduits par Ian Goodfellow et ses collègues de l'Université de Montréal dans un article de 2014. L'idée aurait été conçue lors d'une discussion dans un pub et développée en prototype fonctionnel le soir même.

Les GAN sont-ils encore utilisés aujourd'hui ?

Oui, même si les modèles de diffusion ont pris le dessus comme architecture dominante pour la qualité de génération d'image et de vidéo. Les GAN restent largement utilisés dans l'amélioration vidéo en temps réel, la génération de visages, les outils d'upscaling comme ESRGAN et les applications où la vitesse d'inférence est une priorité.

Qu'est-ce que le mode collapse dans un GAN ?

Le mode collapse est un échec d'entraînement où le générateur apprend à ne produire qu'une plage étroite de sorties qui trompent de manière fiable le discriminateur, plutôt que la pleine diversité des données d'entraînement. Par exemple, un GAN de visages pourrait s'effondrer en ne générant que quelques visages semblables. C'est l'un des défis clés de l'entraînement des GAN.

En quoi les GAN diffèrent-ils des modèles de diffusion ?

Les GAN génèrent une sortie en une seule passe à travers le réseau générateur, ce qui les rend rapides. Les modèles de diffusion génèrent les sorties en débruitant de manière itérative sur de nombreuses étapes, ce qui est plus lent mais produit généralement des résultats plus diversifiés et de meilleure qualité. La plupart des outils génératifs de pointe utilisent désormais des modèles de diffusion.

Qu'est-ce que StyleGAN ?

StyleGAN est une architecture GAN très influente développée par NVIDIA qui a introduit un contrôle de type 'style' sur les attributs des images générées, permettant une qualité et un contrôle sans précédent pour la génération de visages et de portraits. Elle a connu plusieurs versions (StyleGAN2, StyleGAN3) et reste l'une des variantes de GAN les plus étudiées.

Les GAN peuvent-ils générer de la vidéo aussi bien que des images ?

Oui. Les GAN vidéo étendent le cadre d'entraînement antagoniste aux séquences temporelles, en entraînant le générateur à produire des clips multi-images cohérents. Les exemples incluent VideoGAN et MoCoGAN. Cependant, la qualité de la génération vidéo par GAN a finalement été dépassée par les modèles vidéo basés sur la diffusion.

Can't find what you are looking for?
Contact us and let us know.
bg