CLIP

CLIP (Contrastive Language-Image Pretraining) est un modèle de réseau de neurones développé par OpenAI qui apprend à comprendre la relation entre le texte et les images en s'entraînant sur un vaste ensemble de paires image-texte. Plutôt que d'apprendre à générer des images, CLIP apprend à évaluer à quel point une image donnée correspond à une description textuelle donnée. CLIP a été fondateur pour les premiers systèmes de génération d'images guidés par le texte, où il était utilisé pour orienter le processus génératif vers des sorties correspondant à un prompt donné. Pour les créateurs et praticiens en génération IA, CLIP est pertinent comme connaissance de fond pour comprendre comment les modèles interprètent et notent les prompts par rapport à la sortie visuelle.

Can't find what you are looking for?
Contact us and let us know.
bg