DALL-E
Qu’est-ce que DALL-E ?
DALL-E est le premier modèle d'IA d'OpenAI capable de générer des images à partir de descriptions textuelles, prouvant qu'un ordinateur pouvait créer de nouvelles images à partir d'instructions écrites.
En un coup d’œil
- Type of model
- Modèle de génération text-to-image
- Developed by
- OpenAI
- Key capability
- Générer des images cohérentes à partir de prompts en langage naturel, y compris des combinaisons inédites de concepts non vus pendant l'entraînement
- How it fits in AI workflow
- Le DALL-E original a établi la génération text-to-image comme une modalité pratique et est l'ancêtre de DALL-E 2 et DALL-E 3, versions actuellement utilisées dans les workflows créatifs de production
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
DALL-E est un modèle propriétaire développé et contrôlé par OpenAI, accessible via leur API et leurs produits. Stable Diffusion est un modèle open source dont les poids sont publiquement disponibles, permettant la personnalisation communautaire, le déploiement local et un large écosystème de variantes fine-tunées. DALL-E privilégie la sécurité commerciale et la facilité d'utilisation ; Stable Diffusion privilégie l'ouverture, la flexibilité et l'extension communautaire.
Astuce de pro
Comprendre le rôle historique de DALL-E aide à contextualiser l'ensemble du domaine de la génération text-to-image. Lorsque vous rencontrez de la littérature, des tutoriels ou des discussions sur la génération d'images par IA datant de 2021 et 2022, les références à DALL-E désignent généralement le modèle original ou DALL-E 2. Distinguer les trois générations selon leur contexte de sortie évite la confusion lors de l'évaluation des anciennes affirmations de capacités face aux performances des modèles actuels.
Types et variantes
- Le DALL-E original utilisait une architecture autorégressive basée sur les transformeurs et produisait des sorties de plus faible résolution par rapport à ses successeurs.
- DALL-E 2 a remplacé l'architecture par une approche basée sur la diffusion, améliorant considérablement la qualité et permettant l'inpainting et l'outpainting.
- DALL-E 3 a fait progresser davantage l'adhérence au prompt, le rendu du texte et la sophistication compositionnelle.
- Chaque version représente un modèle distinct avec des capacités différentes, bien qu'ils partagent le même concept fondateur et la même lignée de nommage.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- Contextes de recherche et d'éducation où l'importance historique et les capacités fondatrices du modèle original font l'objet d'étude.
- Premiers workflows créatifs commerciaux où les sorties de DALL-E ont été utilisées pour l'exploration de concepts et l'idéation avant la disponibilité de successeurs de meilleure qualité.
- Démonstrations de la capacité créative de l'IA à des publics non familiers avec la génération text-to-image.
- Le DALL-E original est moins couramment utilisé pour le travail de production actuel, qui repose généralement sur DALL-E 2, DALL-E 3 ou des modèles tiers.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
DALL-E est le modèle original de génération text-to-image d'OpenAI, sorti en janvier 2021. Il a démontré qu'une IA entraînée sur des paires image-texte pouvait générer de nouvelles images cohérentes à partir de descriptions en langage naturel, y compris des combinaisons inédites de concepts absents des données d'entraînement.
DALL-E a été développé par OpenAI. Le nom combine des références à Salvador Dalí et au personnage Pixar WALL-E, reflétant les ambitions créatives et technologiques du projet.
Le DALL-E original utilisait une architecture autorégressive basée sur les transformeurs et produisait des sorties de plus faible résolution. DALL-E 2 est passé à une approche basée sur la diffusion pour une qualité considérablement améliorée. DALL-E 3 a ajouté des avancées majeures en matière d'adhérence au prompt et de rendu du texte. Chacun est un modèle distinct avec des capacités différentes.
Le DALL-E original utilisait une architecture de transformeur qui traitait conjointement les tokens d'image et de texte sous forme de séquence commune. DALL-E 2 et DALL-E 3 utilisent des architectures basées sur la diffusion, devenues l'approche dominante dans la génération text-to-image.
Non. DALL-E et ses successeurs sont des modèles propriétaires développés et contrôlés par OpenAI. Ils sont accessibles via l'API et les produits intégrés d'OpenAI plutôt que disponibles sous forme de poids de modèle téléchargeables.
DALL-E a été important parce qu'il a été l'un des premiers systèmes d'IA publiquement démontrés capable de générer à grande échelle des images cohérentes et créatives à partir de descriptions ouvertes en langage naturel. Il a suscité un intérêt généralisé pour le potentiel créatif de l'IA générative et a établi le langage naturel comme interface créative pour la génération d'images.
Le DALL-E original a aujourd'hui une importance principalement historique et éducative. Les workflows créatifs actuels utilisent généralement DALL-E 3, intégré à ChatGPT et aux outils créatifs Microsoft, ou des modèles tiers qui ont surpassé l'original en qualité et en capacité.
Le DALL-E original pouvait générer une large gamme d'images à partir de prompts textuels, y compris des combinaisons conceptuelles inédites comme des objets sous des formes ou dans des contextes inhabituels. Ses sorties étaient de plus faible résolution et de moins bonne cohérence que les modèles actuels mais démontraient le principe central de la généralisation compositionnelle du langage vers l'imagerie.