DALL-E 2
Qu’est-ce que DALL-E 2 ?
DALL-E 2 est le deuxième modèle d'image IA d'OpenAI, produisant des images plus nettes et de plus haute résolution que son prédécesseur et ajoutant la capacité d'éditer, d'étendre et de créer des variations d'images existantes.
En un coup d’œil
- Type of model
- Modèle de diffusion text-to-image avec capacités d'inpainting et d'outpainting
- Developed by
- OpenAI
- Key capability
- Générer des images 1024x1024 à partir de prompts textuels avec une qualité améliorée, plus l'inpainting, l'outpainting et la génération de variations d'images
- How it fits in AI workflow
- Utilisé pour la génération text-to-image, l'édition d'images, l'extension de contenu et l'exploration de variations dans les workflows créatifs et de production ; succédé par DALL-E 3 pour la plupart des applications professionnelles actuelles
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Compared with related concepts
DALL-E 2 vs Stable Diffusion 1. x : Les deux sont sortis en 2022 et représentent des capacités à peu près contemporaines en génération text-to-image. DALL-E 2 est propriétaire, nécessite un accès API et inclut des filtres de sécurité intégrés sans option de déploiement local. Stable Diffusion est open source, peut être exécuté localement et prend en charge une vaste personnalisation communautaire via le fine-tuning et les extensions, mais nécessite une configuration technique plus poussée. DALL-E 2 privilégie la sécurité et l'accessibilité ; Stable Diffusion privilégie l'ouverture et la flexibilité.
Astuce de pro
Les capacités d'inpainting et d'outpainting de DALL-E 2 restent utiles pour des tâches d'édition spécifiques même si des modèles de génération plus récents le surpassent en qualité d'image brute. Lorsque vous devez étendre une image existante ou remplacer une région spécifique par un contenu généré par IA qui correspond au style environnant, ces modes d'édition peuvent être plus contrôlables que de tenter la même tâche par le prompt engineering seul dans un workflow uniquement de génération.
Types et variantes
- La génération text-to-image produit de nouvelles images à partir de prompts écrits.
- L'inpainting sélectionne une région masquée d'une image existante et génère un nouveau contenu pour la remplir d'après une description textuelle.
- L'outpainting étend l'image au-delà de ses bords d'origine, générant un nouveau contenu cohérent qui correspond au style et au contexte environnants.
- Les variations d'image génèrent des versions alternatives d'une image téléchargée dans le style de l'original sans prompt textuel.
- Chaque mode utilise le même modèle sous-jacent mais avec des entrées de conditionnement et des objectifs de génération différents.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- Générer des images de concept pour des projets de design, des campagnes marketing et des workflows de création de contenu.
- Utiliser l'inpainting pour supprimer des éléments indésirables des photographies ou les remplacer par des alternatives générées par IA.
- Étendre des illustrations ou des photographies au-delà de leurs bordures d'origine à l'aide de l'outpainting pour créer des compositions plus larges.
- Générer des variations cohérentes en style à partir d'images existantes pour les tests A/B ou l'exploration créative.
- Intégrer aux workflows de développement via l'API d'OpenAI pour intégrer la capacité de génération d'images dans des applications personnalisées.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
DALL-E 2 est le modèle text-to-image de deuxième génération d'OpenAI, sorti en avril 2022. Il produit des images de plus haute résolution que le DALL-E original grâce à une architecture basée sur la diffusion et ajoute des capacités d'inpainting, d'outpainting et de variation d'images.
DALL-E 2 est passé d'une architecture autorégressive de transformeur à un modèle de diffusion, produisant des images plus nettes à plus haute résolution. Il a également ajouté des capacités d'édition d'images, dont l'inpainting et l'outpainting, que l'original ne proposait pas.
L'inpainting permet aux utilisateurs de sélectionner une région dans une image existante, puis de décrire en texte ce qui devrait remplacer cette région. Le modèle génère un nouveau contenu pour remplir la zone sélectionnée tout en correspondant au style et au contexte environnants de l'image.
L'outpainting étend une image existante au-delà des limites de sa toile d'origine, générant un nouveau contenu qui prolonge le style, l'éclairage et le contexte visuel de l'image originale dans la zone élargie.
DALL-E 2 génère des images à 1024x1024 pixels comme résolution maximale, une amélioration significative par rapport au DALL-E original qui produisait des sorties de plus faible résolution.
DALL-E 2 a été largement supplanté par DALL-E 3 pour la plupart des tâches de génération, car DALL-E 3 offre une bien meilleure adhérence au prompt et une meilleure qualité d'image. Cependant, les capacités d'inpainting et d'outpainting de DALL-E 2 peuvent encore être accessibles pour des workflows d'édition spécifiques.
DALL-E 2 utilise un système d'alignement texte-image basé sur CLIP qui relie la compréhension du langage à la génération de contenu visuel. Il gère une large gamme de types de prompts mais présente une adhérence aux prompts moins précise que DALL-E 3, en particulier pour les instructions compositionnelles complexes.
DALL-E 2 inclut des filtres de contenu qui empêchent la génération de contenu nuisible, explicite ou contrefait. Il restreint la génération de visages de personnes réelles dans certains contextes et applique des filtres conçus pour prévenir les usages abusifs, ces garde-fous étant imposés au niveau de l'API.