DreamBooth
Qu’est-ce que DreamBooth ?
DreamBooth est une technique d'entraînement d'un modèle d'image IA sur un petit ensemble de photos d'un sujet spécifique, afin de pouvoir générer ce sujet dans de nouvelles situations, styles et contextes.
En un coup d’œil
- Type of model
- Technique de fine-tuning pour personnaliser des modèles text-to-image à diffusion existants
- Developed by
- Google Research
- Key capability
- Entraîner un modèle de génération d'images IA sur trois à trente images d'un sujet spécifique afin de permettre la génération de ce sujet dans de nouveaux contextes, poses et styles
- How it fits in AI workflow
- Utilisé pour créer des modèles de personnages personnalisés, des outils visuels cohérents avec une marque et des générateurs personnalisés au sein des pipelines de production IA ; généralement appliqué aux modèles et workflows basés sur Stable Diffusion
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
DreamBooth produit un checkpoint de modèle complètement affiné et atteint généralement une personnalisation forte et exhaustive du sujet à travers divers contextes de prompt. LoRA est une approche de fine-tuning plus efficiente sur le plan computationnel qui entraîne un petit ensemble de poids supplémentaires plutôt que l'ensemble du modèle, nécessitant moins de stockage et de temps d'entraînement tout en atteignant une personnalisation solide mais parfois moins exhaustive. En pratique, DreamBooth avec LoRA combine les deux approches, en utilisant la méthodologie d'entraînement DreamBooth avec le framework d'efficience LoRA pour équilibrer qualité et besoins en ressources.
Astuce de pro
La curation des images pour l'entraînement DreamBooth a un impact disproportionné sur la qualité du résultat. Plutôt que de collecter autant d'images que possible, privilégiez dix à vingt images variées et de haute qualité montrant le sujet sous des angles différents, avec des conditions de lumière différentes et des arrière-plans différents. Inclure des quasi-doublons, plusieurs images très similaires ou des images comportant d'autres éléments visuellement dominants enseigne au modèle les mauvais motifs. La variété au sein d'un petit ensemble bien curé l'emporte systématiquement sur de larges ensembles d'images redondantes.
Types et variantes
- Le fine-tuning DreamBooth complet met à jour tout ou la majeure partie des poids du modèle sur le jeu de données du sujet, produisant une personnalisation exhaustive et flexible mais nécessitant plus de stockage puisqu'un checkpoint complet du modèle est généré.
- DreamBooth avec LoRA combine l'approche DreamBooth avec le framework de fine-tuning efficient LoRA, réduisant les besoins de stockage et le temps d'entraînement tout en conservant de solides résultats de personnalisation.
- L'entraînement DreamBooth spécifique à une classe utilise une prior preservation loss, en entraînant le modèle avec des images génériques supplémentaires de la classe pour empêcher le fine-tuning de dégrader la capacité générale du modèle pendant qu'il apprend le sujet spécifique.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- Entraîner un modèle de personnage personnalisé à partir d'un petit ensemble d'images de référence pour générer ce personnage de manière cohérente à travers de nombreux prompts et scènes différents.
- Créer un modèle de génération propre à une marque entraîné sur des images produit, permettant une visualisation produit cohérente dans tout contexte décrit dans un prompt.
- Personnaliser un modèle de génération d'images avec un style artistique spécifique en l'entraînant sur un ensemble curé d'images de référence stylistiquement cohérentes.
- Construire un porte-parole ou un avatar IA récurrent à partir d'un jeu de photographies pour usage dans des contenus marketing, éducatifs et de communication.
- Affiner des modèles pour des applications créatives spécialisées lorsque le modèle de base par défaut ne fonctionne pas bien sur les sujets ou styles spécifiquement requis.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
DreamBooth est une technique de fine-tuning qui entraîne un modèle de génération d'images IA existant sur un petit ensemble d'images, généralement de trois à trente, représentant un sujet spécifique. Le modèle entraîné peut ensuite générer ce sujet dans tout contexte, style ou pose décrit dans un prompt.
DreamBooth peut fonctionner avec aussi peu que trois à cinq images pour des résultats basiques, mais dix à trente images soigneusement curées et variées produisent généralement des sorties plus flexibles et cohérentes. La qualité et la variété des images comptent plus que le volume.
DreamBooth a été développé par des chercheurs de Google et décrit dans un article publié en 2022. Il a depuis été largement adopté et adapté par la communauté open source de génération d'images IA.
DreamBooth produit un checkpoint de modèle complètement affiné et atteint généralement une personnalisation exhaustive. LoRA entraîne un plus petit ensemble de poids supplémentaires superposés au modèle de base, nécessitant moins de stockage et de temps d'entraînement. DreamBooth avec LoRA combine les deux approches pour un équilibre entre qualité et efficience.
DreamBooth peut entraîner des modèles sur des personnes spécifiques, des personnages, des produits, des styles artistiques, des animaux de compagnie, des objets et tout autre sujet aux caractéristiques visuelles distinctives devant être reproductibles dans divers contextes générés.
DreamBooth s'applique le plus couramment aux modèles basés sur Stable Diffusion et leurs variantes, où les poids open source du modèle peuvent être affinés localement ou via des services d'entraînement cloud. Il n'est pas applicable aux modèles propriétaires fermés dont les poids sous-jacents ne sont pas accessibles.
Le temps d'entraînement varie selon le matériel, la taille du jeu de données et les paramètres d'entraînement, mais une exécution DreamBooth standard prend généralement entre quinze minutes et plusieurs heures sur du matériel GPU grand public ou cloud. DreamBooth avec LoRA s'entraîne généralement plus vite que DreamBooth en poids complet.
La prior preservation loss est une technique utilisée pendant l'entraînement DreamBooth où des images génériques supplémentaires de la classe sont incluses aux côtés des images du sujet pour empêcher le fine-tuning de dégrader la capacité du modèle à générer la classe générale du sujet. Par exemple, lors de l'entraînement sur une personne spécifique, des images de portrait génériques sont incluses pour empêcher le modèle d'oublier à quoi ressemblent les portraits en général.