ControlNet
Qu’est-ce que ControlNet ?
ControlNet permet de fournir à un générateur d'images IA une référence structurelle, comme une pose ou une carte de profondeur, afin que la sortie suive exactement cette disposition spatiale.
En un coup d’œil
- Aussi appelé
- Contrôle spatial pour modèles de diffusionContrôle conditionnel de génération d'images
- Utilisé pour
- Génération contrôlée par la poseComposition contrainte par la profondeurSynthèse d'images guidée par les contoursContrôle précis de la mise en page
- Outils courants
- Stable diffusion avec l'extension ControlNetComfyUIAutomatic1111
- Termes liés
- Diffusion modelImage-to-imagePose estimationDepth mapInpainting
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
la génération image-vers-image utilise une image de référence directement comme point de départ visuel, influençant à la fois la structure et le contenu visuel de la sortie. ControlNet extrait des informations structurelles spécifiques d'une référence, comme la pose ou les contours, et les utilise comme contrainte spatiale tout en laissant le contenu visuel et le style à l'invite textuelle et au modèle de base. ControlNet apporte une précision structurelle sans que le contenu visuel complet de la référence n'apparaisse dans la sortie.
Imaginez plutôt…
Imaginez que vous dessinez une image et que quelqu'un vous donne un livre de coloriage avec les contours déjà tracés, indiquant exactement où doivent se trouver toutes les lignes et formes. Vous pouvez choisir librement les couleurs et les textures de chaque zone, mais les formes sont déjà décidées pour vous. ControlNet fonctionne comme ce contour. Il fournit à l'IA un squelette structurel à suivre, qu'il s'agisse de la pose d'une personne, des contours d'une composition ou de la profondeur d'une scène, tout en laissant l'IA choisir tous les détails visuels, textures et styles à l'intérieur de cette structure. Fonctionnement en termes simples : un module de réseau de neurones distinct traite l'image de contrôle structurelle et transmet des informations de conditionnement spatial au modèle principal de génération pendant le processus de diffusion. Le module de contrôle contraint l'emplacement des choses ; le modèle principal décide de leur apparence. Où vous le rencontrez : ControlNet est utilisé dans les pipelines de génération IA open source pour la correspondance de pose de personnage, la génération de rendus d'architecture, la conversion d'illustration en rendu, et tout flux de travail nécessitant un contrôle compositionnel précis sur l'imagerie générée par IA.
Astuce de pro
Lorsque vous utilisez plusieurs entrées ControlNet simultanément, ajustez le poids de chaque module de contrôle plutôt que de les appliquer tous à pleine puissance. Un contrôle de pose à un poids de 0,8 combiné à un contrôle de profondeur à un poids de 0,6 produit généralement de meilleurs résultats que les deux à 1,0, car cela laisse au modèle de base davantage de marge pour produire une qualité visuelle cohérente dans le respect des contraintes structurelles, plutôt que de devoir arbitrer entre des signaux de contrôle concurrents à fort poids.
Types et variantes
- Le ControlNet de pose utilise des cartes de points-clés de squelette pour contrôler la position du corps d'un personnage.
- Le ControlNet de contours s'appuie sur des cartes de détection de contours pour contraindre les lignes structurelles de la sortie.
- Le ControlNet de profondeur utilise des cartes de profondeur pour préserver les relations spatiales de profondeur à partir d'une référence.
- Le ControlNet de segmentation utilise des étiquettes de zones pour contrôler le type de contenu qui apparaît dans chaque partie du cadre.
- Le ControlNet de carte de normales s'appuie sur les données de normales de surface pour contraindre le caractère tridimensionnel des surfaces dans la sortie.
- Plusieurs modules ControlNet peuvent être utilisés simultanément avec une pondération mixte entre les entrées de contrôle.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- La correspondance de pose de personnage utilise le ControlNet de pose pour générer des personnages dans des positions corporelles précises, définies par une image de référence ou un squelette.
- La préservation de mise en page utilise le ControlNet de contours ou de profondeur pour générer des versions stylisées d'une composition existante tout en conservant sa logique structurelle.
- Le placement de produits utilise le ControlNet de segmentation pour contrôler l'emplacement des différents types de contenu dans une scène générée.
- La visualisation architecturale s'appuie sur les contrôles de profondeur et de contours pour générer des rendus de conception qui préservent la structure spatiale d'une maquette ou d'un croquis existant.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
ControlNet est une architecture de réseau de neurones qui ajoute un contrôle spatial aux modèles de génération d'images en conditionnant le processus de génération sur des images d'entrée structurelles telles que des cartes de pose, des cartes de contours ou des cartes de profondeur. Il permet aux créateurs de spécifier la structure compositionnelle et spatiale des sorties générées avec une bien plus grande précision que les seules invites textuelles.
ControlNet entraîne des modules de réseau de neurones supplémentaires qui traitent les images de contrôle structurelles parallèlement au modèle de diffusion de base. Ces modules extraient l'information spatiale de l'entrée de contrôle et la transmettent comme conditionnement au processus de génération, en contraignant l'emplacement des éléments dans la sortie sans écraser le style visuel du modèle de base.
ControlNet prend en charge les cartes de pose pour le contrôle de la position du corps, les cartes de contours pour le contrôle des lignes structurelles, les cartes de profondeur pour les relations spatiales de profondeur, les cartes de segmentation pour le contrôle régional du contenu et les cartes de normales pour le contrôle de la géométrie des surfaces, entre autres. Plusieurs types de contrôle peuvent être utilisés simultanément.
L'image-vers-image utilise une image de référence directement, influençant à la fois la structure et le contenu visuel. ControlNet extrait une information structurelle spécifique d'une référence et n'utilise que celle-ci comme contrainte spatiale, laissant le texte et le modèle de base déterminer le contenu visuel et le style indépendamment de l'apparence de la référence.
Le ControlNet de pose utilise des cartes de points-clés de squelette pour garantir que les personnages générés respectent une position corporelle précise. Il est largement utilisé pour générer des variantes de personnages dans des poses identiques, faire correspondre une pose de référence pour la visualisation de produits ou de mode, et garantir une posture de personnage cohérente sur plusieurs générations.
Les modules ControlNet sont spécifiques à une architecture et doivent être compatibles avec le modèle de base. La majeure partie du développement de ControlNet a porté sur Stable Diffusion et ses variantes. Chaque architecture de modèle de base nécessite ses propres modules ControlNet entraînés pour cette architecture spécifique.
Le poids ControlNet détermine l'intensité avec laquelle le conditionnement spatial du module de contrôle influence la sortie générée. Des poids plus élevés produisent des sorties qui suivent plus précisément l'image de contrôle, mais peuvent réduire la qualité visuelle. Des poids plus faibles laissent davantage de liberté générative tout en appliquant une orientation spatiale directionnelle.
Les principes de ControlNet sont utilisés ou référencés dans de nombreux outils commerciaux de génération par IA, même si les implémentations varient. L'architecture est née dans l'écosystème open source de Stable Diffusion et a influencé la manière dont les fonctionnalités de contrôle spatial sont développées sur un éventail plus large de plateformes commerciales et de recherche en génération IA.