Image-vers-image

Qu’est-ce que Image-vers-image ?

L'image-vers-image prend une photo ou illustration que vous avez déjà et la transforme en quelque chose de nouveau ( en changeant le style, l'ambiance ou le contenu ) tout en gardant la composition et la structure de base de l'image originale.

En un coup d’œil

Aussi appelé
Img2imgGénération guidée par imageTransfert de style (dans certains contextes)
Utilisé pour
Appliquer des styles artistiques à des images ou photographies existantesRaffiner et itérer les sorties générées par IAAdapter des esquisses brutes en illustrations finaliséesEffectuer des changements esthétiques ciblés tout en préservant la composition
Outils courants
Stable diffusion (AUTOMATIC1111, ComfyUI)Midjourney (prompting par image)Adobe fireflyRunwayCanva AI

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

Comparaison

Comparaison

Image-vers-imageinpainting

l'image-vers-image applique une transformation à l'image entière ou à une grande partie de celle-ci, guidée par la structure source. L'inpainting applique la génération uniquement à une région spécifiquement masquée dans une image, laissant les zones non masquées complètement inchangées. Pour des corrections ciblées sur de petites zones d'une image autrement acceptable, l'inpainting est plus approprié ; pour des transformations stylistiques globales appliquées à la composition complète, l'image-vers-image est la bonne approche.


Imaginez plutôt…

Pensez à l'image-vers-image comme à l'utilisation d'une photographie comme contour de livre de coloriage : le photographe a pris la photo et fixé la composition, et maintenant vous demandez à une IA de la peindre dans un style complètement différent, comme si la même scène avait été capturée par un artiste différent à une époque différente. La composition reste à peu près la même, mais tout dans le traitement visuel ( couleur, texture, style, ambiance ) peut être complètement transformé par le modèle.


Astuce de pro

Le paramètre de force de débruitage est le contrôle le plus important dans les flux image-vers-image et mérite d'être expérimenté soigneusement sur chaque nouveau projet. Pour les transformations stylistiques où la composition source doit être préservée, des valeurs dans la plage 0,4–0,6 produisent souvent le meilleur équilibre entre conserver la structure de l'original et permettre au modèle suffisamment de latitude créative pour produire une transformation convaincante. Les valeurs très élevées (au-dessus de 0,8) se rapprochent de la génération texte seul et devraient être utilisées lorsque seule une référence structurelle lâche est souhaitée.

Types et variantes

  • La génération image-vers-image existe en plusieurs variantes opérationnelles selon la façon dont le conditionnement par image source est appliqué.
  • Le img2img standard utilise une seule image source avec un prompt textuel et un paramètre de force de débruitage pour contrôler l'intensité de transformation.
  • Les approches de transfert de style utilisent une image comme référence de style et une autre comme source de contenu, appliquant l'esthétique de l'image de style à la structure de l'image de contenu.
  • L'image-vers-image basé sur ControlNet utilise des informations structurelles extraites ( cartes de profondeur, cartes de contours, squelettes de pose ) d'une image source comme conditionnement précis plutôt que comme initialisation au niveau des pixels, préservant des qualités structurelles spécifiques plus fiablement que le img2img standard.
  • Le conditionnement par image de référence dans des modèles comme Midjourney et DALL-E 3 utilise une image comme guide stylistique lâche sans influence directe de pixels, produisant des sorties inspirées par la référence sans en être structurellement dérivées.

Prêt à créer votre première scène dans Morphic ?

Essayer Morphic

Cas d’usage courants

  • Les photographes et artistes visuels utilisent l'image-vers-image pour explorer des variations stylistiques sur des travaux existants : appliquer des traitements picturaux, illustratifs ou spécifiques à un genre à des photographies tout en préservant leur composition.
  • Les concept artists l'utilisent pour itérer rapidement sur des directions de conception, raffinant des esquisses brutes en concepts polis à travers de multiples explorations de style.
  • Les créateurs de contenu IA l'utilisent pour corriger et améliorer des images précédemment générées qui sont structurellement bonnes mais nécessitent un ajustement esthétique.
  • Les concepteurs de produits et marketeurs adaptent l'imagerie produit existante en différents styles visuels, environnements ou contextes sans nouvelle prise de vue.

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

FAQ

Qu'est-ce que la génération IA image-vers-image ?

L'image-vers-image est un flux de génération dans lequel une image existante sert d'entrée aux côtés d'un prompt textuel, le modèle transformant la source tout en préservant des aspects de sa composition ou structure. Il diffère de la génération texte-vers-image, qui construit entièrement à partir d'une description écrite sans point de départ visuel.

Qu'est-ce que la force de débruitage en image-vers-image ?

La force de débruitage contrôle à quel point le modèle transforme l'image source. À de faibles valeurs (proches de 0), la sortie ressemble étroitement à la source avec des changements minimes. À des valeurs élevées (proches de 1), la source ne fournit qu'une suggestion structurelle approximative et le modèle applique une transformation substantielle. La valeur optimale dépend de combien de la composition originale doit être préservée par rapport à réimaginée.

En quoi l'image-vers-image diffère-t-elle du texte-vers-image ?

Le texte-vers-image génère une image entièrement à partir d'une description écrite, en partant du bruit aléatoire sans point de départ visuel. L'image-vers-image utilise une image existante comme initialisation partielle : démarrant le processus de débruitage avec une structure visuelle déjà en place : et le prompt textuel guide la façon dont cette structure est transformée plutôt que de décrire la composition complète à partir de zéro.

Qu'est-ce qu'img2img ?

Img2img est l'abréviation courante pour image-vers-image, largement utilisée au sein de la communauté Stable Diffusion et dans les interfaces des outils. Les termes sont utilisés de manière interchangeable et se réfèrent à la même approche de génération dans laquelle une image existante est utilisée comme entrée aux côtés d'un prompt textuel pour guider la transformation.

Puis-je utiliser l'image-vers-image pour changer le style d'une photographie ?

Oui. Appliquer un style artistique à une photographie tout en préservant sa composition est l'une des utilisations les plus courantes de la génération image-vers-image. En réglant une force de débruitage modérée et en incluant un prompt décrivant le style, le modèle peut transformer le traitement visuel de la photographie tout en conservant ses sujets, son cadrage et ses relations spatiales.

Qu'est-ce que ControlNet et comment se rapporte-t-il à l'image-vers-image ?

ControlNet est un système de contrôle conditionnel pour les modèles de diffusion qui utilise des informations structurelles extraites d'une image source ( comme des cartes de contours, des cartes de profondeur ou des squelettes de pose ) comme conditionnement précis plutôt que comme initialisation directe des pixels. C'est une forme plus avancée de conditionnement basé sur l'image qui permet à des qualités structurelles spécifiques d'être préservées de manière beaucoup plus fiable que le img2img standard, et est largement utilisé pour le contrôle de pose de personnage, la correspondance de mise en page architecturale et autres cas où une adhérence structurelle précise est critique.

Quelle est la différence entre image-vers-image et inpainting ?

L'image-vers-image applique une transformation à l'image entière ou à une partie substantielle de celle-ci, guidée par la structure visuelle de la source. L'inpainting applique la génération spécifiquement à une région masquée, laissant les zones non masquées inchangées. Pour corriger ou remplacer des petites zones spécifiques d'une image autrement acceptable, l'inpainting est plus précis ; pour appliquer une transformation stylistique globale à la composition complète, l'image-vers-image est l'approche la plus appropriée.

Quelles entrées l'image-vers-image nécessite-t-elle ?

L'image-vers-image standard nécessite l'image source, un prompt textuel décrivant la sortie souhaitée et une valeur de force de débruitage. Certains flux ajoutent un conditionnement supplémentaire tel que des prompts négatifs pour exclure des éléments indésirables, des valeurs de seed pour la reproductibilité et des paramètres spécifiques au modèle. Les flux plus avancés utilisant ControlNet nécessitent également de spécifier quel type de conditionnement structurel extraire de l'image source.

Can't find what you are looking for?
Contact us and let us know.
bg