Question 1

Qu'est-ce que la génération d'images par IA text-to-image ?

Accepted Answer

La génération d'images par IA text-to-image est le processus de création d'une image à partir d'un prompt textuel. L'utilisateur décrit ce qu'il souhaite voir (le sujet, la composition, le style et l'ambiance) et le modèle IA synthétise une sortie visuelle qui correspond à la description. C'est la forme la plus accessible et la plus utilisée de génération d'images par IA.

Question 2

Comment fonctionne techniquement la génération text-to-image ?

Accepted Answer

La plupart des systèmes text-to-image utilisent des modèles de diffusion. Le prompt textuel est encodé en une représentation mathématique par un encodeur de texte, et cette représentation est utilisée pour guider un processus de débruitage qui part d'un bruit aléatoire et le façonne progressivement en une image cohérente. Le conditionnement par le prompt oriente le débruitage vers une imagerie conforme au contenu, au style et à la composition décrits. Le processus se déroule sur de nombreuses étapes itératives, chaque étape affinant davantage l'image.

Question 3

Qu'est-ce qu'un bon prompt text-to-image ?

Accepted Answer

Les prompts text-to-image efficaces sont spécifiques, structurés hiérarchiquement et visuellement concrets. Ils décrivent le sujet principal avec des propriétés visuelles claires, précisent l'information compositionnelle comme le cadrage et l'angle de caméra, définissent le décor et l'environnement, qualifient l'éclairage et spécifient le médium artistique ou le style. Un langage ambigu ou abstrait produit des résultats imprévisibles ; une description visuelle précise produit des sorties plus fiablement justes. Tester et itérer sur les prompts est une étape normale et essentielle du workflow.

Question 4

Qu'est-ce que le guidance scale en génération text-to-image ?

Accepted Answer

Le guidance scale est un paramètre qui contrôle à quel point l'image générée adhère au prompt textuel. Des valeurs élevées de guidance scale poussent le modèle à pondérer le prompt plus fortement, produisant des résultats qui suivent la description du prompt plus strictement mais qui peuvent devenir sursaturés et artificiellement nets. Des valeurs faibles laissent plus de liberté créative au modèle, produisant des résultats d'apparence plus naturelle qui peuvent s'écarter du prompt sur des points mineurs. Trouver le bon guidance scale pour un modèle et un cas d'usage donnés est une étape de calibration importante.

Question 5

Qu'est-ce qu'un seed en génération text-to-image ?

Accepted Answer

Un seed est un nombre qui initialise le bruit aléatoire à partir duquel le processus de génération commence. Utiliser le même seed avec le même prompt et les mêmes paramètres produit la même image, tandis que changer le seed produit une variation différente. Les seeds sont utiles pour la reproductibilité (générer des variantes cohérentes en ne modifiant qu'un seul élément) et pour trouver une composition ou une mise en page qui plaît et itérer dessus en modifiant le prompt tout en conservant le seed constant.

Question 6

En quoi la génération text-to-image diffère-t-elle de l'édition d'image ?

Accepted Answer

La génération text-to-image crée une nouvelle image à partir de rien sur la base d'une description écrite ; elle ne modifie pas une image existante. Les outils d'édition d'image agissent sur des photographies ou images existantes, en ajustant leurs propriétés sans générer de nouveau contenu à partir d'une description textuelle. Les outils d'édition d'image assistés par IA, comme l'inpainting et l'outpainting, utilisent la technologie de génération pour compléter ou étendre des images, mais opèrent sur un contenu visuel existant plutôt que de générer entièrement à partir d'un prompt.

Question 7

Les modèles text-to-image peuvent-ils générer des personnes réelles précises ?

Accepted Answer

La plupart des plateformes commerciales text-to-image restreignent ou interdisent la génération de personnes réelles spécifiques, en particulier des personnalités publiques, par leur nom. Il s'agit d'une mesure de sécurité et juridique liée au consentement, au risque de désinformation et aux usages détournés potentiels. Les modèles peuvent être capables de générer des ressemblances lorsqu'on les y invite, mais les plateformes responsables appliquent des filtres et des politiques pour limiter cette capacité. Pour une production commerciale impliquant des personnes spécifiques, la photographie sous licence ou des références dûment consenties restent l'approche appropriée.

Question 8

Qu'est-ce qui détermine la qualité des sorties text-to-image ?

Accepted Answer

La qualité de sortie est déterminée par la qualité et l'étendue des données d'entraînement du modèle, la sophistication de sa compréhension du texte, la spécificité et la structure du prompt, ainsi que les paramètres d'inférence utilisés (étapes, guidance scale, résolution). Au-delà des capacités du modèle, la qualité du prompt est la plus grande variable sous le contrôle du praticien : le même modèle produira des résultats radicalement différents pour le même sujet selon que le prompt est vague ou précisément structuré.

Génération texte-vers-image (Text-to-Image)

Qu’est-ce que Génération texte-vers-image (Text-to-Image) ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Types et variantes

Prêt à créer votre première scène dans Morphic ?

Cas d’usage courants

Réalisez des scènes, créez des personnages, livrez des films entiers

FAQ