Échelle de guidage

Qu’est-ce que Échelle de guidage ?

L'échelle de guidance est un paramètre qui contrôle à quel point l'IA suit votre requête texte : augmentez-la et le modèle adhère plus strictement à votre description ; diminuez-la et le modèle prend plus de libertés créatives.

En un coup d’œil

Aussi appelé
éChelle CFGéChelle de classifier-free guidanceForce de la requête (dans certaines interfaces)
Utilisé pour
Contrôler l'adhérence à la requête en génération par modèle de diffusionéQuilibrer la précision littérale avec la qualité esthétiqueAjuster le comportement du modèle pour différents objectifs créatifs
Outils courants
Stable diffusionMidjourneyAUTOMATIC1111 WebUIComfyUIRunwayToute plateforme de génération basée sur la diffusion
Termes liés
Modèle de diffusionIngénierie de requêtesBruit / débruitageÉTapes d'échantillonnageEspace latent

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

Comparaison

Comparaison

Échelle de guidanceétapes d'échantillonnage

l'échelle de guidance contrôle à quel point la requête influence chaque étape du processus de débruitage, affectant l'adhérence au contenu décrit dans le texte. Les étapes d'échantillonnage contrôlent combien d'itérations de débruitage le modèle effectue au total, affectant le détail et la cohérence de la sortie finale. Les deux paramètres interagissent : plus d'étapes donnent à l'échelle de guidance plus d'opportunités d'affiner la sortie, mais les deux contrôlent des aspects fondamentalement différents du processus de génération.


Astuce de pro

Lorsque vous ne parvenez pas à faire apparaître un élément spécifique de votre requête dans la sortie : un objet particulier, un détail d'arrière-plan ou un élément compositionnel : essayez d'augmenter l'échelle de guidance de deux ou trois unités avant de faire d'autres changements. Si la sortie semble alors dure ou sursaturée, vous avez trouvé la limite supérieure pour cette combinaison de requête et de modèle, et le problème est plus probablement lié à la formulation de la requête ou à la capacité du modèle qu'au réglage de guidance.

Types et variantes

  • Différents modèles de diffusion ont différentes plages d'échelle de guidance efficaces.
  • Les modèles comme Stable Diffusion 1.
  • 5 fonctionnent généralement bien dans la plage 7–12, tandis que des architectures plus récentes comme SDXL et Flux peuvent mieux fonctionner à des valeurs plus basses.
  • Certains modèles utilisent la classifier-free guidance sous des formes modifiées : par exemple, en l'appliquant différemment aux tokens d'image versus tokens de texte : ce qui peut changer le comportement effectif du paramètre d'échelle même lorsque sa plage numérique semble similaire.
  • Certaines plateformes remplacent l'échelle numérique par des préréglages descriptifs, rendant l'ajustement de l'échelle de guidance plus accessible sans exposer le paramètre technique sous-jacent.

Prêt à créer votre première scène dans Morphic ?

Essayer Morphic

Cas d’usage courants

  • Les créateurs ajustent l'échelle de guidance lorsque leurs sorties générées ne parviennent pas à inclure des éléments spécifiques décrits dans la requête : augmenter l'échelle fait souvent apparaître ces éléments plus systématiquement.
  • Inversement, lorsque les images générées semblent dures, sursaturées ou rigides de manière non naturelle, abaisser l'échelle restaure souvent une qualité esthétique plus naturelle.
  • Les modèles fine-tunés ou adaptés par LoRA peuvent nécessiter des échelles de guidance plus basses que les modèles de base car le fine-tuning a déjà spécialisé le prior du modèle vers le domaine de sortie souhaité, réduisant le besoin d'un fort guidage de requête.

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

FAQ

Qu'est-ce que l'échelle de guidance en génération d'images IA ?

L'échelle de guidance est un paramètre qui contrôle à quel point la sortie d'un modèle de diffusion adhère à la requête texte. Des valeurs plus élevées font que le modèle suit la requête plus strictement ; des valeurs plus basses donnent au modèle plus de liberté créative pour s'appuyer sur son propre sens esthétique appris, ce qui peut produire des résultats visuellement plus naturels mais moins littéralement précis.

Que signifie CFG en génération d'images IA ?

CFG signifie classifier-free guidance, le mécanisme technique sous-jacent à l'échelle de guidance dans les modèles de diffusion. Il fonctionne en amplifiant la différence entre la sortie conditionnée du modèle (suivant la requête) et sa sortie non conditionnée (générant sans direction), orientant la génération vers le contenu demandé sans nécessiter un modèle classifier séparé.

Que se passe-t-il si l'échelle de guidance est trop élevée ?

À des valeurs d'échelle de guidance très élevées, les sorties tendent à devenir sursaturées, visuellement dures et artificiellement nettes, avec une qualité parfois décrite comme « brûlée ». Le modèle s'engage trop sur chaque élément de la requête indépendamment sans les équilibrer naturellement, produisant souvent des images qui semblent hyperréelles ou plastiques plutôt que cohérentes.

Que se passe-t-il si l'échelle de guidance est trop basse ?

À de très basses valeurs, le modèle ignore largement la requête et génère des images basées sur son propre prior appris, qui peut être esthétiquement plaisant mais ne correspondra pas au contenu décrit. Les sujets, objets ou éléments compositionnels spécifiques demandés dans la requête peuvent être absents ou ambigus dans la sortie.

Quelle est une bonne échelle de guidance pour commencer ?

Une valeur entre 7 et 12 est un point de départ raisonnable pour la plupart des modèles basés sur Stable Diffusion, tandis que des architectures plus récentes comme Flux fonctionnent souvent mieux à des valeurs plus basses dans la plage 2–5. La valeur optimale dépend du modèle spécifique, de la complexité de la requête et de l'esthétique souhaitée, donc l'expérimentation dans la plage efficace du modèle utilisé est l'approche la plus fiable.

L'échelle de guidance affecte-t-elle la génération vidéo comme les images ?

L'échelle de guidance s'applique aux modèles de diffusion vidéo de la même manière qu'aux modèles d'images, contrôlant à quel point la vidéo générée suit la requête texte à chaque étape de débruitage. L'interaction entre l'échelle de guidance et la cohérence temporelle en génération vidéo peut être plus complexe qu'en travail sur image fixe, et différents modèles vidéo peuvent avoir des plages de guidance efficaces plus étroites.

L'échelle de guidance est-elle la même dans tous les outils de génération IA ?

Le concept sous-jacent est cohérent à travers les modèles basés sur la diffusion, mais la plage numérique efficace, la valeur par défaut et la façon dont le paramètre est étiqueté varient entre les outils et les architectures de modèles. Ce qui se lit comme une échelle de guidance élevée dans un modèle peut se comporter différemment dans un autre, donc comprendre le comportement spécifique du modèle utilisé est plus utile qu'appliquer une règle universelle.

L'échelle de guidance peut-elle corriger une mauvaise requête ?

L'échelle de guidance module la force avec laquelle le modèle suit la requête mais ne peut pas compenser une requête peu claire, contradictoire ou en dehors des capacités du modèle. Si le concept décrit n'est pas bien représenté dans les données d'entraînement du modèle, augmenter l'échelle de guidance ne fera que forcer une interprétation plus engagée mais toujours incorrecte. Améliorer la requête elle-même est toujours plus efficace qu'ajuster l'échelle de guidance seule.

Can't find what you are looking for?
Contact us and let us know.
bg