ガイダンススケール
ガイダンススケールとは?
ガイダンススケールとは、AIがテキストプロンプトにどれほど忠実に従うかを制御する設定です。上げるとモデルは記述により厳密に従い、下げるとモデルはよりクリエイティブな自由を取ります。
ひと目で分かる
- 別名
- CFGスケール分類器フリーガイダンススケールプロンプト強度(一部のインターフェースで)
- 用途
- 拡散モデルの生成におけるプロンプトへの忠実度を制御する文字通りの正確さと美的品質のバランスを取る異なるクリエイティブな目標に合わせてモデルの挙動を調整する
- 主なツール
- Stable diffusionMidjourneyAUTOMATIC1111 WebUIComfyUIRunwayAny diffusion-based generation platform
- 関連用語
- Diffusion modelPrompt engineeringNoise / denoisingSampling stepsLatent space
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
ガイダンススケール対サンプリングステップ:ガイダンススケールは、ノイズ除去プロセスの各ステップでプロンプトがどれほど強く影響するかを制御し、テキストに記述されたコンテンツへの忠実度に影響します。サンプリングステップは、モデルが合計で何回のノイズ除去の反復を行うかを制御し、最終出力のディテールと一貫性に影響します。両方のパラメーターは相互作用します。ステップが多いほどガイダンススケールが出力を精緻化する機会が増えますが、この2つは生成プロセスの根本的に異なる側面を制御します。
プロのヒント
プロンプトの特定の要素、すなわち特定のオブジェクト、背景のディテール、構図上の要素を出力に現れさせられないときは、他の変更を加える前に、ガイダンススケールを2〜3単位上げてみてください。それでも出力が厳しく見えたり過飽和になったりする場合は、そのプロンプトとモデルの組み合わせの上限を見つけたことになり、問題はガイダンス設定よりも、プロンプトの言い回しやモデルの能力にある可能性が高くなります。
種類とバリエーション
拡散モデルによって有効なガイダンススケールの範囲は異なります。Stable Diffusion 1.
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
クリエイターは、生成された出力がプロンプトに記述された特定の要素を含められていないときにガイダンススケールを調整します。スケールを上げると、これらの要素がより一貫して現れることがよくあります。逆に、生成された画像が厳しく見えたり、過飽和だったり、不自然に硬く見えたりするときは、スケールを下げるとより自然な美的品質が回復することがよくあります。ファインチューニングされたモデルやLoRA適応モデルは、ベースモデルより低いガイダンススケールを必要とすることがあります。ファインチューニングによってモデルの事前分布がすでに望ましい出力領域に特化しており、強いプロンプト誘導の必要性が減っているためです。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
ガイダンススケールとは、拡散モデルの出力がテキストプロンプトにどれほど忠実に従うかを制御するパラメーターです。値が高いほどモデルはプロンプトにより厳密に従い、値が低いほどモデルが独自に学習した美的感覚に依拠する自由度が増し、視覚的により自然だが文字通りには正確でない結果を生むことがあります。
CFGは分類器フリーガイダンス(classifier-free guidance)の略で、拡散モデルにおけるガイダンススケールの根底にある技術的メカニズムです。これは、モデルの条件づけられた出力(プロンプトに従う)と無条件の出力(方向性なしで生成する)の差を増幅することで機能し、別途の分類器モデルを必要とせずに、プロンプトで指定されたコンテンツへと生成を誘導します。
ガイダンススケールの値が非常に高いと、出力は過飽和で、視覚的に厳しく、人工的にシャープになる傾向があり、その品質は焼け付いたと表現されることがあります。モデルはプロンプトの各要素を自然にバランスさせることなく、それぞれに過度にコミットし、要素どうしが自然になじんだ画像ではなく、超現実的またはプラスチックのように感じられる画像をしばしば生成します。
値が非常に低いと、モデルはプロンプトをおおむね無視し、自身が学習した事前分布に基づいて画像を生成します。これは美的には心地よいかもしれませんが、記述されたコンテンツとは一致しません。プロンプトで求められた特定の被写体、オブジェクト、構図上の要素が、出力で欠落したり曖昧になったりすることがあります。
ほとんどのStable Diffusionベースのモデルでは7から12の値が妥当な出発点ですが、Fluxのような新しいアーキテクチャは、2〜5の範囲のより低い値でよりよく機能することがよくあります。最適な値は、特定のモデル、プロンプトの複雑さ、望ましい美しさによって異なるため、使用するモデルの有効範囲内で実験することが最も信頼できるアプローチです。
ガイダンススケールは、画像モデルと同じように動画拡散モデルにも適用され、各ノイズ除去ステップで生成された動画がテキストプロンプトにどれほど忠実に従うかを制御します。動画生成におけるガイダンススケールと時間方向の一貫性の相互作用は、静止画作業よりも複雑になることがあり、動画モデルによっては有効なガイダンス範囲がより狭い場合があります。
根底にある概念は拡散ベースのモデル全体で一貫していますが、有効な数値範囲、デフォルト値、そしてパラメーターのラベルの付け方は、ツールやモデルアーキテクチャによって異なります。あるモデルで高いガイダンススケールと読み取れるものが、別のモデルでは異なる挙動をすることがあるため、普遍的なルールを当てはめるよりも、使用するモデルの具体的な挙動を理解するほうが有用です。
ガイダンススケールはモデルがプロンプトにどれほど強く従うかを調整しますが、不明確、矛盾、またはモデルの能力外であるプロンプトを補うことはできません。記述された概念がモデルの訓練データで十分に表現されていない場合、ガイダンススケールを上げても、より強くコミットしただけの依然として不正確な解釈を強いるにすぎません。プロンプト自体を改善するほうが、ガイダンススケールの調整だけよりも常に効果的です。