Question 1

AI画像生成におけるガイダンススケールとは何ですか?

Accepted Answer

ガイダンススケールとは、拡散モデルの出力がテキストプロンプトにどれほど忠実に従うかを制御するパラメーターです。値が高いほどモデルはプロンプトにより厳密に従い、値が低いほどモデルが独自に学習した美的感覚に依拠する自由度が増し、視覚的により自然だが文字通りには正確でない結果を生むことがあります。

Question 2

AI画像生成におけるCFGは何の略ですか?

Accepted Answer

CFGは分類器フリーガイダンス(classifier-free guidance)の略で、拡散モデルにおけるガイダンススケールの根底にある技術的メカニズムです。これは、モデルの条件づけられた出力(プロンプトに従う)と無条件の出力(方向性なしで生成する)の差を増幅することで機能し、別途の分類器モデルを必要とせずに、プロンプトで指定されたコンテンツへと生成を誘導します。

Question 3

ガイダンススケールが高すぎるとどうなりますか?

Accepted Answer

ガイダンススケールの値が非常に高いと、出力は過飽和で、視覚的に厳しく、人工的にシャープになる傾向があり、その品質は焼け付いたと表現されることがあります。モデルはプロンプトの各要素を自然にバランスさせることなく、それぞれに過度にコミットし、要素どうしが自然になじんだ画像ではなく、超現実的またはプラスチックのように感じられる画像をしばしば生成します。

Question 4

ガイダンススケールが低すぎるとどうなりますか?

Accepted Answer

値が非常に低いと、モデルはプロンプトをおおむね無視し、自身が学習した事前分布に基づいて画像を生成します。これは美的には心地よいかもしれませんが、記述されたコンテンツとは一致しません。プロンプトで求められた特定の被写体、オブジェクト、構図上の要素が、出力で欠落したり曖昧になったりすることがあります。

Question 5

最初に使うのに良いガイダンススケールはどれくらいですか?

Accepted Answer

ほとんどのStable Diffusionベースのモデルでは7から12の値が妥当な出発点ですが、Fluxのような新しいアーキテクチャは、2〜5の範囲のより低い値でよりよく機能することがよくあります。最適な値は、特定のモデル、プロンプトの複雑さ、望ましい美しさによって異なるため、使用するモデルの有効範囲内で実験することが最も信頼できるアプローチです。

Question 6

ガイダンススケールは画像だけでなく動画生成にも影響しますか?

Accepted Answer

ガイダンススケールは、画像モデルと同じように動画拡散モデルにも適用され、各ノイズ除去ステップで生成された動画がテキストプロンプトにどれほど忠実に従うかを制御します。動画生成におけるガイダンススケールと時間方向の一貫性の相互作用は、静止画作業よりも複雑になることがあり、動画モデルによっては有効なガイダンス範囲がより狭い場合があります。

Question 7

ガイダンススケールはすべてのAI生成ツールで同じですか?

Accepted Answer

根底にある概念は拡散ベースのモデル全体で一貫していますが、有効な数値範囲、デフォルト値、そしてパラメーターのラベルの付け方は、ツールやモデルアーキテクチャによって異なります。あるモデルで高いガイダンススケールと読み取れるものが、別のモデルでは異なる挙動をすることがあるため、普遍的なルールを当てはめるよりも、使用するモデルの具体的な挙動を理解するほうが有用です。

Question 8

ガイダンススケールは悪いプロンプトを修正できますか?

Accepted Answer

ガイダンススケールはモデルがプロンプトにどれほど強く従うかを調整しますが、不明確、矛盾、またはモデルの能力外であるプロンプトを補うことはできません。記述された概念がモデルの訓練データで十分に表現されていない場合、ガイダンススケールを上げても、より強くコミットしただけの依然として不正確な解釈を強いるにすぎません。プロンプト自体を改善するほうが、ガイダンススケールの調整だけよりも常に効果的です。

ガイダンススケール

ガイダンススケールとは？

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

種類とバリエーション

Morphicで最初のシーンを作ってみませんか？

主な活用シーン

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

FAQ