Question 1

AI生成における潜在空間とは何ですか？

Accepted Answer

潜在空間は、AIモデルが視覚コンテンツを処理・生成するために使う圧縮された内部の数学的表現です。生のピクセルを直接扱うのではなく、モデルは視覚情報を関連する概念が近い位置を占めるはるかに小さな潜在表現にエンコードし、最終結果をピクセルにデコードし戻します。生成はこの潜在空間内のナビゲーションとデノイジングによって行われます。

Question 2

AI生成モデルはなぜピクセルを直接扱う代わりに潜在空間を使うのですか？

Accepted Answer

現代のAI生成の規模で生のピクセルを直接扱うのは計算的に非現実的です。フル解像度の画像には数百万のピクセル値が含まれます。これを100倍以上小さい潜在表現に圧縮することで、高品質な出力を再構築するのに必要な本質的な視覚・意味情報を保ちながら、生成プロセスを実現可能にします。

Question 3

潜在空間はどのようにAI生成での概念のブレンディングを可能にしますか？

Accepted Answer

よく訓練された潜在空間では関連する概念が近い領域を占め、モデルはそれらの間の位置にナビゲートできるため、概念のブレンディングは両方を同時に表す潜在位置を見つけることで機能します。「キツネのように見える犬」が機能するのは、犬とキツネが潜在空間で近く、モデルが両方の性質を捉えるその間の領域にナビゲートできるためです。

Question 4

latent diffusionとは何ですか？

Accepted Answer

latent diffusionは、拡散のデノイジングプロセスがピクセル空間で直接ではなく潜在空間内で動作する生成アプローチです。モデルはノイズの多い潜在表現から始めて、それを段階的に整合性のある潜在状態へとデノイジングし、その最終的な潜在状態をVAEデコーダを使ってピクセル画像にデコードします。Stable Diffusionはこのアプローチの最も広く知られた実装です。

Question 5

似たプロンプトがなぜAIモデルから異なる出力を生むのですか？

Accepted Answer

各生成は潜在空間のランダムなノイズ点から始まり、プロンプトと整合する状態へとデノイジングします。異なるランダムな開始点は、わずかに異なる経路を通って潜在空間のわずかに異なる最終位置へと導きます。すべてプロンプトの誘導と整合しますが、同一ではありません。この確率性が、同じプロンプトが常に同じ画像ではなく多様な出力を生む理由です。

Question 6

モデルが「豊かな」潜在空間を持つとはどういう意味ですか？

Accepted Answer

豊かな潜在空間とは、モデルが多くの概念の詳細でよく構成された表現を学習し、関連する概念の間に明確な構造があり、それらを整合的に組み合わせられることを意味します。豊かな潜在空間を持つモデルは、より創造的でニュアンスのある意外な概念の組み合わせを生みます。構造の乏しい潜在空間を持つモデルは、より一般的で混乱した、または紋切り型の出力を生みます。

Question 7

LoRAやtextual inversionのような技術は潜在空間とどう関係しますか？

Accepted Answer

textual inversionのような技術は、モデルの元の語彙にない特定の視覚概念に対応するテキスト埋め込み空間（潜在表現の一構成要素）内の新しい位置を見つけることで機能します。LoRAは、特定の種類のコンテンツに対してモデルが潜在空間をどうナビゲートするかを調整する重みに小さな修正を加えることで機能し、潜在表現を完全に再構築せずにその一部を効果的に拡張または方向転換します。

Question 8

クリエイターは潜在空間を直接操作できますか？

Accepted Answer

はい、いくつかの方法で可能です。シード制御は生成のための潜在空間の開始点を決定します。CFGスケールは、自由な探索に対してプロンプトが潜在空間のナビゲーションをどれだけ強く誘導するかを制御します。一部の画像編集ワークフローで使われるlatent blendingのような技術は、2つの潜在表現の間を直接補間して、視覚状態の間の滑らかなトランジションを作ります。一部のモデルのスタイル混合機能は、複数の画像の潜在表現を組み合わせることで機能します。

潜在空間

潜在空間とは？

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

種類とバリエーション

Morphicで最初のシーンを作ってみませんか？

主な活用シーン

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

FAQ