潜在空間
潜在空間とは?
潜在空間は、すべての視覚概念に関するAIの内部の心象地図です。「犬」「夕日」「印象派の絵画」が位置として存在する圧縮された数学的空間であり、モデルは生のピクセルを直接扱うのではなく、この地図をナビゲートして画像を生成します。
ひと目で分かる
- 別名
- 埋め込み空間潜在表現特徴空間
- 用途
- 圧縮を通じた効率的な画像・動画生成概念のブレンディングとスタイルの補間似たプロンプトからAIモデルが多様な出力を生む理由の理解
- 主なツール
- Stable diffusion (latent diffusion model)DALL-eMidjourneyAny diffusion-based generation model
- 関連用語
- Diffusion modelVAE (variational autoencoder)EmbeddingDenoisingSampling
- How it works in simple terms
- 生の画像の完全な複雑さ(数百万のピクセル値)を扱う代わりに、モデルは視覚データをはるかに小さな潜在表現に圧縮します。生成プロセスはこの圧縮された空間内でデノイジングを通じて行われ、ランダムな開始点を整合性のある表現へと段階的に洗練し、その後、最終結果を実際の画像にデコードし戻します。
- Where you encounter this
- 潜在空間は、AIモデルがなぜ概念をブレンドしスタイル間を補間できるのか、あるいはなぜ生成の速度と品質が潜在表現の次元数に関係するのかを議論するときに参照されます。また、latent diffusion、VAEエンコードの品質、一部のモデルが他より創造的に生成する理由を議論するときにも登場します。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
概念としての潜在空間は、多くのモデルが画像を潜在空間にエンコードしデコードし戻すために使う特定のVAE(変分オートエンコーダ)と関連していますが区別されます。VAEはピクセル空間と潜在空間の間を翻訳するツールです。潜在空間は抽象的な数学的空間そのものです。同様に、CLIPテキストエンコーダはテキストプロンプトの潜在表現を作り、これを画像の潜在表現と比較できるようにして、text-to-image生成を可能にします。
たとえば…
潜在空間は、すべての視覚概念の詳細な心象地図のようなもので、似たものが地図上で互いに近くに位置しています。AIが画像を生成するとき、本質的にはこの地図をナビゲートして正しい位置を見つけ、その位置がどう見えるかを描いています。ゼロからピクセルごとに描くのではありません。
プロのヒント
AIモデルが潜在空間を通じて動作することを理解すると、長く詰め込みすぎたプロンプトが時に出力品質を低下させる理由が分かります。モデルは多くの制約を同時に満たす潜在空間の領域までナビゲートしなければならず、過度に具体的または矛盾するプロンプトは、整合性のある潜在領域に明確に対応しないことがあります。整合性のある視覚概念を描く明確で焦点の定まったプロンプトは、より強い結果を生む傾向があります。
種類とバリエーション
異なるモデルアーキテクチャは異なる種類の潜在空間を使います。Stable Diffusionで使われるVAE圧縮の潜在空間は、画像を空間的な潜在グリッドにエンコードします。CLIPの埋め込み空間は、テキストと画像をクロスモーダルなマッチングを可能にする共有の意味空間にエンコードします。DiT(Diffusion Transformer)モデルは、畳み込みの前身とは異なる構造的特性を持つ潜在空間で動作することがあります。潜在空間の次元数と構成は、モデルが何を生成できるか、どのように概念をブレンドするかを直接形作ります。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
潜在空間は、ユーザーが直接やり取りしない場合でも、あらゆるAI生成タスクに関わっています。最も直接的に関連するのは、モデルの品質を議論するとき(よく構造化された潜在空間はより整合性の高い概念のブレンディングを生みます)、特定のプロンプトが予期しない結果を生む理由を理解するとき、モデルアーキテクチャを比較するとき、そしてモデルの潜在表現に追加・調整することで動作するtextual inversionやLoRAのような技術を扱うときです。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
潜在空間は、AIモデルが視覚コンテンツを処理・生成するために使う圧縮された内部の数学的表現です。生のピクセルを直接扱うのではなく、モデルは視覚情報を関連する概念が近い位置を占めるはるかに小さな潜在表現にエンコードし、最終結果をピクセルにデコードし戻します。生成はこの潜在空間内のナビゲーションとデノイジングによって行われます。
現代のAI生成の規模で生のピクセルを直接扱うのは計算的に非現実的です。フル解像度の画像には数百万のピクセル値が含まれます。これを100倍以上小さい潜在表現に圧縮することで、高品質な出力を再構築するのに必要な本質的な視覚・意味情報を保ちながら、生成プロセスを実現可能にします。
よく訓練された潜在空間では関連する概念が近い領域を占め、モデルはそれらの間の位置にナビゲートできるため、概念のブレンディングは両方を同時に表す潜在位置を見つけることで機能します。「キツネのように見える犬」が機能するのは、犬とキツネが潜在空間で近く、モデルが両方の性質を捉えるその間の領域にナビゲートできるためです。
latent diffusionは、拡散のデノイジングプロセスがピクセル空間で直接ではなく潜在空間内で動作する生成アプローチです。モデルはノイズの多い潜在表現から始めて、それを段階的に整合性のある潜在状態へとデノイジングし、その最終的な潜在状態をVAEデコーダを使ってピクセル画像にデコードします。Stable Diffusionはこのアプローチの最も広く知られた実装です。
各生成は潜在空間のランダムなノイズ点から始まり、プロンプトと整合する状態へとデノイジングします。異なるランダムな開始点は、わずかに異なる経路を通って潜在空間のわずかに異なる最終位置へと導きます。すべてプロンプトの誘導と整合しますが、同一ではありません。この確率性が、同じプロンプトが常に同じ画像ではなく多様な出力を生む理由です。
豊かな潜在空間とは、モデルが多くの概念の詳細でよく構成された表現を学習し、関連する概念の間に明確な構造があり、それらを整合的に組み合わせられることを意味します。豊かな潜在空間を持つモデルは、より創造的でニュアンスのある意外な概念の組み合わせを生みます。構造の乏しい潜在空間を持つモデルは、より一般的で混乱した、または紋切り型の出力を生みます。
textual inversionのような技術は、モデルの元の語彙にない特定の視覚概念に対応するテキスト埋め込み空間(潜在表現の一構成要素)内の新しい位置を見つけることで機能します。LoRAは、特定の種類のコンテンツに対してモデルが潜在空間をどうナビゲートするかを調整する重みに小さな修正を加えることで機能し、潜在表現を完全に再構築せずにその一部を効果的に拡張または方向転換します。
はい、いくつかの方法で可能です。シード制御は生成のための潜在空間の開始点を決定します。CFGスケールは、自由な探索に対してプロンプトが潜在空間のナビゲーションをどれだけ強く誘導するかを制御します。一部の画像編集ワークフローで使われるlatent blendingのような技術は、2つの潜在表現の間を直接補間して、視覚状態の間の滑らかなトランジションを作ります。一部のモデルのスタイル混合機能は、複数の画像の潜在表現を組み合わせることで機能します。