潜在空間
Latent space(潜在空間)は、AIモデルがコンテンツの理解と生成に用いる、圧縮された抽象的な数学的データ表現です。生のピクセルやフレームを直接扱うのではなく、AI画像・動画モデルは視覚情報を高次元の数値空間に変換し、データ内の本質的な特徴と関係をよりコンパクトな形で捉えます。
拡散モデルが画像を生成する際、ノイズ除去プロセスは通常ピクセル空間ではなく潜在空間内で行われます。モデルが圧縮表現で計算し、最後にのみ実際のピクセルへデコードするため、計算効率が大幅に高くなります。潜在空間は生のピクセル値だけでなく意味情報も符号化しており、モデルの内部表現は「犬」「走る」「青空」などの概念をこの抽象数学空間内の位置や領域として保持します。Stable Diffusionなどで使われるlatent diffusionは、潜在空間を辿ってコンテンツを生成するこのアプローチにちなんで名付けられています。
潜在空間を理解すると、AIモデルが概念を混ぜたりスタイル間を補間したり、似たプロンプトが関連しつつ異なる出力を生む理由を説明しやすくなります。モデルの潜在空間の構造が、そのクリエイティブな範囲と、アイデアを一貫した新しい形で組み合わせる能力を根本的に形作っています。