Glossaryarrow
VAE(変分オートエンコーダ)
VAE(変分オートエンコーダ)

変分オートエンコーダ(VAE)は、データをコンパクトな潜在表現に圧縮し、それを元の形に再構成することを学習するニューラルネットワークの一種で、作成する潜在空間が構造化され連続であるという性質を持つ。つまり、類似した入力は潜在空間内の近い位置にマッピングされる。AI画像生成の文脈では、VAEは画像を拡散プロセスが働く圧縮された潜在空間にエンコードし、潜在結果をピクセル空間の画像にデコードするために使われる。

VAEは、実際の画像の高次元ピクセル空間と、生成モデルがより効率的に働く低次元潜在空間との間の翻訳役を果たす。生成時、VAEデコーダは最終的なノイズ除去済み潜在表現を受け取り、ユーザーが見る実際の画像出力に変換する。VAEの品質と特性は最終出力に大きく影響する。デコーディング時に色のずれ、ソフトさ、アーティファクトを生むVAEは、基盤の拡散モデルがどれだけ良くても、それを経るすべての画像に影響する。そのため、デコーダの差し替えが出力品質に意味ある影響を与えるオープンソース画像生成コミュニティでは、VAEの改良や代替が活発に開発されている。

VAEの役割を理解すると、一部の生成で特徴的な色かぶり、ソフトなエッジ、特定のテクスチャ質がプロンプトや被写体が変わっても残る理由が説明できる。これらは拡散モデル自体ではなくVAEに由来することが多い。実務では、コンテンツタイプに応じてどのモデルバリアントを使うかの判断に役立つ。

Can't find what you are looking for?
Contact us and let us know.
bg