Glossaryarrow
VAE (변분 오토인코더)
VAE (변분 오토인코더)

Variational Autoencoder(VAE)는 데이터를 컴팩트한 latent 표현으로 압축한 뒤 원래 형태로 재구성하도록 학습하는 신경망 아키텍처 유형으로, 만드는 latent 공간이 구조화되고 연속적이라는 특성을 가집니다. 즉 비슷한 입력이 latent 공간에서 가까운 위치에 매핑됩니다. AI 이미지 생성 맥락에서 VAE는 이미지를 diffusion 과정이 동작하는 압축된 latent 공간으로 인코딩하고, latent 결과를 픽셀 공간 이미지로 다시 디코딩하는 데 쓰입니다.

VAE는 실제 이미지의 고차원 픽셀 공간과 생성 모델이 더 효율적으로 동작하는 저차원 latent 공간 사이의 번역기 역할을 합니다. 생성 시 VAE 디코더가 최종 디노이즈된 latent 표현을 가져와 사용자가 보는 실제 이미지 출력으로 번역합니다. VAE의 품질과 특성이 최종 출력에 큰 영향을 줍니다. 디코딩 시 컬러 시프트, 소프트니스, 아티팩트를 도입하는 VAE는 기저 diffusion 모델이 얼마나 좋든 생성되는 모든 이미지에 영향을 줍니다. 그래서 VAE 개선과 대안이 오픈소스 이미지 생성 커뮤니티에서 활발히 개발되는 영역이며, 디코더를 바꾸면 출력 품질에 의미 있는 영향을 줄 수 있습니다.

VAE의 역할을 이해하면 일부 생성물에 다른 프롬프트와 피사체에 걸쳐 지속되는 특유의 컬러 캐스트, 소프트 에지, 특정 텍스처 질감이 있는 이유를 설명합니다. 이런 질감은 diffusion 모델 자체가 아니라 VAE에서 오는 경우가 많습니다. 실용적으로 이 지식은 콘텐츠 유형별로 어떤 모델 변형을 쓸지 선택하는 데 참고가 됩니다.

Can't find what you are looking for?
Contact us and let us know.
bg