확산 모델
디퓨전 모델(Diffusion Models)은 점진적인 노이징 과정을 역으로 학습해 이미지나 영상을 만드는 생성 AI 모델의 한 종류입니다. 순수한 랜덤 노이즈에서 시작해 학습된 디노이징 스텝을 반복 적용해, 학습 데이터와 텍스트 프롬프트 같은 조건 입력의 특성에 맞는 일관된 이미지가 나올 때까지 정제합니다.
과정은 두 단계로 학습됩니다. 첫째, 순방향 디퓨전 과정이 학습 이미지에 점점 노이즈를 더해 랜덤 스태틱과 구별되지 않을 때까지 만듭니다. 둘째, 신경망이 이 과정을 역으로 수행하는 법을 배워, 각 스텝에서 노이즈를 제거해 원래 이미지 구조를 복원하는 방법을 예측합니다. 생성 시에는 모델이 랜덤 노이즈에서 시작해 텍스트 프롬프트나 다른 조건 신호에 이끌려 이 학습된 디노이징 과정을 적용해, 노이즈를 점차 의미 있는 이미지로 만듭니다. 이 접근은 다양하고 고품질 출력을 만드는 데 매우 효과적이며, Stable Diffusion, DALL-E 2, Imagen 등 많은 현대 이미지 생성 시스템의 기반이 됩니다.
디퓨전 모델은 GAN 같은 이전 접근과 비교해 생성 AI가 작동하는 방식의 근본적 전환을 나타냅니다. 비교적 안정적으로 학습하면서 고충실도·다양한 출력을 내는 능력으로 현대 AI 이미지·영상 생성의 지배적 아키텍처가 되었고, 그 원리를 이해하면 제작자가 생성 결과를 어떻게 유도·제어할지에 대한 직관을 키우는 데 도움이 됩니다.