디퓨전 모델

디퓨전 모델이란?

디퓨전 모델은 무작위 노이즈에서 시작해 단계별로 점진적으로 정리해 나가면서 텍스트 프롬프트나 다른 지시에 맞는 일관된 그림이 나타날 때까지 이미지를 만드는 법을 학습합니다.

한눈에 보기

다른 이름
디노이징 디퓨전 모델스코어 기반 생성 모델잠재 디퓨전 모델(잠재 공간 변형의 경우)
주요 용도
텍스트-이미지 생성이미지 편집 및 인페인팅영상 생성오디오 생성커스텀 모델 파인튜닝
주로 쓰이는 도구
Stable diffusionDALL-e 2DALL-e 3MidjourneyImagenAI video generation platforms

지금 만들어 볼까요?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.

다른 개념과의 비교

다른 개념과의 비교

Compared with related concepts

디퓨전 모델 대 GAN: 적대적 생성 신경망, 즉 GAN은 디퓨전 모델 이전의 지배적인 이미지 생성 아키텍처였습니다. GAN은 생성기와 판별기라는 두 개의 경쟁 네트워크를 사용해 적대적으로 학습합니다. 선명한 이미지를 만들어 낼 수 있지만, GAN은 학습이 불안정하고, 모드 붕괴에 취약하며, 출력의 다양성이 떨어집니다. 디퓨전 모델은 더 안정적이고, 더 큰 다양성을 만들어 내며, 컨디셔닝을 더 안정적으로 처리하고, 추가 연산에 따라 더 잘 확장되며, 이것이 고품질 이미지 및 영상 생성의 지배적 접근 방식으로서 GAN을 대체한 이유입니다.


프로 팁

디퓨전 기반 도구를 사용할 때, 인터페이스에서 흔히 추론 단계 또는 샘플링 단계라고 불리는 디노이징 단계의 수는 품질과 생성 시간 모두에 직접적인 영향을 미칩니다. 단계가 많을수록 모델이 이미지를 다듬을 기회가 많아져 일반적으로 더 나은 디테일과 일관성을 만들어 내지만, 각 단계는 시간이 걸립니다. 빠른 콘셉트 탐색에는 낮은 단계 수가 사용 가능한 결과를 빠르게 만들어 냅니다. 최종 품질의 생성에는 높은 단계 수가 모델에서 더 많은 디테일을 끌어냅니다. 용도에 허용 가능한 품질을 만들어 내는 최소 단계 수를 찾는 것이 속도와 출력 품질을 균형 잡는 실용적인 방법입니다.

유형과 변형

  • 픽셀 공간 디퓨전 모델은 풀 해상도 이미지 픽셀에 직접 작동하며 상당한 연산 자원을 필요로 합니다.
  • Stable Diffusion을 포함한 잠재 디퓨전 모델은 픽셀에 직접 작동하는 대신 압축된 잠재 공간에서 작동하여, 출력 품질을 유지하면서 연산 요구량을 크게 줄입니다.
  • 스코어 기반 모델은 수학적으로 관련된 접근 방식으로, 다른 정식화를 통해 유사한 생성 품질을 달성합니다.
  • 영상 디퓨전 모델은 이 아키텍처를 시간 차원으로 확장하여 개별 이미지가 아닌 일관된 프레임 시퀀스를 생성합니다.

Morphic에서 첫 장면을 만들어 볼까요?

Morphic 체험하기

주요 활용 사례

  • 창작, 상업, 연구 응용 전반에 걸쳐 텍스트 프롬프트로부터 이미지 생성.
  • 디퓨전 기반 생성을 사용해 영역을 대체하거나 확장함으로써 기존 이미지를 인페인팅 및 아웃페인팅하기.
  • 사전 학습된 디퓨전 모델을 커스텀 데이터셋으로 파인튜닝하여 특화된 캐릭터 모델, 스타일이 일관된 생성기, 또는 도메인 특화 도구 제작.
  • 여러 프레임에 걸쳐 일관된 모션을 만들어 내는 시간적 디퓨전 모델 아키텍처를 사용한 영상 생성.
  • 디퓨전 모델 프레임워크를 활용한 생성형 AI 역량, 정렬, 안전성 연구.

지금 만들어 볼까요?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.

FAQ

디퓨전 모델이란 무엇인가요?

디퓨전 모델은 노이즈를 추가하는 과정을 역으로 학습함으로써 이미지를 만들어 내는 생성형 AI의 한 유형입니다. 무작위 노이즈에서 시작하여 텍스트 프롬프트나 다른 컨디셔닝 입력에 안내받아 일관된 이미지가 나타날 때까지 단계별로 점진적으로 노이즈를 제거합니다.

디퓨전 모델은 왜 오늘날 그토록 널리 사용되나요?

디퓨전 모델은 GAN과 같은 이전 생성 아키텍처보다 학습이 더 안정적이고 텍스트 컨디셔닝을 더 잘 따르는, 고품질의 다양한 출력을 만들어 냅니다. 연산에 따라 확장할 수 있고 넓은 범위의 컨디셔닝 입력을 처리할 수 있는 능력이 이를 현대 AI 이미지 및 영상 생성의 지배적 아키텍처로 만들었습니다.

잠재 디퓨전 모델이란 무엇인가요?

잠재 디퓨전 모델은 풀 해상도 픽셀에 직접 작동하는 대신 잠재 공간이라 불리는 이미지의 압축된 표현에서 작동합니다. 이는 출력 품질을 유지하면서 연산 요구량을 크게 줄이며, Stable Diffusion과 다른 많은 프로덕션 이미지 생성 시스템에서 사용하는 방식입니다.

디퓨전 모델에서 텍스트 컨디셔닝은 어떻게 작동하나요?

텍스트 인코더가 작성된 프롬프트를 수치 표현으로 변환하여 각 단계에서 디노이징 네트워크에 제공하고, 디노이징 과정이 통계적으로 그럴듯한 임의의 이미지가 아니라 프롬프트와 일관된 이미지를 만들어 내도록 어느 방향으로 움직여야 할지를 안내합니다.

디노이징 단계란 무엇이며 왜 중요한가요?

디노이징 단계는 디퓨전 모델이 최종 이미지를 만들어 내기 위해 수행하는 개별적인 노이즈 제거 반복입니다. 단계가 많을수록 모델이 이미지를 다듬을 기회가 많아져 일반적으로 품질과 디테일이 향상되지만, 각 단계는 연산 시간을 필요로 합니다. 낮은 단계 수는 더 빠르게 생성하지만 덜 정제된 결과를 만들어 낼 수 있습니다.

어떤 이미지 생성 도구들이 디퓨전 모델을 사용하나요?

Stable Diffusion, DALL-E 2, DALL-E 3, Midjourney, Imagen을 포함한 대부분의 주요 텍스트-이미지 도구가 디퓨전 모델 아키텍처를 사용합니다. 대부분의 현대 AI 영상 생성 모델도 디퓨전 기반이거나 디퓨전 모델 원리로부터 크게 영향을 받았습니다.

디퓨전 모델과 GAN의 차이는 무엇인가요?

GAN은 적대적으로 학습된 경쟁하는 생성기와 판별기 네트워크를 사용하며 디퓨전 모델 이전의 지배적 접근 방식이었습니다. GAN은 불안정성과 제한된 다양성에 취약합니다. 디퓨전 모델은 학습이 더 안정적이고, 더 다양한 출력을 만들어 내며, 텍스트 컨디셔닝을 더 안정적으로 처리하며, 이것이 대부분의 고품질 생성 응용에서 GAN을 대체한 이유입니다.

디퓨전 모델은 이미지뿐 아니라 영상에도 작동하나요?

네. 영상 디퓨전 모델은 이 아키텍처를 시간 차원을 포함하도록 확장하여 개별 이미지가 아닌 일관된 프레임 시퀀스를 생성합니다. 대부분의 현대 AI 영상 생성 시스템은 시간적 시퀀스에 적용된 디퓨전 모델 원리에 기반하거나 그로부터 크게 영향을 받았습니다.

Can't find what you are looking for?
Contact us and let us know.
bg