Question 1

디퓨전 모델이란 무엇인가요?

Accepted Answer

디퓨전 모델은 노이즈를 추가하는 과정을 역으로 학습함으로써 이미지를 만들어 내는 생성형 AI의 한 유형입니다. 무작위 노이즈에서 시작하여 텍스트 프롬프트나 다른 컨디셔닝 입력에 안내받아 일관된 이미지가 나타날 때까지 단계별로 점진적으로 노이즈를 제거합니다.

Question 2

디퓨전 모델은 왜 오늘날 그토록 널리 사용되나요?

Accepted Answer

디퓨전 모델은 GAN과 같은 이전 생성 아키텍처보다 학습이 더 안정적이고 텍스트 컨디셔닝을 더 잘 따르는, 고품질의 다양한 출력을 만들어 냅니다. 연산에 따라 확장할 수 있고 넓은 범위의 컨디셔닝 입력을 처리할 수 있는 능력이 이를 현대 AI 이미지 및 영상 생성의 지배적 아키텍처로 만들었습니다.

Question 3

잠재 디퓨전 모델이란 무엇인가요?

Accepted Answer

잠재 디퓨전 모델은 풀 해상도 픽셀에 직접 작동하는 대신 잠재 공간이라 불리는 이미지의 압축된 표현에서 작동합니다. 이는 출력 품질을 유지하면서 연산 요구량을 크게 줄이며, Stable Diffusion과 다른 많은 프로덕션 이미지 생성 시스템에서 사용하는 방식입니다.

Question 4

디퓨전 모델에서 텍스트 컨디셔닝은 어떻게 작동하나요?

Accepted Answer

텍스트 인코더가 작성된 프롬프트를 수치 표현으로 변환하여 각 단계에서 디노이징 네트워크에 제공하고, 디노이징 과정이 통계적으로 그럴듯한 임의의 이미지가 아니라 프롬프트와 일관된 이미지를 만들어 내도록 어느 방향으로 움직여야 할지를 안내합니다.

Question 5

디노이징 단계란 무엇이며 왜 중요한가요?

Accepted Answer

디노이징 단계는 디퓨전 모델이 최종 이미지를 만들어 내기 위해 수행하는 개별적인 노이즈 제거 반복입니다. 단계가 많을수록 모델이 이미지를 다듬을 기회가 많아져 일반적으로 품질과 디테일이 향상되지만, 각 단계는 연산 시간을 필요로 합니다. 낮은 단계 수는 더 빠르게 생성하지만 덜 정제된 결과를 만들어 낼 수 있습니다.

Question 6

어떤 이미지 생성 도구들이 디퓨전 모델을 사용하나요?

Accepted Answer

Stable Diffusion, DALL-E 2, DALL-E 3, Midjourney, Imagen을 포함한 대부분의 주요 텍스트-이미지 도구가 디퓨전 모델 아키텍처를 사용합니다. 대부분의 현대 AI 영상 생성 모델도 디퓨전 기반이거나 디퓨전 모델 원리로부터 크게 영향을 받았습니다.

Question 7

디퓨전 모델과 GAN의 차이는 무엇인가요?

Accepted Answer

GAN은 적대적으로 학습된 경쟁하는 생성기와 판별기 네트워크를 사용하며 디퓨전 모델 이전의 지배적 접근 방식이었습니다. GAN은 불안정성과 제한된 다양성에 취약합니다. 디퓨전 모델은 학습이 더 안정적이고, 더 다양한 출력을 만들어 내며, 텍스트 컨디셔닝을 더 안정적으로 처리하며, 이것이 대부분의 고품질 생성 응용에서 GAN을 대체한 이유입니다.

Question 8

디퓨전 모델은 이미지뿐 아니라 영상에도 작동하나요?

Accepted Answer

네. 영상 디퓨전 모델은 이 아키텍처를 시간 차원을 포함하도록 확장하여 개별 이미지가 아닌 일관된 프레임 시퀀스를 생성합니다. 대부분의 현대 AI 영상 생성 시스템은 시간적 시퀀스에 적용된 디퓨전 모델 원리에 기반하거나 그로부터 크게 영향을 받았습니다.

디퓨전 모델

디퓨전 모델이란?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

유형과 변형

Morphic에서 첫 장면을 만들어 볼까요?

주요 활용 사례

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

FAQ