Question 1

AI에서 트랜스포머 모델이란 무엇인가요?

Accepted Answer

트랜스포머는 셀프 어텐션이라 불리는 메커니즘을 사용해 데이터의 시퀀스(텍스트, 이미지 패치, 영상 프레임)를 처리하는 신경망 아키텍처로, 입력의 모든 요소 사이의 관계를 순차적이 아니라 동시에 계산합니다. 원래 언어 과제를 위해 개발되었지만, 트랜스포머는 AI 생성 전반에서 지배적인 아키텍처가 되어 대부분의 최첨단 텍스트-투-이미지 및 텍스트-투-비디오 모델을 뒷받침합니다. 장거리 의존성을 포착하고, 큰 파라미터 수로 확장하며, 복잡한 관계적 프롬프트를 일관되게 처리하는 능력 덕분에 현대 AI 생성 역량의 토대가 되었습니다.

Question 2

셀프 어텐션이란 무엇이며 왜 중요한가요?

Accepted Answer

셀프 어텐션은 트랜스포머 모델의 핵심 메커니즘입니다. 입력 시퀀스의 각 요소에 대해, 모델은 그 요소가 자신의 표현을 구축할 때 다른 모든 요소에 얼마나 어텐션을 두어야 하는지를 나타내는 어텐션 가중치를 계산합니다. 이를 통해 모델은 입력의 모든 부분 사이의 관계를 동시에 이해할 수 있습니다. 프롬프트 시작의 단어가 끝의 단어와 어떻게 관련되는지, 또는 이미지 한 영역의 조명이 전역적인 장면 구성과 어떻게 관련되는지 등입니다. 이러한 장거리 관계를 포착하는 능력은, 트랜스포머 기반 생성 모델이 복잡하고 다요소적인 프롬프트를 다루고 전역적으로 일관된 출력을 정보를 국소적으로 처리하는 아키텍처보다 더 효과적으로 만들어 내는 이유입니다.

Question 3

디퓨전 트랜스포머란 무엇이며 이전 생성 아키텍처와 어떻게 다른가요?

Accepted Answer

디퓨전 트랜스포머, 즉 DiT 모델은 트랜스포머의 셀프 어텐션 메커니즘을 생성 과정 자체에 적용합니다. 입력 측에 트랜스포머 텍스트 인코더만 두고 생성에는 컨볼루션 U-Net 백본을 사용하는 대신, 이미지 패치나 영상 토큰을 어텐션이 작동하는 시퀀스로 다룹니다. 이는 생성 콘텐츠 전반에 걸쳐 더 나은 전역적 일관성을 만들어 냅니다. 모든 공간 영역이 생성 과정 내내 다른 모든 영역에 어텐션을 두어, 복잡한 장면에 걸쳐 더 일관된 조명, 구조, 디테일을 가능하게 하기 때문입니다. Sora와 FLUX는 현재 생성 품질의 최전선을 대표하는 디퓨전 트랜스포머 아키텍처의 대표적 사례입니다.

Question 4

더 큰 트랜스포머 모델이 일반적으로 더 나은 출력을 내는 이유는 무엇인가요?

Accepted Answer

트랜스포머 성능은 잘 문서화된 관계 속에서 파라미터 수에 따라 확장됩니다. 더 많은 데이터로 더 많은 파라미터를 가지고 학습된 더 큰 모델은 일관되게 더 높은 품질, 더 일관되고, 더 맥락에 민감한 출력을 만들어 냅니다. 더 많은 파라미터가 모델이 학습 데이터와 입력 모두에서 더 복잡한 관계를 학습하고 표현할 수 있게 하기 때문입니다. 셀프 어텐션 메커니즘이 모든 입력 요소 사이의 관계를 모델링하는 능력은, 추가 파라미터가 프롬프트 요소들이 서로 어떻게 관련되는지에 대한 더 미묘한 이해로 이어진다는 것을 의미하여, 명시된 창작 의도의 전체 복잡성을 더 잘 반영하는 출력을 만들어 냅니다.

Question 5

트랜스포머를 이해하면 더 나은 프롬프트를 쓰는 데 어떻게 도움이 되나요?

Accepted Answer

트랜스포머 모델은 셀프 어텐션을 통해 프롬프트의 모든 부분을 동시에 처리하므로, 관계적 구조, 즉 프롬프트의 한 요소가 다른 요소와 어떻게 관련되는지를 이해하도록 만들어졌습니다. 이는 요소들 사이의 관계를 표현하는 일관된 설명으로 작성된 프롬프트가, 단순히 속성을 나열하는 프롬프트보다 더 전역적으로 일관된 출력을 만들어 내는 경향이 있음을 의미합니다. 피사체가 환경과 어떻게 관련되는지, 조명 품질이 분위기와 어떻게 연결되는지, 구성 요소들이 어떻게 함께 작동하는지를 명시하면, 모델의 어텐션 메커니즘에 더 풍부한 관계적 정보를 제공하여 더 통합되고 일관된 생성물을 만들어 냅니다.

Question 6

모든 현대 AI 생성 모델이 트랜스포머 기반인가요?

Accepted Answer

최첨단 생성 모델의 지배적인 추세는 강하게 트랜스포머 기반 아키텍처를 향하지만, 이 분야는 계속 발전하고 있습니다. 텍스트-투-이미지 및 텍스트-투-비디오 생성에서 트랜스포머 기반 텍스트 인코더는 거의 보편적이며, 디퓨전 트랜스포머 아키텍처는 품질의 최전선에 있는 모델의 선호되는 설계가 되었습니다. 일부 모델은 트랜스포머 구성 요소와 컨볼루션 요소를 결합한 하이브리드 아키텍처를 사용합니다. 상태 공간 모델을 포함한 대안 아키텍처가 잠재적으로 더 효율적인 대안으로 활발히 연구되고 있지만, 트랜스포머는 현재 대부분의 프로덕션 품질 생성 시스템의 기준 아키텍처를 규정합니다.

Question 7

트랜스포머 모델과 CLIP의 관계는 무엇인가요?

Accepted Answer

CLIP은 OpenAI가 텍스트와 이미지 표현을 정렬하도록 학습시킨 트랜스포머 기반 모델로, 이미지-텍스트 쌍에 대한 대조 학습을 통해 텍스트 설명을 시각 콘텐츠와 연관 짓는 법을 학습합니다. 많은 텍스트-투-이미지 생성 시스템은 CLIP의 텍스트 인코더(또는 유사한 트랜스포머 기반 텍스트 인코더)를 사용해 프롬프트를 처리하고 생성 과정을 컨디셔닝하는 텍스트 표현을 구축합니다. 따라서 CLIP은 생성 모델 자체라기보다 많은 생성 모델의 파이프라인에서 중요한 구성 요소입니다. 트랜스포머 아키텍처를 사용해 풍부하고 맥락을 인식하는 텍스트 표현을 구축함으로써, 프롬프트 언어를 생성 시스템이 컨디셔닝할 수 있는 형태로 옮깁니다.

Question 8

트랜스포머는 영상 생성을 이미지 생성과 어떻게 다르게 다루나요?

Accepted Answer

영상 생성은 트랜스포머의 토큰 시퀀스를 공간 이미지 패치에서 프레임 시퀀스 안의 공간적 위치와 시간적 위치를 모두 나타내는 시공간 토큰으로 확장합니다. 단일 프레임 안의 공간 관계에만 어텐션을 두는 대신, 영상 생성 트랜스포머는 공간과 시간 모두에 걸친 관계에 어텐션을 두어, 일관된 모션, 프레임 전반에 걸친 일관된 피사체 외모, 그리고 클립의 지속 시간에 걸친 전역적 장면 연속성을 가능하게 합니다. 이 시간적 어텐션이 바로 선도적인 영상 모델이 여러 초의 생성 푸티지에 걸쳐 캐릭터 외모, 조명 일관성, 모션 일관성을 유지할 수 있게 하는 것입니다. 이 능력은 생성의 전체 시공간 범위에 걸친 관계를 모델링하는 트랜스포머 아키텍처의 능력에서 나옵니다.

트랜스포머 모델(Transformer Models)

트랜스포머 모델(Transformer Models)이란?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

유형과 변형

Morphic에서 첫 장면을 만들어 볼까요?

주요 활용 사례

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

FAQ