Transformer models는 시퀀스를 한 번에 한 단계씩 처리하는 대신, 입력의 모든 요소가 동시에 서로 직접 관계하고 영향을 주도록 하는 self-attention 메커니즘으로 데이터 시퀀스를 처리하는 신경망 아키텍처 클래스입니다. 원래 자연어 처리용으로 개발되었고, 이미지 생성, 비디오 합성, 멀티모달 시스템을 포함한 AI 영역에 적용되어 현재 대부분의 최첨단 AI 생성 모델의 기반이 됩니다.
Self-attention 메커니즘이 transformer를 이전 순차 아키텍처와 구별합니다. 입력의 모든 요소 간 관계를 동시에 계산함으로써 transformer는 이전 아키텍처가 학습하기 어려웠던 장거리 의존성과 맥락 관계를 포착할 수 있습니다. Text-to-image·text-to-video 생성에서 transformer 기반 텍스트 인코더가 프롬프트를 처리하고 의미의 풍부한 표현을 만든 뒤 생성 과정을 컨디셔닝합니다. 완전 transformer 기반 생성 아키텍처(때로 diffusion transformer 또는 DiT 모델이라 함)는 어텐션 메커니즘을 텍스트 처리에만 쓰지 않고 생성 과정 자체에 적용해, 이미지나 비디오 프레임 전반의 더 나은 글로벌 일관성을 가능하게 합니다. Sora, FLUX를 포함한 많은 선도 모델이 transformer 기반 생성 아키텍처를 사용합니다.
실무자에게 transformer를 이해하면 현대 AI 생성 모델이 뉘앙스 있는 프롬프트 언어에 그렇게 반응하는 이유를 설명하는 데 도움이 됩니다. 어텐션 메커니즘이 모델이 프롬프트의 개념 간 복잡한 관계를 이해하게 하며, 각 단어를 독립적으로 다루지 않습니다. 모델 크기가 중요한 이유도 맥락을 줍니다. 더 많은 파라미터를 가진 더 큰 transformer는 더 복잡한 관계를 학습·표현해 일반적으로 더 역량 있고 일관된 출력을 만듭니다.