트랜스포머 모델(Transformer Models)
트랜스포머 모델(Transformer Models)이란?
트랜스포머는 대부분의 현대 생성 모델을 뒷받침하는 AI 아키텍처 유형입니다. 입력의 모든 부분이 다른 모든 부분에 동시에 어텐션을 두게 함으로써 작동하며, 그래서 AI가 프롬프트를 단어 단위로 읽는 대신 복잡하고 미묘한 프롬프트를 이해할 수 있습니다.
한눈에 보기
- 다른 이름
- 어텐션 모델셀프 어텐션 아키텍처디퓨전 트랜스포머DiT 모델
- 주요 용도
- 텍스트 프롬프트를 처리하여 생성을 컨디셔닝하는 풍부한 맥락적 표현 구축하기디퓨전 트랜스포머 아키텍처를 통해 이미지와 영상 생성하기생성 콘텐츠에서 장거리 관계와 전역적 일관성 포착하기대부분의 최첨단 이미지, 영상, 언어 AI 시스템 뒷받침하기
- Key features
- 셀프 어텐션이 모든 입력 요소를 순차적이 아니라 동시에 처리함순차적 아키텍처가 놓치는 장거리 의존성을 포착함매우 큰 파라미터 수까지 효과적으로 확장되며 모델 규모와 함께 향상됨Sora, FLUX를 비롯한 주요 생성 모델 대부분의 토대
지금 만들어 볼까요?
장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요
단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.
다른 개념과의 비교
Compared with related concepts
트랜스포머 모델은 시퀀스 처리 과제에서 그것이 대체한 순환 신경망 아키텍처와 가장 직접적으로 비교됩니다. 순환 신경망(특히 LSTM과 GRU)은 시퀀스를 한 단계씩 처리하며 정보를 앞으로 전달하는 은닉 상태를 유지했지만, 긴 시퀀스에 걸친 장거리 의존성을 유지하는 데 어려움을 겪었습니다. 트랜스포머는 이 순차적 처리를 버리고 전체 시퀀스에 걸친 병렬 셀프 어텐션을 택해, 모든 요소 사이의 관계를 동시에 포착합니다. 이로써 트랜스포머는 장거리 일관성에서 극적으로 더 우수해졌고 학습 중 훨씬 더 병렬화 가능해져, 현대 AI 역량을 규정하는 매우 큰 모델 규모를 가능하게 했습니다. 트랜스포머는 또한 컨볼루션 신경망과도 구별됩니다. 컨볼루션 신경망은 적층을 통해 점점 커지는 국소 수용 영역으로 공간 데이터를 처리하며, 많은 컴퓨터 비전 과제에 유용하지만 이미지 전체에 걸친 전역적 공간 관계를 포착하는 데는 트랜스포머보다 덜 효과적입니다.
이렇게 생각해 보세요…
원고를 검토하는 편집자 위원회를 떠올려 보세요. 순환 아키텍처는 한 명의 편집자가 처음부터 끝까지 텍스트를 읽으며 후반부에 이를 때 앞부분의 구절을 기억하려 애쓰는 것과 같습니다. 마지막 장에 이를 무렵이면 도입부의 세부 사항은 즉각적인 기억에서 희미해집니다. 트랜스포머는 모든 편집자가 모든 문단을 동시에 읽으며, 각자 다른 편집자들에게 각 구절이 자신의 섹션과 어떻게 관련되는지 묻는 것과 같습니다. 그 결과 모든 부분이 어떻게 서로 연결되는지에 대해 훨씬 더 풍부하고 일관된 이해를 얻게 됩니다. 텍스트의 어떤 부분도 다른 어떤 부분과 분리되어 처리되지 않기 때문입니다. 이것이 셀프 어텐션이 하는 일입니다. 모든 요소가 자신의 표현을 형성할 때 다른 모든 요소를 직접 참조하게 해 줍니다.
프로 팁
현대 생성 모델이 트랜스포머 기반이라는 점을 아는 것은 프롬프트를 어떻게 쓸지 조정하는 데 도움이 됩니다. 셀프 어텐션은 모델이 프롬프트의 모든 부분을 서로 관련 지을 수 있게 하므로, 요소들 사이의 관계를 명확히 명시한 잘 구조화된 프롬프트(피사체가 환경과 어떻게 관련되는지, 조명이 분위기와 어떻게 관련되는지)는 서로 연결되지 않은 속성의 나열보다 더 일관되게 처리됩니다. 요소들이 어떻게 함께 작동하는지를 표현하는 일관된 설명으로 작성된 프롬프트는, 원하는 특성을 단순히 열거하는 프롬프트보다 더 전역적으로 일관된 출력을 만들어 내는 경향이 있습니다. 바로 트랜스포머의 어텐션 메커니즘이 관계적 구조를 이해하도록 만들어졌기 때문입니다.
유형과 변형
- 트랜스포머 아키텍처는 AI 생성 영역 안에서 여러 별개의 형태로 발전해 왔습니다.
- BERT와 CLIP 같은 인코더 전용 트랜스포머는 입력 시퀀스를 처리하여 이해와 검색 과제에 사용되는 풍부한 표현을 구축합니다.
- GPT 계열 언어 모델을 포함한 디코더 전용 트랜스포머는 이전의 모든 토큰으로부터 다음 토큰을 예측하며 시퀀스를 자기회귀적으로 생성합니다.
- 인코더-디코더 트랜스포머는 두 구성 요소를 결합하여 입력 시퀀스를 처리하고 출력 시퀀스를 생성하는데, 이는 기초 논문에서 기술된 원래 아키텍처입니다.
- 이미지와 영상 생성에서 가장 중요한 최근 발전은 디퓨전 트랜스포머로, 이전 디퓨전 모델의 컨볼루션 U-Net 백본을 공간 이미지 패치나 영상 프레임 토큰에 셀프 어텐션을 적용하는 트랜스포머로 대체합니다.
- 이 아키텍처는 컨볼루션 접근법보다 더 나은 전역적 일관성과 더 확장 가능한 학습을 가능하게 하며, 현재 최첨단 이미지·영상 생성 모델의 지배적인 설계입니다.
Morphic에서 첫 장면을 만들어 볼까요?
Morphic 체험하기주요 활용 사례
- 트랜스포머 모델은 사실상 모든 현대 AI 생성 및 언어 도구의 기저가 됩니다.
- 텍스트-투-이미지 및 텍스트-투-비디오 생성 시스템은 트랜스포머 기반 텍스트 인코더로 프롬프트를 처리하며, 점점 더 트랜스포머 기반 생성 백본으로 시각 콘텐츠를 만들어 냅니다.
- 창작 글쓰기, 각본, 기획에 사용되는 대규모 언어 모델은 전적으로 트랜스포머 아키텍처 위에 구축됩니다.
- 텍스트와 이미지 입력을 모두 받는 멀티모달 모델은 통합된 어텐션 메커니즘을 통해 두 모달리티의 토큰을 처리하는 데 트랜스포머 아키텍처를 사용합니다.
- Morphic의 AI 영상 제작 워크플로에서는 지원되는 카탈로그의 모든 모델(Runway Gen-4, Kling, Sora, Veo 등)이 트랜스포머 기반 토대 위에 구축되어 있어, 현대 생성 품질을 특징짓는 프롬프트 민감성, 전역적 일관성, 맥락 반응성이 모두 트랜스포머 아키텍처에서 직접 비롯됩니다.
지금 만들어 볼까요?
장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요
단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.