토큰(Token)

토큰(Token)이란?

토큰은 AI 모델이 처리의 기본 단위로 사용하는 작은 텍스트 조각( 대략 한 단어나 단어의 일부 )으로, 모델이 이해를 쌓아 올리는 개별 벽돌과 같습니다.

한눈에 보기

다른 이름
텍스트 토큰입력 토큰출력 토큰시각 토큰
주요 용도
AI 모델에서 프롬프트 길이와 컨텍스트 윈도우 소비 측정처리된 토큰을 기준으로 AI API 사용 비용 계산멀티모달 아키텍처에서 이미지 패치를 시각 토큰으로 표현프롬프트 콘텐츠 전반에 모델 어텐션이 어떻게 분산되는지 이해
Key features
텍스트 처리의 기본 단위: 대략 한 단어나 단어의 일부토큰 한도가 최대 프롬프트 길이, 출력 길이, 세션 메모리를 정의멀티모달 모델에서 이미지·영상 입력을 위해 시각 토큰으로 확장됨토큰 위치와 근접성이 개념들이 얼마나 강하게 연관되는지에 영향

지금 만들어 볼까요?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.

다른 개념과의 비교

다른 개념과의 비교

Compared with related concepts

토큰은 단어, 문자, 파라미터와 관련되어 있지만 구별됩니다. 단어는 토큰이 근사하는 인간의 언어 단위이고, 문자는 토큰이 집계하는 원시 글자 단위이며, 파라미터는 모델 신경망 안의 학습된 가중치로, 일상적 논의에서 토큰과 혼동되기도 하는 전혀 다른 개념입니다. 모델의 파라미터 수는 그 크기와 학습 용량을 묘사하는 반면, 토큰 수는 한 번에 처리할 수 있는 텍스트의 길이를 묘사합니다. 파라미터가 더 많은 모델이 반드시 컨텍스트 윈도우가 더 큰 것은 아니며, 컨텍스트 윈도우가 더 크다고 해서 모델의 지식이나 능력이 더 많음을 의미하지도 않습니다. 이 구분은 AI 도구를 평가할 때 중요합니다. 파라미터 수는 모델이 무엇을 아는지의 척도이고, 토큰 한도는 한 번에 얼마나 많이 주목할 수 있는지의 척도입니다.


이렇게 생각해 보세요…

토큰을 매우 큰 직소 퍼즐의 한 조각이라고 생각해 보십시오. 한 단어가 흔히 한 조각이지만, 특이하거나 기술적인 단어는 두세 개의 더 작은 조각으로 나뉘어 모델이 맥락으로부터 의미로 조립해야 할 수도 있습니다. 모델은 한 번에 일정 수의 조각만 테이블 위에 둘 수 있습니다. 그 컨텍스트 윈도우입니다. 너무 많은 조각을 테이블에 쏟으면 가장 오래된 것들이 가장자리로 미끄러져 잊힙니다. 이것이 긴 프롬프트가 현재 생성 지점에서 멀리 떨어진 곳에 지정된 지시를 때때로 놓치는 이유입니다. 그 토큰들은 활성 어텐션 공간 너머로 이동한 것입니다.


프로 팁

AI 영상이나 이미지 생성용 프롬프트를 작성할 때, 처음 20~30개 토큰을 노른자위 땅처럼 다루십시오. 배경 요소, 색온도, 분위기 같은 부차적인 디테일을 더하기 전에, 가장 핵심적인 창작 결정( 피사체, 카메라 처리, 시각 스타일, 조명 )을 먼저 내세우십시오. 모델은 뒤쪽 토큰보다 앞쪽 토큰에 더 일관되게 가중치를 두므로, 핵심 지시를 세 번째 단락에 묻은 긴 프롬프트는 흔히 그 지시를 충분히 실행하지 못하면서 앞쪽에 묘사된 디테일은 충실히 따릅니다. 프롬프트가 일관되게 길다면, 맥락에서 추론될 수 있는 어구를 제거하는 트리밍 패스를 시도하여, 모델이 추측할 수 없는 진정으로 구체적인 창작 방향을 위한 토큰을 확보하십시오.

유형과 변형

  • 토큰은 사용되는 모달리티와 맥락에 따라 서로 다른 형태를 띱니다.
  • 텍스트 토큰은 표준 형태로, 입력 텍스트로부터 토크나이저가 만들어 내고 모델의 어텐션 계층이 순차적으로 처리하는 언어 단위입니다.
  • 입력 토큰은 사용자가 프롬프트의 일부로 제출하는 것이고, 출력 토큰은 모델이 응답으로 생성하는 것입니다.
  • 출력 생성이 입력 처리보다 계산상 더 집약적이기 때문에, 상업용 AI API에서는 이 둘의 가격이 다른 경우가 많습니다.
  • 시각 토큰은 그 개념을 이미지 데이터로 확장하여, 이미지를 고정 크기의 공간 패치로 나누고 각 패치를 모델이 텍스트 토큰과 함께 처리하는 수치 벡터로 변환합니다.
  • 영상 모델에서 시간 토큰은 프레임 시퀀스를 나타내며, 공간 패치 구조에 시간 차원을 더합니다.
  • 특수 토큰( 시퀀스의 시작이나 끝을 표시하는 것, 또는 서로 다른 콘텐츠 유형 사이의 구분자 토큰 같은 )은 모델이 컨텍스트 구조를 관리하기 위해 내부적으로 사용합니다.

Morphic에서 첫 장면을 만들어 볼까요?

Morphic 체험하기

주요 활용 사례

  • 토큰에 대한 인식은 API를 통해 AI 모델을 다룰 때 가장 직접적으로 관련됩니다.
  • 사용량이 토큰당으로 청구되고, 컨텍스트 윈도우 한도 때문에 프롬프트 길이와 대화 기록을 세심하게 관리해야 하기 때문입니다.
  • AI 기반 애플리케이션을 만드는 개발자는 컨텍스트 한도를 초과하지 않고 API 비용을 관리하기 위해 세션 전반의 누적 토큰 수를 추적해야 합니다.
  • AI 생성 인터페이스를 직접 사용하는 크리에이터에게는, 길고 상세한 프롬프트를 구성할 때 토큰 고려가 관련됩니다.
  • 특히 여러 피사체, 특정한 양식적 레퍼런스, 상세한 기술 지시가 있는 복잡한 장면에서는 프롬프트의 뒷부분 내용에 모델이 충분히 주목하지 못할 위험이 있습니다.
  • 토큰 할당을 이해하면 다인물 장면에서 한 피사체가 때때로 충분히 명시되지 않는 이유도 설명됩니다.
  • 프롬프트가 첫 번째 피사체를 상세히 확립하는 데 많은 토큰을 쓰면, 두 번째 피사체를 묘사할 토큰이 적게 남아 구성 전반의 생성 품질이 고르지 않게 됩니다.

지금 만들어 볼까요?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.

FAQ

AI에서 토큰이란 무엇이며 왜 중요합니까?

토큰은 AI 모델이 처리하는 텍스트의 기본 단위입니다. 모델은 원시 문자나 완전한 단어를 읽는 대신, 토크나이저를 사용해 입력 텍스트를 표준화된 단위로 분할하여 만든 토큰 시퀀스 위에서 동작합니다. 토큰 수는 프롬프트 길이 한도, 세션 메모리 크기, API 사용 비용을 결정하기 때문에 중요합니다. 또한 매우 긴 토큰 시퀀스에서 현재 생성 지점으로부터 멀리 떨어진 콘텐츠에 주목하는 모델의 능력이 떨어지기 때문에, 길거나 복잡한 프롬프트의 생성 품질에 영향을 줍니다.

토큰은 대략 몇 단어입니까?

유용한 어림법은 100개의 토큰이 영어로 약 75개 단어에 대응한다는 것으로, 한 단어가 평균 약 1.33개 토큰임을 의미합니다. the나 and 같은 흔한 짧은 단어는 보통 단일 토큰인 반면, 더 길거나 드문 단어는 두 개 이상의 토큰으로 나뉠 수 있습니다. 문장부호, 공백, 특수 문자도 토큰을 소비하므로, 실제 단어 대 토큰 비율은 글쓰기 스타일, 어휘 복잡도, 그리고 모델이 사용하는 특정 토크나이제이션 방식에 따라 달라집니다.

컨텍스트 윈도우란 무엇이며 토큰과 어떻게 관련됩니까?

컨텍스트 윈도우는 AI 모델이 단일 세션에서 처리할 수 있는 최대 토큰 수, 즉 그 작업 메모리입니다. 모든 입력 토큰(프롬프트)과 출력 토큰(응답)이 이 한도에 산입됩니다. 대화나 프롬프트가 컨텍스트 윈도우를 초과하면 앞선 콘텐츠가 잘리거나 가중치가 낮아져, 모델이 앞서 받은 정보에 대한 접근을 잃게 됩니다. 컨텍스트 윈도우 크기는 모델에 따라 크게 다르며, 작은 시스템의 수천 토큰부터 프런티어 모델의 수십만 토큰까지 이릅니다.

이미지 같은 시각 입력도 토큰을 소비합니까?

네. 이미지 입력을 받는 멀티모달 모델에서는 이미지가 공간 패치로 나뉘고 각 패치가 시각 토큰으로 변환됩니다. 일반적인 이미지는 해상도와 모델의 패치 크기에 따라 수백 개의 시각 토큰을 생성할 수 있습니다. 고해상도 이미지는 더 많은 토큰을 소비하므로, 멀티모달 프롬프트에 고해상도 레퍼런스 이미지를 사용하면 텍스트 지시를 위한 남은 토큰 예산이 크게 줄어들 수 있습니다. 시각 입력을 사용할 때 이미지 해상도에 유의하면 이미지 컨디셔닝 생성 워크플로에서 컨텍스트 윈도우 사용을 관리하는 데 도움이 됩니다.

AI 모델은 왜 때때로 긴 프롬프트 끝부분의 지시를 무시합니까?

모델은 토큰을 순차적으로 처리하고 전체 시퀀스에 어텐션을 분산하지만, 이 어텐션은 완벽하게 균일하지 않습니다. 프롬프트 시작 부분의 콘텐츠와 생성 지점 바로 앞의 콘텐츠가 가장 일관된 어텐션을 받는 경향이 있습니다. 긴 프롬프트 깊숙이 묻힌 지시( 시작에서 수백 토큰 떨어진 )는 충분한 가중치를 받지 못할 위험이 더 큽니다. 특히 프롬프트가 모델의 컨텍스트 윈도우 한도에 가까워질 때 그렇습니다. 가장 핵심적인 창작 지시를 프롬프트 앞쪽에 배치하고 프롬프트를 간결하게 유지하면 이 효과가 줄어듭니다.

입력 토큰과 출력 토큰의 차이는 무엇입니까?

입력 토큰은 모델에 제출되는 프롬프트를 구성하는 토큰입니다. 사용자가 제공한 모든 텍스트, 이미지 패치, 또는 기타 콘텐츠입니다. 출력 토큰은 모델이 응답으로 생성하는 토큰입니다. 상업용 AI API에서는 보통 이 둘의 가격이 다른데, 출력 토큰을 생성하려면 생성되는 토큰마다 모델 전체의 순방향 패스를 실행해야 하기 때문이며, 이는 입력 토큰을 처리하는 것보다 계산상 더 집약적입니다. 전체 스크립트나 긴 창작 트리트먼트를 생성하는 것처럼 긴 출력이 있는 생성 작업의 경우, 출력 토큰 비용이 입력 토큰 비용을 상당히 초과할 수 있습니다.

영상 생성 프롬프트를 작성할 때 토큰을 어떻게 생각해야 합니까?

영상·이미지 생성 프롬프트에서 토큰에 대한 인식은, 부차적인 디테일을 더하기 전에 가장 중요한 창작·구성 결정( 피사체 프레이밍, 카메라 무빙, 시각 스타일, 조명 )을 앞세우는 것을 뜻합니다. 모델은 앞쪽 토큰에 가장 일관되게 주목하므로, 핵심 지시를 빽빽한 단락의 중간이나 끝에 묻으면 실행이 일관되지 않을 위험이 있습니다. 창작적 구체 사항을 앞쪽에 배치하고 새 정보 없이 토큰만 소비하는 중복 표현을 피하는, 간결하고 정밀한 프롬프트를 지향하십시오. 이런 이유로 더 짧고 잘 구조화된 프롬프트가 더 길고 빠짐없는 프롬프트보다 흔히 더 나은 성능을 냅니다.

토큰은 모델 파라미터와 같습니까?

아니요. 토큰과 파라미터는 AI 모델의 전혀 다른 측면을 묘사합니다. 토큰은 모델이 추론 시 처리하는 텍스트나 시각 입력의 단위로, 사용 중 모델에 들어가고 나오는 것을 묘사합니다. 파라미터는 모델 신경망 안에 저장된 학습된 수치 가중치로, 그 지식과 능력을 부호화하며, 모델이 무엇을 알고 정보를 어떻게 처리하는지를 묘사합니다. 파라미터가 더 많은 모델은 학습 용량이 더 크고, 토큰 컨텍스트 윈도우가 더 큰 모델은 한 번에 더 많은 정보를 처리할 수 있습니다. 이들은 서로 다른 모델에 걸쳐 별개로 달라지는 독립적인 속성입니다.

Can't find what you are looking for?
Contact us and let us know.
bg