Token은 AI 언어 모델이 처리하는 텍스트의 기본 단위로, 일반적으로 단어, 단어의 일부, 또는 구두 문자에 해당합니다. 텍스트가 AI 모델에 제출되면 먼저 토크나이저에 의해 token으로 나뉘고, 모델은 원시 문자나 전체 단어가 아니라 이 token 시퀀스로 동작합니다. Token을 이해하는 것은 AI 생성 시스템을 다룰 때 관련이 있습니다. 대부분의 모델이 한 번에 처리할 수 있는 token 수에 제한이 있고, 소비된 token 기준으로 사용량에 대해 과금하기 때문입니다.
서로 다른 토크나이제이션 스킴은 텍스트를 token으로 다르게 나눕니다. 흔한 스킴에서 "the", "is" 같은 빈번한 단어는 단일 token이고, 덜 흔한 단어는 둘이나 셋으로 쪼개질 수 있으며, 흔하지 않거나 기술 용어는 더 많이 필요할 수 있습니다. 영어 텍스트에 대한 대략적 경험 법칙은 token 하나가 약 3–4자 또는 단어의 3/4에 해당하므로, 100 token은 약 75단어를 나타냅니다. 이미지·비디오 생성 모델에서 토크나이제이션 개념은 시각 정보로 확장됩니다. 일부 아키텍처는 이미지 패치를 텍스트 token과 유사하게 모델이 처리하는 시각 token으로 변환해, 텍스트와 이미지 정보가 통합 표현으로 함께 처리되게 합니다. Token 제한은 모델이 수용할 수 있는 최대 프롬프트 길이, 생성할 수 있는 최대 출력 길이, 세션 동안 메모리에 유지할 수 있는 컨텍스트 윈도우 크기를 정의합니다.
텍스트가 많은 프롬프트로 AI 생성에 작업하는 크리에이터에게 token 제한을 이해하면, 매우 길고 상세한 프롬프트가 잘리거나 더 간결·집중된 설명보다 더 나쁜 결과를 내는 이유를 설명합니다. 프롬프트 시작에 가장 중요한 정보를 두면 총 프롬프트 길이와 관계없이 모델이 가장 크게 반영하는 부분에 핵심 세부가 들어갑니다.