Tokenization은 AI 언어·멀티모달 모델이 텍스트 입력을 처리하기 전에 token이라 하는 이산 단위로 나누는 과정입니다. 원시 문자 열이나 전체 단어로 작업하는 대신 모델은 이 token으로 동작하며, 사용된 토크나이제이션 스킴에 따라 단어, 단어의 일부, 구두점, 기타 언어 단위에 해당할 수 있습니다. Tokenization을 이해하면 AI 모델이 프롬프트를 해석하고 때로 잘못 해석하는 방식 일부를 설명하는 데 도움이 됩니다.
모델이 쓰는 특정 토크나이제이션 스킴이 언어를 어떻게 분할하는지 결정합니다. 흔한 접근에는 단어 수준 토크나이제이션, 희귀 단어를 더 작은 구성요소로 나누는 서브워드 토크나이제이션, 새 단어를 익숙한 서브워드 단위로 나눠 어휘 크기와 처리 능력의 균형을 맞추는 바이트 페어 인코딩이 있습니다. 각 token은 모델이 처리하는 수치 벡터로 변환됩니다. token 단위 프롬프트 총 길이가 모델 컨텍스트 윈도우에서 차지하는 양을 결정하므로, token 제한은 AI 시스템을 다룰 때 실질적 제약입니다. 프롬프트 token은 모델의 어텐션 메커니즘에서 서로 상호작용하므로, 프롬프트에서 개념의 순서와 근접성이 모델 해석에서 얼마나 강하게 연관되는지에 영향을 줍니다.
실용적 프롬프팅에서 토크나이제이션 인식은, 매우 특이한 복합어나 창의적 표기는 모델이 의도대로 처리하는 능력을 줄이는 방식으로 토크나이즈될 수 있다는 것, 그리고 token 단위 프롬프트 길이가 처리 비용과 길고 상세한 프롬프트의 모든 부분에 동등하게 주의하는 모델 능력 모두에 영향을 준다는 것을 의미합니다. 대부분의 크리에이티브 생성 작업에서 토크나이제이션은 배경에서 보이지 않게 동작하지만, 특정 단어나 특이한 구문이 예상대로 해석되지 않는 이유를 해결할 때 관련이 됩니다.