Question 1

AI에서 토큰이란 무엇이며 왜 중요합니까?

Accepted Answer

토큰은 AI 모델이 처리하는 텍스트의 기본 단위입니다. 모델은 원시 문자나 완전한 단어를 읽는 대신, 토크나이저를 사용해 입력 텍스트를 표준화된 단위로 분할하여 만든 토큰 시퀀스 위에서 동작합니다. 토큰 수는 프롬프트 길이 한도, 세션 메모리 크기, API 사용 비용을 결정하기 때문에 중요합니다. 또한 매우 긴 토큰 시퀀스에서 현재 생성 지점으로부터 멀리 떨어진 콘텐츠에 주목하는 모델의 능력이 떨어지기 때문에, 길거나 복잡한 프롬프트의 생성 품질에 영향을 줍니다.

Question 2

토큰은 대략 몇 단어입니까?

Accepted Answer

유용한 어림법은 100개의 토큰이 영어로 약 75개 단어에 대응한다는 것으로, 한 단어가 평균 약 1.33개 토큰임을 의미합니다. the나 and 같은 흔한 짧은 단어는 보통 단일 토큰인 반면, 더 길거나 드문 단어는 두 개 이상의 토큰으로 나뉠 수 있습니다. 문장부호, 공백, 특수 문자도 토큰을 소비하므로, 실제 단어 대 토큰 비율은 글쓰기 스타일, 어휘 복잡도, 그리고 모델이 사용하는 특정 토크나이제이션 방식에 따라 달라집니다.

Question 3

컨텍스트 윈도우란 무엇이며 토큰과 어떻게 관련됩니까?

Accepted Answer

컨텍스트 윈도우는 AI 모델이 단일 세션에서 처리할 수 있는 최대 토큰 수, 즉 그 작업 메모리입니다. 모든 입력 토큰(프롬프트)과 출력 토큰(응답)이 이 한도에 산입됩니다. 대화나 프롬프트가 컨텍스트 윈도우를 초과하면 앞선 콘텐츠가 잘리거나 가중치가 낮아져, 모델이 앞서 받은 정보에 대한 접근을 잃게 됩니다. 컨텍스트 윈도우 크기는 모델에 따라 크게 다르며, 작은 시스템의 수천 토큰부터 프런티어 모델의 수십만 토큰까지 이릅니다.

Question 4

이미지 같은 시각 입력도 토큰을 소비합니까?

Accepted Answer

네. 이미지 입력을 받는 멀티모달 모델에서는 이미지가 공간 패치로 나뉘고 각 패치가 시각 토큰으로 변환됩니다. 일반적인 이미지는 해상도와 모델의 패치 크기에 따라 수백 개의 시각 토큰을 생성할 수 있습니다. 고해상도 이미지는 더 많은 토큰을 소비하므로, 멀티모달 프롬프트에 고해상도 레퍼런스 이미지를 사용하면 텍스트 지시를 위한 남은 토큰 예산이 크게 줄어들 수 있습니다. 시각 입력을 사용할 때 이미지 해상도에 유의하면 이미지 컨디셔닝 생성 워크플로에서 컨텍스트 윈도우 사용을 관리하는 데 도움이 됩니다.

Question 5

AI 모델은 왜 때때로 긴 프롬프트 끝부분의 지시를 무시합니까?

Accepted Answer

모델은 토큰을 순차적으로 처리하고 전체 시퀀스에 어텐션을 분산하지만, 이 어텐션은 완벽하게 균일하지 않습니다. 프롬프트 시작 부분의 콘텐츠와 생성 지점 바로 앞의 콘텐츠가 가장 일관된 어텐션을 받는 경향이 있습니다. 긴 프롬프트 깊숙이 묻힌 지시( 시작에서 수백 토큰 떨어진 )는 충분한 가중치를 받지 못할 위험이 더 큽니다. 특히 프롬프트가 모델의 컨텍스트 윈도우 한도에 가까워질 때 그렇습니다. 가장 핵심적인 창작 지시를 프롬프트 앞쪽에 배치하고 프롬프트를 간결하게 유지하면 이 효과가 줄어듭니다.

Question 6

입력 토큰과 출력 토큰의 차이는 무엇입니까?

Accepted Answer

입력 토큰은 모델에 제출되는 프롬프트를 구성하는 토큰입니다. 사용자가 제공한 모든 텍스트, 이미지 패치, 또는 기타 콘텐츠입니다. 출력 토큰은 모델이 응답으로 생성하는 토큰입니다. 상업용 AI API에서는 보통 이 둘의 가격이 다른데, 출력 토큰을 생성하려면 생성되는 토큰마다 모델 전체의 순방향 패스를 실행해야 하기 때문이며, 이는 입력 토큰을 처리하는 것보다 계산상 더 집약적입니다. 전체 스크립트나 긴 창작 트리트먼트를 생성하는 것처럼 긴 출력이 있는 생성 작업의 경우, 출력 토큰 비용이 입력 토큰 비용을 상당히 초과할 수 있습니다.

Question 7

영상 생성 프롬프트를 작성할 때 토큰을 어떻게 생각해야 합니까?

Accepted Answer

영상·이미지 생성 프롬프트에서 토큰에 대한 인식은, 부차적인 디테일을 더하기 전에 가장 중요한 창작·구성 결정( 피사체 프레이밍, 카메라 무빙, 시각 스타일, 조명 )을 앞세우는 것을 뜻합니다. 모델은 앞쪽 토큰에 가장 일관되게 주목하므로, 핵심 지시를 빽빽한 단락의 중간이나 끝에 묻으면 실행이 일관되지 않을 위험이 있습니다. 창작적 구체 사항을 앞쪽에 배치하고 새 정보 없이 토큰만 소비하는 중복 표현을 피하는, 간결하고 정밀한 프롬프트를 지향하십시오. 이런 이유로 더 짧고 잘 구조화된 프롬프트가 더 길고 빠짐없는 프롬프트보다 흔히 더 나은 성능을 냅니다.

Question 8

토큰은 모델 파라미터와 같습니까?

Accepted Answer

아니요. 토큰과 파라미터는 AI 모델의 전혀 다른 측면을 묘사합니다. 토큰은 모델이 추론 시 처리하는 텍스트나 시각 입력의 단위로, 사용 중 모델에 들어가고 나오는 것을 묘사합니다. 파라미터는 모델 신경망 안에 저장된 학습된 수치 가중치로, 그 지식과 능력을 부호화하며, 모델이 무엇을 알고 정보를 어떻게 처리하는지를 묘사합니다. 파라미터가 더 많은 모델은 학습 용량이 더 크고, 토큰 컨텍스트 윈도우가 더 큰 모델은 한 번에 더 많은 정보를 처리할 수 있습니다. 이들은 서로 다른 모델에 걸쳐 별개로 달라지는 독립적인 속성입니다.

토큰(Token)

토큰(Token)이란?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

유형과 변형

Morphic에서 첫 장면을 만들어 볼까요?

주요 활용 사례

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

FAQ