トークンとは、AI言語モデルが処理するテキストの基本単位で、通常は単語、単語の一部、または句読点文字に対応する。テキストがAIモデルに送られると、まずトークナイザーによってトークンに分割され、モデルは生の文字や単語全体ではなくこのトークン列に対して動作する。トークンを理解することは、ほとんどのモデルが一度に処理できるトークン数に上限があり、消費されたトークン数で利用料金が決まるため、AI生成システムを扱ううえで関連する。
トークナイゼーション方式によって、テキストのトークンへの分割の仕方が異なる。一般的な方式では、「the」や「is」のような頻出語は単一トークンであり、頻度の低い語は二つまたは三つのトークンに分割され、珍しい語や専門用語はさらに多く必要になることがある。英語テキストの大まかな目安では、一トークンは約3〜4文字または単語の4分の3に相当し、百トークンは約75語に相当する。画像・映像生成モデルでは、トークナイゼーションの概念は視覚情報に及ぶ。一部のアーキテクチャは画像パッチを視覚トークンに変換し、モデルがテキストトークンと同様のやり方で処理するため、テキストと画像の情報が統一された表現で一緒に処理できる。トークン上限は、モデルが受け入れられる最大プロンプト長、生成できる最大出力長、セッション中にメモリに保持できるコンテキストウィンドウのサイズを定義する。
AI生成でテキストの多いプロンプトを扱うクリエイターにとって、トークン上限を理解すると、非常に長く詳細なプロンプトが切り詰められたり、より簡潔で焦点を絞った記述より悪い結果を生んだりする理由の説明になる。プロンプトの最も重要な情報を先頭に置くことで、プロンプトの総長に関係なく、モデルが最も重く扱う部分に最も重要なディテールが含まれる。