Glossaryarrow
トークン化
トークン化

トークナイゼーションとは、AI言語モデルおよびマルチモーダルモデルが、処理前にテキスト入力をトークンと呼ばれる離散単位に分解するプロセスである。モデルは生の文字列や単語全体ではなくこれらのトークンを扱い、トークンは使用するトークナイゼーション方式に応じて、単語、単語の一部、句読点、その他の言語単位に対応しうる。トークナイゼーションを理解すると、AIモデルがプロンプトを解釈し、ときに誤解する仕方のいくつかが説明できる。

モデルが使う特定のトークナイゼーション方式が、言語の分割の仕方を決める。一般的なアプローチには、単語単位のトークナイゼーション、稀な語をより小さな要素に分割するサブワードトークナイゼーション、語彙サイズと新奇語を慣れ親しんだサブワード単位に分解して扱う能力のバランスを取るバイトペアエンコーディングがある。各トークンはモデルが処理する数値ベクトルに変換される。トークン単位のプロンプトの総長が、モデルのコンテキストウィンドウのどの程度を占めるかを決めるため、トークン上限はAIシステムを扱ううえでの実践的な制約になる。プロンプトトークンはモデルのアテンション機構で互いに作用するため、プロンプト内の概念の順序と近接性が、モデルの解釈においてそれらがどれほど強く結びつくかに影響しうる。

実践的なプロンプティングでは、トークナイゼーションへの意識は、非常に珍しい複合語や創意的な綴りはモデルが意図どおりに処理する能力を損なう形でトークナイズされうること、およびトークン単位のプロンプト長が処理コストと、長く詳細なプロンプトのすべての部分に均等に注意を向けるモデルの能力の両方に影響することを理解することを意味する。ほとんどのクリエイティブな生成作業では、トークナイゼーションは背景で目に見えずに動作するが、特定の語や珍しい構文が期待どおりに解釈されない理由のトラブルシューティングのときに重要になる。

Can't find what you are looking for?
Contact us and let us know.
bg