トークン化
トークン化とは?
トークン化とは、AIモデルがテキストを読む前に小さなピースに刻む方法です。モデルが数学的に処理できる扱いやすい塊に単語を分割する仕方です。
ひと目で分かる
- 別名
- テキストトークン化サブワードトークン化バイトペアエンコーディング (BPE)字句解析Tokenisation
- 用途
- AIモデル処理のために生のテキストを数値トークンシーケンスに変換するサブワード分解を通じて稀または珍しい単語を扱うモデルアーキテクチャで語彙サイズとシーケンス長のバランスをとる予期しないトークン分割によって生じるプロンプト解釈の問題を診断する
- Key features
- モデル処理の前にテキストを整数トークンシーケンスに変換するサブワード方式は稀な単語を馴染みのある断片に分解して扱うトークンの境界がモデルが関連用語と概念をどう関連付けるかに影響する言語、スペル、書式の選択がトークナイザーの振る舞いと相互作用する
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
トークン化は、言語モデルにおける語彙の概念とは区別されますが、密接に関連します。モデルの語彙は、それが知るトークンタイプの完全な集合です。トークナイザーが生成でき、モデルが処理できる整数インデックスと対応するテキスト断片の固定リストです。トークン化は、入力テキストをこの語彙から引き出されたシーケンスにマッピングするプロセスです。より大きな語彙を持つモデルは、より多くの異なる概念を単一のトークンとして表現でき、より小さな語彙を持つモデルは同じ概念を複数のトークンに分割することがあります。トークン化はまた、処理の次のステップであるエンベディングとも区別されます。エンベディングは各トークンの整数を、その意味をエンコードする高次元の数値ベクトルに変換しますが、トークン化は単にテキストを意味情報をエンコードしない整数インデックスのシーケンスに変換するだけです。
たとえば…
一部の単語が完全に読みやすく、他がにじんでいたり馴染みのない筆跡で書かれていたりする手書きの手紙を読むことを想像してください。あなたの脳は読みやすい単語を全体の単位として扱い、瞬時に理解します。にじんだ、または馴染みのない単語については、それを文字ごとに分解し、読み取れる断片から最良の推測を組み立てます。これがおおよそサブワードトークン化の仕組みです。馴染みのある一般的な単語は単一トークンとして処理され、珍しい、稀な、または不正な単語はその構成ピースに分割され、馴染みのあるサブワード断片から再構成され、モデルが部分から意図した意味を推測するために最善を尽くします。
プロのヒント
プロンプトの用語が期待される結果を生まないとき、問題がモデルの知識ではなくトークン化である可能性を考えてください。珍しいスペル、創造的な複合語、技術的な専門用語を、単一の、よく表現されたトークンとしてトークン化される可能性が高いより標準的な代替に置き換えてみてください。たとえば、難解な技法への様式参照がうまくいかない場合、その名前を使うのではなく、その技法の視覚的な質を平易な言葉で記述してみてください。記述的な言語は、名前そのものよりも確実にトークン化され関連付けられるかもしれません。ラベルから記述へのこの再構成は、トークン化に関連する解釈の失敗に対する最も効果的なプロンプトデバッグ技法の一つです。
種類とバリエーション
主なトークン化のアプローチは、語彙サイズ、シーケンス長、新しい語彙の扱いの間の異なるトレードオフを表します。単語レベルのトークン化は、各異なる単語を単一のトークンにマッピングし、短く直感的なシーケンスを生み出しますが、膨大な語彙を必要とし、未知の単語では完全に失敗します。文字レベルのトークン化は、個々の文字をトークンとして使い、語彙を数百項目に最小化しますが、処理に費用のかかる非常に長いシーケンスを生み出します。現代の言語モデルで支配的なアプローチであるサブワードトークン化は、これらの両極の間に位置します。バイトペアエンコーディングは頻繁な文字ペアを反復的に複合トークンにマージし、WordPieceはマージに確率的な基準を使い、SentencePieceは入力を生のバイトストリームとして扱ってからトークン化する言語非依存の実装で、言語と文字セットを横断してより頑健にします。各方式はトークンの粒度、語彙カバレッジ、シーケンス長の異なるバランスを生み、それがモデルがプロンプトをどれだけ効率的に処理し、馴染みのある言語と新しい言語の境界をどう扱うかに影響します。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
トークン化は、テキストベースのAIシステムとのあらゆる相互作用を支え、会話型AIから生成プロンプトまで、すべての言語モデル使用の背景で目に見えずに動作します。プロンプトのパフォーマンスをトラブルシューティングするときに明示的に関連してきます。特定の用語がプロンプトに明確に現れているにもかかわらず、無視されたり、誤解釈されたり、無関係な概念と混同されたりしている場合、トークン化が原因である可能性が高いです。モデルAPIの上にAIアプリケーションを構築する実務家は、コスト管理とコンテキストウィンドウの計画のためにトークン数を正確に推定するために、コードにトークナイザーを実装する必要があります。AI動画生成のクリエイターにとって、トークン化の認識は診断スキルです。珍しい単語が期待される視覚的連想を引き出さないかもしれない理由を理解することは、モデルのトークナイザーと訓練が共同でより確実に扱う用語へとプロンプトの修正を導くのに役立ちます。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。