トークン
トークンとは?
トークンとは、AIモデルが処理の基本単位として使うテキストの小さな塊(おおよそ単語または単語の一部)で、モデルが理解を組み立てる個々のレンガのようなものです。
ひと目で分かる
- 別名
- テキストトークン入力トークン出力トークン視覚トークン
- 用途
- AIモデルにおけるプロンプト長とコンテキストウィンドウ消費を測定する処理されたトークンに基づいてAI APIの使用コストを計算するマルチモーダルアーキテクチャで画像パッチを視覚トークンとして表現するモデルのアテンションがプロンプトコンテンツ全体にどう分配されるかを理解する
- Key features
- テキスト処理の基本単位。おおよそ1つの単語または単語の一部トークン制限が最大プロンプト長、出力長、セッションメモリを定義するマルチモーダルモデルで画像・動画入力のために視覚トークンに拡張されるトークンの位置と近接性が概念の関連付けの強さに影響する
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
トークンは単語、文字、パラメータと関連しますが区別されます。単語はトークンが近似する人間の言語の単位であり、文字はトークンが集約する生の文字レベルの単位であり、パラメータはモデルのニューラルネットワーク内の学習された重みで、カジュアルな議論でときにトークンと混同される、まったく異なる概念です。モデルのパラメータ数はそのサイズと学習能力を表し、トークン数は一度に処理できるテキストの長さを表します。より多くのパラメータを持つモデルは、必ずしもより大きなコンテキストウィンドウを持つわけではなく、より大きなコンテキストウィンドウはより多くのモデル知識や能力を意味しません。この区別はAIツールを評価するときに重要です。パラメータ数はモデルが何を知っているかの尺度であり、トークン制限は一度にどれだけ注意できるかの尺度です。
たとえば…
トークンを非常に大きなジグソーパズルのピースだと考えてください。単語はしばしば1つのピースですが、珍しい、または技術的な単語は、モデルが文脈から意味を組み立てる2つか3つの小さなピースに分割される必要があるかもしれません。モデルは一度に一定数のピースしかテーブルに置けません。これがコンテキストウィンドウです。テーブルに多すぎるピースを注ぐと、最も古いものが端から滑り落ちて忘れられます。これが、長いプロンプトがときに現在の生成ポイントから遠く離れて指定された指示を見失う理由です。それらのトークンはアクティブなアテンション空間を超えて移動してしまったのです。
プロのヒント
AI動画または画像生成のプロンプトを書くとき、最初の20から30トークンを一等地として扱ってください。背景要素、色温度、ムードのような二次的なディテールを加える前に、最も重要なクリエイティブな決定(被写体、カメラ処理、視覚スタイル、照明)を先頭に置いてください。モデルは後のトークンよりも前のトークンをより一貫して重み付けし、3段落目にキー指示を埋め込む長いプロンプトは、早く記述されたディテールを忠実に守りながら、その指示を十分に実行しないことがよくあります。プロンプトが常に長い場合は、文脈から推測できるあらゆるフレーズを取り除くトリミングのパスを試し、モデルが推測できない本当に具体的なクリエイティブな方向性のためにトークンを解放してください。
種類とバリエーション
トークンは、それが使われるモダリティと文脈に応じて異なる形態をとります。テキストトークンは標準的な形態で、入力テキストからトークナイザーが生成し、モデルのアテンションレイヤーが順次処理する言語の単位です。入力トークンはプロンプトの一部としてユーザーが送信するものであり、出力トークンはモデルが応答として生成するものです。出力生成は入力処理よりも計算的に集約的であるため、これらは商用AI APIでしばしば異なる価格設定がされます。視覚トークンはこの概念を画像データに拡張し、画像が固定サイズの空間パッチに分割され、各パッチがモデルがテキストトークンと並行して処理する数値ベクトルに変換されます。動画モデルでは、時間的トークンがフレームのシーケンスを表し、空間パッチ構造に時間の次元を加えます。特殊トークン(シーケンスの始まりや終わりを示すもの、または異なるコンテンツタイプ間の区切りトークンなど)は、コンテキスト構造を管理するためにモデルが内部的に使います。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
トークンの認識は、API経由でAIモデルを扱うときに最も直接的に関連します。使用量がトークンごとに課金され、コンテキストウィンドウの制限がプロンプト長と会話履歴の慎重な管理を必要とするからです。AI搭載アプリケーションを構築する開発者は、コンテキスト制限を超えないように、そしてAPIコストを管理するために、セッション全体にわたる累積トークン数を追跡しなければなりません。AI生成インターフェースを直接使うクリエイターにとって、トークンの考慮事項は、長く詳細なプロンプトを構築するときに関連してきます。特に複数の被写体、特定の様式参照、詳細な技術的指示を伴う複雑なシーンで、プロンプトの後半のコンテンツがモデルに十分注意されないリスクがあるときです。トークン配分を理解することは、複数被写体のシーンがときに1つの被写体を十分に指定しない理由を説明するのにも役立ちます。プロンプトが最初の被写体を詳細に確立するのに多くのトークンを費やすと、2番目を記述するために残るトークンが少なくなり、構図全体で不均等な生成品質をもたらします。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。