トークン

トークンとは?

トークンとは、AIモデルが処理の基本単位として使うテキストの小さな塊(おおよそ単語または単語の一部)で、モデルが理解を組み立てる個々のレンガのようなものです。

ひと目で分かる

別名
テキストトークン入力トークン出力トークン視覚トークン
用途
AIモデルにおけるプロンプト長とコンテキストウィンドウ消費を測定する処理されたトークンに基づいてAI APIの使用コストを計算するマルチモーダルアーキテクチャで画像パッチを視覚トークンとして表現するモデルのアテンションがプロンプトコンテンツ全体にどう分配されるかを理解する
Key features
テキスト処理の基本単位。おおよそ1つの単語または単語の一部トークン制限が最大プロンプト長、出力長、セッションメモリを定義するマルチモーダルモデルで画像・動画入力のために視覚トークンに拡張されるトークンの位置と近接性が概念の関連付けの強さに影響する

創ってみませんか?

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。

他の概念との比較

他の概念との比較

Compared with related concepts

トークンは単語、文字、パラメータと関連しますが区別されます。単語はトークンが近似する人間の言語の単位であり、文字はトークンが集約する生の文字レベルの単位であり、パラメータはモデルのニューラルネットワーク内の学習された重みで、カジュアルな議論でときにトークンと混同される、まったく異なる概念です。モデルのパラメータ数はそのサイズと学習能力を表し、トークン数は一度に処理できるテキストの長さを表します。より多くのパラメータを持つモデルは、必ずしもより大きなコンテキストウィンドウを持つわけではなく、より大きなコンテキストウィンドウはより多くのモデル知識や能力を意味しません。この区別はAIツールを評価するときに重要です。パラメータ数はモデルが何を知っているかの尺度であり、トークン制限は一度にどれだけ注意できるかの尺度です。


たとえば…

トークンを非常に大きなジグソーパズルのピースだと考えてください。単語はしばしば1つのピースですが、珍しい、または技術的な単語は、モデルが文脈から意味を組み立てる2つか3つの小さなピースに分割される必要があるかもしれません。モデルは一度に一定数のピースしかテーブルに置けません。これがコンテキストウィンドウです。テーブルに多すぎるピースを注ぐと、最も古いものが端から滑り落ちて忘れられます。これが、長いプロンプトがときに現在の生成ポイントから遠く離れて指定された指示を見失う理由です。それらのトークンはアクティブなアテンション空間を超えて移動してしまったのです。


プロのヒント

AI動画または画像生成のプロンプトを書くとき、最初の20から30トークンを一等地として扱ってください。背景要素、色温度、ムードのような二次的なディテールを加える前に、最も重要なクリエイティブな決定(被写体、カメラ処理、視覚スタイル、照明)を先頭に置いてください。モデルは後のトークンよりも前のトークンをより一貫して重み付けし、3段落目にキー指示を埋め込む長いプロンプトは、早く記述されたディテールを忠実に守りながら、その指示を十分に実行しないことがよくあります。プロンプトが常に長い場合は、文脈から推測できるあらゆるフレーズを取り除くトリミングのパスを試し、モデルが推測できない本当に具体的なクリエイティブな方向性のためにトークンを解放してください。

種類とバリエーション

トークンは、それが使われるモダリティと文脈に応じて異なる形態をとります。テキストトークンは標準的な形態で、入力テキストからトークナイザーが生成し、モデルのアテンションレイヤーが順次処理する言語の単位です。入力トークンはプロンプトの一部としてユーザーが送信するものであり、出力トークンはモデルが応答として生成するものです。出力生成は入力処理よりも計算的に集約的であるため、これらは商用AI APIでしばしば異なる価格設定がされます。視覚トークンはこの概念を画像データに拡張し、画像が固定サイズの空間パッチに分割され、各パッチがモデルがテキストトークンと並行して処理する数値ベクトルに変換されます。動画モデルでは、時間的トークンがフレームのシーケンスを表し、空間パッチ構造に時間の次元を加えます。特殊トークン(シーケンスの始まりや終わりを示すもの、または異なるコンテンツタイプ間の区切りトークンなど)は、コンテキスト構造を管理するためにモデルが内部的に使います。

Morphicで最初のシーンを作ってみませんか?

Morphicを試す

主な活用シーン

トークンの認識は、API経由でAIモデルを扱うときに最も直接的に関連します。使用量がトークンごとに課金され、コンテキストウィンドウの制限がプロンプト長と会話履歴の慎重な管理を必要とするからです。AI搭載アプリケーションを構築する開発者は、コンテキスト制限を超えないように、そしてAPIコストを管理するために、セッション全体にわたる累積トークン数を追跡しなければなりません。AI生成インターフェースを直接使うクリエイターにとって、トークンの考慮事項は、長く詳細なプロンプトを構築するときに関連してきます。特に複数の被写体、特定の様式参照、詳細な技術的指示を伴う複雑なシーンで、プロンプトの後半のコンテンツがモデルに十分注意されないリスクがあるときです。トークン配分を理解することは、複数被写体のシーンがときに1つの被写体を十分に指定しない理由を説明するのにも役立ちます。プロンプトが最初の被写体を詳細に確立するのに多くのトークンを費やすと、2番目を記述するために残るトークンが少なくなり、構図全体で不均等な生成品質をもたらします。

創ってみませんか?

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。

FAQ

AIにおけるトークンとは何で、なぜ重要なのですか?

トークンとは、AIモデルが処理するテキストの基本単位です。生の文字や完全な単語を読むのではなく、モデルはトークナイザーを使って入力テキストを標準化された単位に分割することで生成されたトークンシーケンス上で動作します。トークン数は、プロンプト長の制限、セッションメモリのサイズ、API使用コストを決定するため重要です。そして、非常に長いトークンシーケンスにわたってコンテンツに注意するモデルの能力が、現在の生成ポイントから遠いコンテンツに対して低下し、長いまたは複雑なプロンプトの生成品質に影響するからでもあります。

トークンはおおよそ何単語ですか?

有用な経験則は、100トークンが英語で約75単語に対応するということで、つまり1単語が平均して約1と1/3トークンになります。theやandのような一般的な短い単語は典型的には単一トークンですが、より長い、または珍しい単語は2つ以上のトークンに分割されることがあります。句読点、スペース、特殊文字もトークンを消費するため、実際の単語対トークンの比率は、文体、語彙の複雑さ、そしてモデルが使う特定のトークン化方式によって変化します。

コンテキストウィンドウとは何で、トークンとどう関係しますか?

コンテキストウィンドウとは、AIモデルが単一のセッションで処理できる最大トークン数、つまりその作業メモリです。すべての入力トークン(プロンプト)と出力トークン(応答)がこの制限にカウントされます。会話やプロンプトがコンテキストウィンドウを超えると、より早いコンテンツが切り詰められたり重みが軽くなったりし、モデルが以前に与えられた情報へのアクセスを失います。コンテキストウィンドウのサイズはモデル間で大きく異なり、小さなシステムの数千トークンから、フロンティアモデルの数十万トークンまであります。

画像のような視覚入力もトークンを消費しますか?

はい。画像入力を受け入れるマルチモーダルモデルでは、画像は空間パッチに分割され、各パッチが視覚トークンに変換されます。典型的な画像は、その解像度とモデルのパッチサイズに応じて数百の視覚トークンを生成することがあります。高解像度の画像はより多くのトークンを消費します。つまりマルチモーダルプロンプトで高解像度のリファレンス画像を使うと、テキスト指示のために残るトークン予算を大幅に減らすことがあります。視覚入力を使うときに画像解像度に留意することは、画像条件付き生成ワークフローでコンテキストウィンドウの使用を管理するのに役立ちます。

AIモデルはなぜ長いプロンプトの終わり近くの指示をときに無視するのですか?

モデルはトークンを順次処理し、シーケンス全体にアテンションを分配しますが、このアテンションは完全に均一ではありません。プロンプトの始まり近くのコンテンツと、生成ポイントの直前のコンテンツが、最も一貫したアテンションを受ける傾向があります。長いプロンプトの奥深く(始まりから数百トークン)に埋め込まれた指示は、特にプロンプトがモデルのコンテキストウィンドウ制限に近づいている場合、重みが軽くなるリスクが大きくなります。最も重要なクリエイティブな指示をプロンプトの早い段階に置き、プロンプトを簡潔に保つことが、この効果を減らします。

入力トークンと出力トークンの違いは何ですか?

入力トークンとは、モデルに送信されるプロンプトを構成するトークンです。ユーザーが提供するすべてのテキスト、画像パッチ、その他のコンテンツです。出力トークンとは、モデルが応答として生成するトークンです。商用AI APIでは、これらは典型的には異なる価格設定がされます。なぜなら出力トークンを生成するには、生成される各トークンに対してモデルの完全なフォワードパスを実行する必要があり、それが入力トークンを処理するよりも計算的に集約的だからです。長い出力を伴う生成タスク(完全なスクリプトや長いクリエイティブトリートメントの生成など)では、出力トークンのコストが入力トークンのコストを大幅に超えることがあります。

動画生成プロンプトを書くとき、トークンについてどう考えるべきですか?

動画と画像の生成プロンプトでは、トークンの認識とは、二次的なディテールを加える前に最も重要なクリエイティブで構図的な決定(被写体のフレーミング、カメラ動作、視覚スタイル、照明)を先頭に置くことを意味します。モデルは前のトークンに最も一貫して注意するため、密な段落の中間や終わりにキー指示を埋め込むと、一貫性のない実行のリスクがあります。クリエイティブな具体を先頭に置き、新しい情報を加えずにトークンを消費する冗長な言い回しを避ける、簡潔で精密なプロンプトを目指してください。この理由から、より短く、よく構造化されたプロンプトが、より長く、より網羅的なものをしばしば上回ります。

トークンはモデルのパラメータと同じですか?

いいえ。トークンとパラメータはAIモデルのまったく異なる側面を表します。トークンは、モデルが推論時に処理するテキストまたは視覚入力の単位です。使用中にモデルに入り、そして出てくるものを表します。パラメータは、モデルのニューラルネットワーク内に保存された学習された数値の重みで、その知識と能力をエンコードします。モデルが何を知り、どう情報を処理するかを表します。より多くのパラメータを持つモデルはより多くの学習された容量を持ち、より大きなトークンコンテキストウィンドウを持つモデルは一度により多くの情報を処理できます。これらは異なるモデル間で別々に変化する独立した特性です。

Can't find what you are looking for?
Contact us and let us know.
bg