Question 1

AIにおけるトークンとは何で、なぜ重要なのですか？

Accepted Answer

トークンとは、AIモデルが処理するテキストの基本単位です。生の文字や完全な単語を読むのではなく、モデルはトークナイザーを使って入力テキストを標準化された単位に分割することで生成されたトークンシーケンス上で動作します。トークン数は、プロンプト長の制限、セッションメモリのサイズ、API使用コストを決定するため重要です。そして、非常に長いトークンシーケンスにわたってコンテンツに注意するモデルの能力が、現在の生成ポイントから遠いコンテンツに対して低下し、長いまたは複雑なプロンプトの生成品質に影響するからでもあります。

Question 2

トークンはおおよそ何単語ですか？

Accepted Answer

有用な経験則は、100トークンが英語で約75単語に対応するということで、つまり1単語が平均して約1と1/3トークンになります。theやandのような一般的な短い単語は典型的には単一トークンですが、より長い、または珍しい単語は2つ以上のトークンに分割されることがあります。句読点、スペース、特殊文字もトークンを消費するため、実際の単語対トークンの比率は、文体、語彙の複雑さ、そしてモデルが使う特定のトークン化方式によって変化します。

Question 3

コンテキストウィンドウとは何で、トークンとどう関係しますか？

Accepted Answer

コンテキストウィンドウとは、AIモデルが単一のセッションで処理できる最大トークン数、つまりその作業メモリです。すべての入力トークン（プロンプト）と出力トークン（応答）がこの制限にカウントされます。会話やプロンプトがコンテキストウィンドウを超えると、より早いコンテンツが切り詰められたり重みが軽くなったりし、モデルが以前に与えられた情報へのアクセスを失います。コンテキストウィンドウのサイズはモデル間で大きく異なり、小さなシステムの数千トークンから、フロンティアモデルの数十万トークンまであります。

Question 4

画像のような視覚入力もトークンを消費しますか？

Accepted Answer

はい。画像入力を受け入れるマルチモーダルモデルでは、画像は空間パッチに分割され、各パッチが視覚トークンに変換されます。典型的な画像は、その解像度とモデルのパッチサイズに応じて数百の視覚トークンを生成することがあります。高解像度の画像はより多くのトークンを消費します。つまりマルチモーダルプロンプトで高解像度のリファレンス画像を使うと、テキスト指示のために残るトークン予算を大幅に減らすことがあります。視覚入力を使うときに画像解像度に留意することは、画像条件付き生成ワークフローでコンテキストウィンドウの使用を管理するのに役立ちます。

Question 5

AIモデルはなぜ長いプロンプトの終わり近くの指示をときに無視するのですか？

Accepted Answer

モデルはトークンを順次処理し、シーケンス全体にアテンションを分配しますが、このアテンションは完全に均一ではありません。プロンプトの始まり近くのコンテンツと、生成ポイントの直前のコンテンツが、最も一貫したアテンションを受ける傾向があります。長いプロンプトの奥深く（始まりから数百トークン）に埋め込まれた指示は、特にプロンプトがモデルのコンテキストウィンドウ制限に近づいている場合、重みが軽くなるリスクが大きくなります。最も重要なクリエイティブな指示をプロンプトの早い段階に置き、プロンプトを簡潔に保つことが、この効果を減らします。

Question 6

入力トークンと出力トークンの違いは何ですか？

Accepted Answer

入力トークンとは、モデルに送信されるプロンプトを構成するトークンです。ユーザーが提供するすべてのテキスト、画像パッチ、その他のコンテンツです。出力トークンとは、モデルが応答として生成するトークンです。商用AI APIでは、これらは典型的には異なる価格設定がされます。なぜなら出力トークンを生成するには、生成される各トークンに対してモデルの完全なフォワードパスを実行する必要があり、それが入力トークンを処理するよりも計算的に集約的だからです。長い出力を伴う生成タスク（完全なスクリプトや長いクリエイティブトリートメントの生成など）では、出力トークンのコストが入力トークンのコストを大幅に超えることがあります。

Question 7

動画生成プロンプトを書くとき、トークンについてどう考えるべきですか？

Accepted Answer

動画と画像の生成プロンプトでは、トークンの認識とは、二次的なディテールを加える前に最も重要なクリエイティブで構図的な決定（被写体のフレーミング、カメラ動作、視覚スタイル、照明）を先頭に置くことを意味します。モデルは前のトークンに最も一貫して注意するため、密な段落の中間や終わりにキー指示を埋め込むと、一貫性のない実行のリスクがあります。クリエイティブな具体を先頭に置き、新しい情報を加えずにトークンを消費する冗長な言い回しを避ける、簡潔で精密なプロンプトを目指してください。この理由から、より短く、よく構造化されたプロンプトが、より長く、より網羅的なものをしばしば上回ります。

Question 8

トークンはモデルのパラメータと同じですか？

Accepted Answer

いいえ。トークンとパラメータはAIモデルのまったく異なる側面を表します。トークンは、モデルが推論時に処理するテキストまたは視覚入力の単位です。使用中にモデルに入り、そして出てくるものを表します。パラメータは、モデルのニューラルネットワーク内に保存された学習された数値の重みで、その知識と能力をエンコードします。モデルが何を知り、どう情報を処理するかを表します。より多くのパラメータを持つモデルはより多くの学習された容量を持ち、より大きなトークンコンテキストウィンドウを持つモデルは一度により多くの情報を処理できます。これらは異なるモデル間で別々に変化する独立した特性です。

トークン

トークンとは？

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

種類とバリエーション

Morphicで最初のシーンを作ってみませんか？

主な活用シーン

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

FAQ