Question 1

AIにおけるトークン化とは何で、なぜプロンプトにとって重要なのですか？

Accepted Answer

トークン化とは、AIモデルが処理する前に入力テキストをトークンと呼ばれる離散的な単位に分割するプロセスです。各トークンはテキストの断片（単語、単語の一部、または句読点）で、モデルが数学的に扱う数値インデックスに変換されます。これがプロンプトにとって重要なのは、用語がトークン化される仕方が、モデルがそれを関連概念とどれだけ強く関連付けるかに影響するからです。単一の馴染みのある単位としてトークン化される単語は、より弱い学習された関連付けを持つ複数のサブワード断片に分割される単語よりも、確実に解釈される傾向があります。

Question 2

なぜ一部の単語は複数のトークンに分割されるのですか？

Accepted Answer

単語は、トークナイザーが語彙の中で単一の専用トークンを割り当てていないほど稀であるときに、複数のトークンに分割されます。バイトペアエンコーディングのようなサブワードトークン化方式は、訓練データの中で最も頻繁な文字シーケンスを複合トークンにマージすることで語彙を構築します。一般的な単語は単一トークンとして語彙に入り、あまり一般的でない単語はより小さく、より基本的な断片から組み立てられなければなりません。訓練データで稀だった、または欠如していた単語は、多くのサブワードピースに分割されることがあり、それぞれが統一された意味の単位としてではなく、モデルによって独立して処理されます。

Question 3

トークン化はAI生成出力の品質にどう影響しますか？

Accepted Answer

トークン化は、モデルが特定の用語をどれだけ確実に解釈するか、そしてプロンプト全体にアテンションをどれだけ均等に分配するかを決定することで、生成品質に影響します。単一のよく表現された単位としてトークン化される用語は、複数の低頻度のサブワード断片に分割される用語よりも、より強い学習された関連付けとより一貫した解釈で処理されます。非常に長いプロンプトでは、トークンのシーケンスもアテンションの分配に影響します。シーケンスの始まりと終わり近くのトークンは、非常に長い入力の中間のものよりも一貫したアテンションを受け、つまりプロンプトの構造は語彙の選択を超えて重要です。

Question 4

バイトペアエンコーディングとは何で、トークン化でどう使われますか？

Accepted Answer

バイトペアエンコーディングは、訓練コーパスで最も頻繁に共起する文字ペアを反復的に複合トークンにマージすることで語彙を構築するサブワードトークン化アルゴリズムです。個々の文字から始まり、最も一般的な隣接ペアを繰り返し特定し、そのマージされた形を語彙に加え、目標の語彙サイズに達するまで続けます。結果として得られる語彙は、個々の文字、一般的な音節、頻繁な単語断片、完全な一般的な単語の混合を含み、特定の単語が訓練中に見られたかどうかに関わらず、あらゆる入力テキストをこの固定語彙から引き出されたトークンのシーケンスとして表現できます。

Question 5

トークン化は異なる言語で異なって機能しますか？

Accepted Answer

はい、トークン化のパフォーマンスは言語間で大きく変化します。これは主に、最も広く使われるトークナイザーが英語テキストのために設計され最適化されたからです。異なる形態論的構造を持つ言語（フィンランド語やトルコ語のように、単語が多くの意味のある構成要素から組み立てられるもの）は、しばしば英語の同等物よりもはるかに多くのトークンを単語あたりに必要とし、効率が劣り、ときに扱いも劣ります。非ラテン文字を使う言語、または異なる単語境界の慣習を持つ言語は、トークナイザーの文字レベルの仮定とパフォーマンスを低下させる方法で相互作用することがあります。英語に最適化されたトークナイザーで主に英語データで訓練されたモデルは、トークン化の設計の選択の直接的な結果として、形態論的に複雑な、または非ラテン文字の言語で一般にパフォーマンスが劣ります。

Question 6

なぜ珍しいスペルや創造的な句読点がときにAIモデルを混乱させるのですか？

Accepted Answer

珍しいスペルと創造的な句読点は、主にトークン化との相互作用を通じてAIモデルを混乱させます。型破りに綴られた単語、または句読点、スペース、大文字小文字が加えられた馴染みのある単語は、その標準形とは異なってトークン化され、両者の間のモデルの学習された関連付けを断ち切ることがあります。モデルが単語の標準形を単一トークンとして強く関連付けている場合、珍しい形は、モデルが意図した意味にあまり確実に結びつけない馴染みのないサブワード断片のシーケンスとして処理されることがあります。標準的で慣習的なテキストは、一般に創造的な正書法の選択よりも、より予測可能なトークン化とより一貫したモデルの振る舞いを生み出します。

Question 7

トークン化はコンテキストウィンドウの制限とどう関係しますか？

Accepted Answer

コンテキストウィンドウの制限は単語や文字ではなくトークンで表現されるため、トークン化はモデルの利用可能なコンテキスト内にどれだけのテキストが収まるかを直接決定します。複雑な技術的語彙で書かれたプロンプトは、単語数が似ていても、同じ情報を単純な一般的な単語で表現したものよりも大幅に多くのトークンを消費することがあります。なぜなら珍しい用語は複数のサブワード断片としてトークン化されるからです。この関係を理解することは、2つが同じ情報を表現する場合は常に、稀な技術用語よりも一般的でよく確立された語彙を好むことで、よりトークン効率の良いプロンプトを書くのに役立ちます。より多くのトークンを必要とする本当に具体的なディテールのためにコンテキストウィンドウの空間を保つのです。

Question 8

プロンプトの用語が期待される結果を生まない場合、どうすべきですか？

Accepted Answer

プロンプトの特定の用語が期待通りに解釈されていない場合、トークン化を一つの可能な原因として考え、いくつかのアプローチを試してください。まず、より単純な同義語またはより一般的な代替の言い回しがより良い結果を生むかどうかをテストします。単一トークンの表現を持つ一般的な単語は、より確実に解釈されます。次に、特定の名前やラベルを使うのではなく、概念をその視覚的な質や特性の観点から記述してみてください。特に、モデルの訓練データで稀だったかもしれない技術的な専門用語や難解な参照についてです。第三に、キー用語をプロンプトの早い段階に置いてみてください。そこではより強いアテンションの重み付けを受けます。これらの要因を生成全体で体系的に変化させることで、問題がトークン化に関連するか、モデルの知識の本当のギャップを反映するかを特定できます。

Question 9

珍しい単語やブランド名はトークン化で問題を引き起こすことがありますか？

Accepted Answer

はい。訓練データに頻繁に現れない一般的でない単語、考案された複合語、または技術的な専門用語は、その個々の意味が意図した全体とは異なる複数のサブワードトークンに分割される可能性が高いです。架空のブランド名や創造的な複合形容詞は、モデルがまったく異なる概念と関連付ける方法で分割されることがあり、混乱した、または的外れな出力を生み出します。一般的な記述的語彙で言い換えることが、通常最も効果的な回避策です。

Question 10

トークン化は画像と動画で異なって機能しますか？

Accepted Answer

テキストと画像の両方を処理するマルチモーダルモデルでは、視覚入力に並行する形態のトークン化が適用されます。画像は固定サイズのパッチ（小さなピクセル領域）に分割され、それがモデルがテキストトークンと並行して処理する視覚トークンにエンコードされます。これにより、モデルはテキストと視覚の両方の情報に統一されたシーケンスで注意できます。一部のアーキテクチャは解像度に応じて画像あたり異なる数のトークンを使い、それがプロンプトのテキスト要素に利用可能なコンテキスト予算に影響します。

Question 11

トークン制限はAI動画生成に特にどう影響しますか？

Accepted Answer

AI動画生成では、プロンプトのトークン制限が、単一の生成リクエストでモデルにどれだけの記述情報を渡せるかを定義します。被写体、環境、照明、カメラ動作、スタイル、ムードを指定する高度に詳細なプロンプトは、相当なトークン予算を消費し、より早い記述要素をモデルの最も注意深い処理範囲の外へ押し出す可能性があります。利用可能なトークンを効率的に使う、焦点を絞り優先順位付けされたプロンプト（あらゆる可能なディテールの網羅的なリストではなく）を書くことが、最大限に長い記述よりも良い生成結果を生む傾向があります。

トークン化

トークン化とは？

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

種類とバリエーション

Morphicで最初のシーンを作ってみませんか？

主な活用シーン

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

FAQ