ゼロショット学習
ゼロショット学習とは?
ゼロショット学習とは、モデルが特に訓練されたことのないタスクやコンテンツを、より広範な訓練からの一般的な知識を、直接見たことのない新しい状況に適用することで処理する能力です。
ひと目で分かる
- 別名
- Zero-shot generalisationZero-shot inferenceZero-shot capability
- 用途
- タスク固有の訓練例なしに新しいタスクを実行する訓練データにない概念の組み合わせのためにコンテンツを生成するモデルの一般化能力の幅をテストするAIモデルが珍しいプロンプトで成功または失敗する理由を理解する
- Key features
- それらのタスクの直接の訓練例なしにタスクを実行するより広範な訓練知識から新しいシナリオへと一般化するフューショット学習とファインチューニングと対比される実用的な能力でありモデル品質の尺度でもある
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
ゼロショット学習は、モデルの適応のスペクトル上のポイントとして、フューショット学習とファインチューニングと最も有用に対比されます。ゼロショットの性能は、タスク固有のガイダンスなしにモデルができることです。フューショットの性能は、プロンプトで少数の例を与えられたときにモデルができることで、現在の大規模言語・生成モデルでは特定のタスクに対してしばしばゼロショットより劇的に優れています。ファインチューニングは、モデルの重みが特定のデータセットで更新された後にモデルができることで、訓練投資のコストと引き換えに特定のタスクやドメインへの可能な最大の適応を表します。実用的な生成作業では、ほとんどのタスクは純粋なゼロショットとフューショットの領域の間のどこかに収まり、視覚的またはテキストの参照例をプロンプトとともに提供することで出力品質が大幅に向上します。
たとえば…
ゼロショット学習は、日本を訪れたことはないが広範に読み、多くの日本映画を観て、言語を学んだ人に、伝統的な旅館のインテリアを記述するよう求めることに似ています。彼らは被写体を直接経験したことはありませんが、幅広い触れ合いが築いた広範な関連知識から一般化することで、妥当でしばしば正確な記述を生み出せます。彼らの一般化の質は、背景知識がどれだけ豊かで相互接続されているかに依存します。すなわち、深く多様な日本文化への触れ合いを持つ人は、いくつかの側面の表面的な知識を持つ人より正確に一般化します。AIモデルも同様に機能します。すなわち、訓練の幅と深さが、新しいリクエストへのゼロショットの一般化の質を決めます。
プロのヒント
生成モデルが珍しいまたは非常に特定的なプロンプトに対して期待外れの結果を生むとき、問題はしばしばリクエストがモデルの効果的なゼロショットの一般化の範囲外に収まることです。すなわち、概念の組み合わせが、モデルが訓練から正確に補間するには新しすぎるか特定的すぎるのです。実用的な対応はプロンプトを分解することです。すなわち、珍しい組み合わせ全体を一度に求めるのではなく、それを馴染みのある構成要素に分解して別々に記述します。最も新しい要素には視覚参照画像を追加します。様式的な方向性が非常に特定的なら、それを近似する例画像を提供します。提供する各追加のアンカーポイントは、リクエストを純粋なゼロショットの一般化からより導かれた推論へと移し、典型的に大幅に良い結果を生み出します。
種類とバリエーション
ゼロショット学習は、異なるAIモダリティにわたるいくつかの独自の能力を包含します。言語とテキスト生成では、ゼロショット能力により、モデルは特に訓練されていないタスクタイプの指示に従い、テキストを新しいカテゴリーに分類し、訓練データに直接存在しないトピックについての質問に答えられます。画像生成では、ゼロショット能力により、訓練例として直接表現されていない概念の組み合わせ、視覚スタイル、被写体の記述に対して妥当な画像を生成できます。動画生成では、ゼロショットの一般化が、関連する訓練素材からの外挿を通じて整合性のある結果を生み出すカメラ動作、被写体、雰囲気的条件の新しい組み合わせへと拡張します。フューショット学習は、推論時にプロンプトで提供される少数の例がモデルの挙動を導く隣接する能力で、ファインチューニングのコストなしにゼロショット単独より良いタスクの整合を達成します。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
ゼロショット学習は、要求されるタスクやコンテンツが新しい、珍しい、または非常に特定的である、生成AIモデルとのあらゆる相互作用に関連します。名付けられたアーティストやムーブメントに対応しない視覚スタイルを画像生成モデルにプロンプトすることは、記述を整合性のある美的出力に翻訳するためにゼロショットの一般化に頼ります。珍しいフォーマットで、または予期しない視点から概念を説明するよう言語モデルに求めることは、ゼロショットのタスクの一般化に頼ります。非常に特定的で珍しい被写体の組み合わせ(生き物、環境、アクション、スタイルが直接の訓練の類似物を持たない方法で組み合わされたもの)の動画を生成することは、整合性のある結果を生み出すためにゼロショットの一般化に頼ります。リクエストがモデルのゼロショット能力の範囲内に収まるとき、より多くのガイダンスや分解を必要とするときを理解することは、効果的なAI制作のための実用的なスキルです。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
ゼロショット学習は、推論時にタスク固有の例を提供せずにタスクを実行したりコンテンツを生成したりするモデルの能力で、完全に訓練からの一般化に頼ります。フューショット学習は、推論時にリクエストとともに少数の例(典型的には1から5の間)を提供し、望ましい出力がどう見えるかをモデルに示し、ゼロから一般化するのではなく提供された例に応答をパターンマッチングできるようにします。フューショットの性能は、訓練だけからは一般化が難しい特定のフォーマットやスタイルを持つタスクで、典型的にゼロショットより優れています。
ゼロショット学習は、AI生成モデルを柔軟で広く適用可能にする根底にある能力です。すなわち、生成モデルが、直接生み出すよう訓練されたことのない概念や組み合わせのプロンプトに意味のある形で応答することを可能にするものです。ゼロショットの性能の質が、モデルが有用な結果を生み出しつつ馴染みのある領域からどれだけ遠くへ押し進められるかを決めます。ゼロショットの一般化が破綻するところ(非常に新しい、矛盾する、または不十分に指定されたプロンプト)では、出力品質は、要求された新規性へ成功裏に外挿するのではなく、モデルが訓練分布全体で平均化することを反映する一般的または整合性のない結果へと劣化します。
はい。プロンプトの特異性と文脈的アンカーの提供は、モデルが新しいリクエストにどれだけうまく一般化するかに大きく影響します。珍しい概念の組み合わせをその馴染みのある構成要素に分解すること、最も新しい側面に視覚的またはテキストの参照例を提供すること、そしてモデルの訓練が遭遇した可能性の高い言葉で望ましい出力のキャラクターを明示的に記述することは、すべてモデルのゼロショット能力の端にあるタスクの結果を改善します。目標は、モデルが少なすぎるガイダンスから盲目的に外挿するのではなく、新しいターゲットへと補間できるよう、十分な馴染みのある参照ポイントを提供することです。
ゼロショットの失敗は、要求された概念、スタイル、またはタスクの組み合わせがモデルの訓練の効果的な一般化の届く範囲外に収まるときに起こります。すなわち、モデルが要求された新規性へ正確に外挿するための関連パターンが訓練データに十分ないときです。これは、概念が訓練データで本当に稀であるため、概念の組み合わせがモデルが解決できない矛盾するシグナルを作り出すため、またはタスクがモデルのアーキテクチャがサポートしない程度の新しい推論を必要とするために起こり得ます。ゼロショットが失敗すると、典型的な結果は、一般的で、混乱した、またはリクエストの具体的な意図された意味ではなく表面レベルの言葉の最も一般的な関連にデフォルト設定される出力です。
プロンプトエンジニアリングは、ゼロショットとフューショットの能力の制約の中で有用なモデルの性能を最大化する実用的な分野として理解できます。プロンプトエンジニアは、モデルの一般化の能力と協働します。すなわち、モデルが成功裏に一般化できる言葉でリクエストをフレーミングしようとし、ゼロショット単独では不十分なときに例を提供し、曖昧さを減らしモデルの推論を意図された出力へと導くようにプロンプトを構成します。ゼロショット学習を理論的に理解することは、特定のプロンプト戦略がなぜ機能し他がなぜ失敗するかを説明することで、より良いプロンプトエンジニアリングの実践を支えます。
ゼロショット能力はモデルのサイズと訓練データの多様性とともに強くスケールします。すなわち、より多様なデータで訓練されたより大きなモデルは一般的により良いゼロショットの一般化を示します。より小さなまたはより特化したモデルは、その特定の訓練ドメインの外でしばしばゼロショットの性能が乏しく、新しい入力でうまく機能するためにタスク固有の例やファインチューニングを必要とします。非常に大きな事前訓練済みモデル(GPT規模の言語モデル、画像生成のための大規模拡散モデル)の開発は、より小さなモデルが近づけない実用的なレベルにゼロショット能力をもたらしました。これが、大規模な基盤モデルが生成AIアプリケーションで支配的なアプローチになった理由の一つです。
AI動画生成では、ゼロショット能力が、ラベル付き訓練例として直接表現されていなかった被写体、スタイル、カメラ動作、雰囲気的条件のプロンプト記述をモデルがどれだけうまく解釈できるかを決めます。強いゼロショット動画生成能力を持つモデルは、珍しい概念の組み合わせ、技術用語で記述された特定のカメラ技法、または名付けられた視覚参照ではなく記述的な言語で指定された雰囲気的品質に対して妥当な映像を生み出せます。ゼロショット動画生成の能力が超過されるところでは、モデルは具体的に要求された出力ではなく、一般的なカメラ動作、平均化された視覚スタイル、そして一般的な訓練例を近似する被写体表現にデフォルト設定する傾向があります。
最適なアプローチは、要求された出力がどれだけ新しいか特定的かに依存します。モデルの訓練データによく表現された概念やスタイル(名付けられた視覚スタイル、確立された撮影技法、明確に記述された被写体)には、ゼロショット生成が典型的に良い結果を生み、参照画像はわずかな改善を加えます。モデルの訓練分布に押し迫る非常に特定的、珍しい、または新しい概念には、参照画像が、モデルの推論を一般的な平均ではなく意図されたターゲットへと導く価値あるアンカーです。実際には、生成の最も特定的で新しい要素には参照画像を提供しつつ、より馴染みのある要素にはゼロショット能力に頼ることが、最も効率的なアプローチです。