訓練データ
訓練データとは?
訓練データとは、AIモデルが学習したすべての画像、動画、テキストです。物事がどう見えるか、言語が視覚にどう繋がるかについて、モデルが知っているすべての源です。
ひと目で分かる
- 別名
- 訓練データセット訓練コーパス訓練セット事前訓練データ
- 用途
- AIモデルに視覚コンテンツと言語記述を関連付けることを教えるモデルが生成できるスタイル、被写体、視覚概念の範囲を確立するモデルが一部のコンテンツタイプでうまくいき他で苦労する理由を診断するベースモデルの訓練カバレッジのギャップを特定してファインチューニングの判断を情報提供する
- Key features
- モデルが何を知り、何を生成でき、どんなバイアスを持つかを直接決定する画像・テキストペアが生成モデルに言語から視覚への関連を教えるデータセットの品質、多様性、カバレッジが生成の品質と範囲を決定する訓練データでの被写体の過小代表は一貫しない生成を生み出す
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
訓練データは、ファインチューニングデータ、推論入力、モデルパラメータとは区別されますが、すべてモデルの動作方法に関連しています。訓練データは、モデルをゼロから訓練するために使われる膨大なデータセットです。基礎的な知識を確立する数十億の例です。ファインチューニングデータは、すでに訓練済みのモデルを特定のタスクやスタイルに適応させるために使われる、はるかに小さくターゲットを絞ったデータセットです。推論入力は、生成時にモデルに提出されるプロンプトとリファレンスです。モデルを使うときにあなたが提供するものです。モデルパラメータは、訓練データから導かれたすべての知識をエンコードするニューラルネットワーク内の学習された数値的な重みです。訓練データがパラメータを形作り、パラメータが推論入力の解釈方法を決定し、ファインチューニングデータがパラメータを段階的に調整します。これらの区別を理解することは、異なるタイプの生成課題に対して適切なツール(プロンプト対ファインチューニング対モデル選択)をクリエイターが使うのに役立ちます。
たとえば…
訓練データがAIモデルにとって持つ意味は、人間のアーティストがこれまでに出会ったすべての本、映画、写真、芸術作品が彼らの創造的感性にとって持つ意味と同じです。特定の文化的伝統、視覚言語、美的歴史に育てられたアーティストは、作るすべてのものにそれらの影響を反映します。彼らの目は経験への晒露によって訓練されているのです。その伝統の外で作業するよう頼めば、彼らは試みることができますが、視覚的経験のギャップが矛盾やより自信のない美的な手つきに現れます。AIモデルの訓練データは、その完全な視覚的・言語的教育です。見て言語と関連付けたすべてのものの総体であり、そこから生成するすべてのものを生み出すのです。
プロのヒント
モデルが特定タイプのコンテンツを説得力を持って繰り返し生成できない場合(珍しい美的感覚、視覚的に一貫しないように見える人口統計、モデルが汎用的または不正確な視覚言語でレンダリングする文化的文脈)、モデルが精密な視覚概念と関連付けないかもしれないラベルに頼るのではなく、望む視覚的特質を具体的で特定の言葉で記述してみてください。特定の美的伝統を名指しするプロンプトの代わりに、その視覚的特徴を記述してください。色温度、ライティングの質、構図の慣習、素材のテクスチャです。これはあなたの意図をモデルが訓練と照合できる視覚言語に翻訳し、ラベルと視覚概念の間の弱いかもしれない関連を回避します。
種類とバリエーション
AI生成モデルの訓練データは、訓練されるモダリティとタスクに応じていくつかの形を取ります。画像・テキストペアは、テキスト・トゥ・イメージモデルの中核となるデータセットタイプです。数百万から数十億の画像が、言語と視覚コンテンツの関連を教えるテキスト記述、キャプション、メタデータとペアになっています。動画生成モデルでは、訓練データは記述とペアになった動画クリップにまで及び、静的な視覚コンテンツに加えて時間的な動きのパターンとシーンのダイナミクスを捉えます。合成訓練データ(他のAIシステムによって生成された、または3Dアセットからレンダリングされた画像と動画)は、有機的に収集されたデータを補完するためにますます使われています。特に、自然に発生するデータでは稀な被写体タイプ、視覚的条件、または安全関連のシナリオをカバーするためです。ファインチューニングデータは、ゼロから再訓練することなく事前訓練済みベースモデルを特定のスタイル、被写体、ドメインに適応させるために使われる、より小さくキュレーションされたデータセットです。モデルの振る舞いをターゲットを絞った方法で更新するために使われる、はるかに少量の高度に関連する例です。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
訓練データの考慮は、特定のプロジェクト向けにモデルを選択するときと、予期しない生成の振る舞いを診断するときに最も実用的に関連します。特定の美的要件(特定の視覚スタイル、被写体タイプ、または表現上のニーズ)を持つプロジェクトのためにAI動画生成モデルを選ぶことは、各モデルの訓練データの特性を理解することから恩恵を受けます。それは典型的に、強い結果を生み出すと公に認識されているコンテンツのタイプと相関します。モデルが特定のスタイル、人口統計、または文脈を一貫して説得力を持って生成できない場合、訓練データの過小代表が最も可能性の高い原因です。これは、プロンプトを続けるか、モデルを切り替えるか、関連する例でファインチューニングに投資するかを判断するのに役立つ有用な診断です。訓練データを理解することは、AI生成ツールを使うことの倫理的含意を評価するための重要な文脈でもあり、特に同意、帰属、表現に関するものです。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。