Glossaryarrow
データセット
データセット

Dataset(データセット)は、AIモデルを訓練するために使う画像・動画・テキストその他のデータの集合で、モデルがパターン・関係・理解対象の領域の構造を学ぶための例を提供します。訓練データセットの規模、品質、多様性、構成が、モデルが生成できる内容と、さまざまなコンテンツタイプでの性能を直接決めます。

AI画像・動画生成では、データセットは通常、言語と視覚概念の関係をモデルに教える、数百万〜数十億の画像・テキストペア、メタデータ付き動画クリップ、その他のマルチモーダルコンテンツで構成されます。これらのデータセットのキュレーションは大きな技術的・倫理的課題で、ある種のコンテンツの包含・除外が、モデルの学習内容、受け継ぐバイアス、出力し得る内容を形作ります。公に訓練されたモデルはウェブスクレープされたデータセットを使うことが多く、商業的に責任あるモデルは知的財産や倫理上の懸念を避けるため、ライセンスまたはキュレーションされたデータセットを使うことがあります。

クリエイターにとって、あらゆるAIモデルがその訓練データセットによって形作られていると理解することは、モデルごとに強み・美的傾向・能力が異なる理由を説明する助けになります。主に写真コンテンツで訓練されたモデルはイラスト風を苦手とし、多様な芸術メディアで訓練されたモデルはスタイルのばらつきをよりうまく扱います。データセットの構成は、ある生成モデルと別のモデルを分ける基礎的な要因の一つです。

Can't find what you are looking for?
Contact us and let us know.
bg