DreamBooth
DreamBoothとは?
DreamBoothは、特定の被写体の少数の写真でAI画像モデルを学習させ、その被写体を新しい状況、スタイル、文脈で生成できるようにする技術です。
ひと目で分かる
- Type of model
- 既存のテキストから画像への拡散モデルをパーソナライズするための微調整技術
- Developed by
- Google Research
- Key capability
- 特定の被写体の3〜30枚の画像でAI画像生成モデルを学習させ、その被写体を新しい文脈、ポーズ、スタイルで生成できるようにする
- How it fits in AI workflow
- AI制作パイプライン内でカスタムキャラクターモデル、ブランド一貫性のあるビジュアルツール、パーソナライズされた生成器を作成するために使用される。通常、Stable Diffusionベースのモデルとワークフローに適用される
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
DreamBooth対LoRA:DreamBoothは完全に微調整されたモデルチェックポイントを生成し、通常、多様なプロンプト文脈にわたって被写体の強く包括的なパーソナライゼーションを達成します。LoRAは、完全なモデルではなく少数の追加の重みを学習する、計算的により効率的な微調整アプローチで、ストレージと学習時間が少なくて済む一方、強いが時に包括性で劣るパーソナライゼーションを達成します。実際には、LoRAを用いたDreamBoothが両方のアプローチを組み合わせ、DreamBoothの学習方法論をLoRAの効率フレームワークとともに使用して、品質とリソース要件のバランスを取ります。
プロのヒント
DreamBooth学習のための画像の厳選は、出力品質に不釣り合いなほど大きな影響を与えます。できるだけ多くの画像を集めるのではなく、被写体をさまざまな角度、異なる照明条件、異なる背景で示す、多様で高品質な10〜20枚の画像を優先してください。ほぼ重複した画像、非常に似た複数のフレーム、他の視覚的に支配的な要素を含む画像を入れると、モデルに誤ったパターンを教えてしまいます。少数のよく厳選されたセット内の多様性は、冗長な画像の大規模なセットを一貫して上回ります。
種類とバリエーション
完全なDreamBooth微調整は、被写体データセットでモデルの重みのすべてまたは大部分を更新し、包括的で柔軟なパーソナライゼーションを生み出しますが、完全なモデルチェックポイントが生成されるためより多くのストレージを必要とします。LoRAを用いたDreamBoothは、DreamBoothのアプローチをLoRAの効率的な微調整フレームワークと統合し、強いパーソナライゼーションの結果を維持しながらストレージ要件と学習時間を削減します。クラス固有のDreamBooth学習は、事前保存損失を用い、追加の汎用クラス画像でモデルを学習させることで、特定の被写体を学習する間に微調整がモデルの全般的能力を劣化させるのを防ぎます。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
少数のリファレンス画像からカスタムキャラクターモデルを学習させ、多数の異なるプロンプトやシーンでそのキャラクターを一貫して生成する。製品画像で学習させたブランド固有の生成モデルを作成し、プロンプトに記述された任意の文脈で一貫した製品ビジュアライゼーションを可能にする。スタイル的に一貫したリファレンス画像の厳選セットで学習させ、特定の芸術スタイルで画像生成モデルをパーソナライズする。写真セットから繰り返し使えるAIスポークスパーソンやアバターを構築し、マーケティング、教育、コミュニケーションのコンテンツ全体で使用する。デフォルトのベースモデルが必要な特定の被写体やスタイルでうまく機能しない、ドメイン固有のクリエイティブアプリケーション向けにモデルを微調整する。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
DreamBoothは、特定の被写体を描いた少数の画像、通常3〜30枚で既存のAI画像生成モデルを学習させる微調整技術です。学習されたモデルは、その被写体をプロンプトに記述された任意の文脈、スタイル、ポーズで生成できるようになります。
DreamBoothは基本的な結果のためにわずか3〜5枚の画像でも機能しますが、慎重に厳選された多様な10〜30枚の画像が通常、より柔軟で一貫した出力を生み出します。画像の品質と多様性は枚数より重要です。
DreamBoothはGoogleの研究者によって開発され、2022年に発表された論文で記述されました。それ以来、オープンソースのAI画像生成コミュニティで広く採用され、適応されてきました。
DreamBoothは完全に微調整されたモデルチェックポイントを生成し、通常、包括的なパーソナライゼーションを達成します。LoRAは、ベースモデルに重ねられる少数の追加の重みを学習し、ストレージと学習時間が少なくて済みます。LoRAを用いたDreamBoothは、品質と効率のバランスのために両方のアプローチを組み合わせます。
DreamBoothは、特定の人物、キャラクター、製品、芸術スタイル、ペット、物体、そして多様な生成文脈にわたって再現可能である必要のある特徴的な視覚的特性を持つあらゆる被写体について、モデルを学習させられます。
DreamBoothは、オープンソースのモデルの重みをローカルまたはクラウド学習サービスで微調整できる、Stable Diffusionベースのモデルとその派生モデルに最も一般的に適用されます。基盤となる重みにアクセスできない、独自仕様のクローズドモデルには適用できません。
学習時間はハードウェア、データセットのサイズ、学習パラメータによって異なりますが、標準的なDreamBoothの実行は通常、コンシューマー向けまたはクラウドのGPUハードウェアで15分から数時間かかります。LoRAを用いたDreamBoothは、一般に完全な重みのDreamBoothより速く学習します。
事前保存損失は、DreamBooth学習中に使用される技術で、被写体画像とともに追加の汎用クラス画像を含めることで、微調整がモデルの被写体の一般クラスを生成する能力を劣化させるのを防ぎます。たとえば、特定の人物で学習する際、汎用的なポートレート画像を含めることで、モデルが一般的なポートレートの見た目を忘れるのを防ぎます。