エンベディング
エンベディングとは?
エンベディングとは、AIモデルが画像生成を導くために利用できる、概念・スタイル・被写体のコンパクトな数値表現である。少数のサンプルで訓練して作成する。
ひと目で分かる
- 別名
- Textual inversionエンベディングTIエンベディング学習済みトークン概念エンベディング
- 用途
- 生成プロンプトで使う特定の視覚スタイルや被写体の符号化完全なファインチューニングなしの軽量なモデルカスタマイズ繰り返し登場するキャラクターや美的概念を生成ワークフローに追加すること視覚スタイルや被写体をコンパクトなファイルとしてコミュニティ共有すること
- 主なツール
- Stable diffusion with textual inversion trainingAUTOMATIC1111 embedding training interfaceCommunity embedding libraries
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
エンベディング対LoRA:エンベディングは、生成を導くために使われるテキスト条件付けベクトルのみを変更し、ベースモデルがすでに知っていることの範囲内で動作する。LoRAは、モデルの処理層に直接適用される追加の重み調整を訓練するため、モデルがプロンプトされる内容だけでなく情報を処理する方法そのものを変更し、より包括的で柔軟なカスタマイズを提供する。エンベディングは軽量で訓練が速い。LoRAは、特にベースモデルの訓練でよく表現されていない被写体について、より強力で信頼性の高いカスタマイズを提供する。
プロのヒント
Stable Diffusionワークフローでコミュニティのエンベディングを使うときは、常にデフォルトの重み1.0を使うのではなく、(embedding_name:0.8) や (embedding_name:1.2) のように、プロンプト内で異なる重み値で各エンベディングをテストする。一部のエンベディングは異なる強度で訓練されており、デフォルトより少し上か下の重みでより良く機能する。0.7から始めて0.1刻みで上げていくと、埋め込まれた概念とプロンプトの残りを最も有用に混ぜ合わせる重み付けがすぐにわかる。
種類とバリエーション
被写体エンベディングは、特定の人物・キャラクター・対象の視覚的同一性を符号化し、訓練済みトークンをプロンプトに含めることでそれを呼び出せるようにする。スタイルエンベディングは、芸術的スタイル、イラスト技法、視覚的品質の美的特徴を捉え、それを任意の生成コンテンツに適用できる。ネガティブエンベディングは、奨励するのではなく抑制したい視覚的品質を表すよう訓練され、ネガティブプロンプト欄で使用して、特定の望ましくない特徴が生成物に現れる可能性を下げる。より大きなトークン予算で訓練したマルチベクトルエンベディングは、より多くの訓練リソースと引き換えに、より複雑な概念を捉えられる。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
完全なDreamBooth訓練なしでプロンプトから参照できる、繰り返し登場するキャラクターやブランド要素のための軽量エンベディングの作成。Stable Diffusionコミュニティ内で、芸術的スタイルや美的品質を小さなエンベディングファイルとして共有すること。柔軟でモジュール式の生成制御のため、プロンプト内で組み合わせられるスタイルと被写体のエンベディングのライブラリを構築すること。一般的な生成アーティファクト、解剖学的な誤り、望ましくない視覚的特徴をすべての生成で抑制するためにネガティブエンベディングを使うこと。特定のフィルムグレイン、色調処理、構図の傾向などの視覚的品質をエンベディングとして符号化し、プロジェクト全体で一貫して適用すること。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
エンベディングとは、少数のサンプル画像で訓練された、視覚的概念・スタイル・被写体のコンパクトな数値表現である。訓練済みのトリガーワードをプロンプトに含めることで、学習した視覚的特徴を生成プロンプトで参照でき、埋め込まれた概念に一致するコンテンツを生成するようモデルを導く。
エンベディングは、生成を導くテキスト条件付けベクトルのみを変更し、ベースモデルの既存の能力の範囲内で動作する。LoRAは、モデルの層に直接適用される追加の重み調整を訓練し、より包括的なカスタマイズを提供する。エンベディングは軽量で訓練が速く、LoRAはより強力で柔軟な結果を提供する。
textual inversionは、ほとんどのStable Diffusionエンベディングの基礎となる技法である。少数のサンプル画像で新しいトークンのエンベディングベクトルを訓練し、モデルの重みを変更せずに、被写体の視覚的特徴を最もよく捉えるモデルの埋め込み空間内の位置を見つける。
textual inversionは、慎重に選んだわずか3〜10枚の画像で有用な結果を生み出せる。画像が多いほど被写体のさまざまな側面のカバー範囲が向上するが、この技法は少数のサンプルしか利用できないfew-shotのケースのために特別に設計されている。
ネガティブエンベディングは、奨励するのではなく抑制したい視覚的品質を表すよう訓練される。生成中にネガティブプロンプト欄に置くと、埋め込まれた特徴が出力に現れる可能性を下げ、再利用可能な品質フィルターとして機能する。
Civitaiのようなコミュニティプラットフォームは、Stable Diffusionコミュニティが共有するキャラクター、スタイル、視覚的概念の大規模なエンベディングライブラリをホストしている。これらはダウンロードして、ファイルを正しいディレクトリに置きプロンプトでトリガーワードを参照することで、個人の生成環境で使用できる。
特定のベースモデルで訓練されたエンベディングは、一般に同じベースのファインチューニング派生モデルと互換性があるが、アーキテクチャが異なるモデルとは互換性がない。Stable Diffusion 1.5で訓練されたエンベディングは、再訓練なしではSDXLや他のアーキテクチャ的に異なるモデルでは機能しない。
AI分野全般において、エンベディングとは離散的な対象の意味的性質を捉える任意の数値ベクトル表現である。画像生成モデルのテキストエンコーダはプロンプトをエンベディングベクトルに変換する。Stable Diffusionコミュニティのtextual inversionエンベディングは、この一般原理の特定の応用であり、その技法を用いて新しい視覚的概念を既存のモデル空間内のベクトルとして表現する。