ハイパーネットワーク
ハイパーネットワークとは?
ハイパーネットワークは、より大きなAI画像モデルの挙動を修正する小さなニューラルネットワークで、元のモデルの重みを直接変更することなく、特定のスタイルや特定の被写体で生成するように訓練します。
ひと目で分かる
- 別名
- HN(Stable diffusionコミュニティでの略称)
- 用途
- 特定のスタイルや被写体に向けてAI画像生成モデルを特化させるアーティストのスタイル適応をベースモデルに適用するモジュール式で差し替え可能なモデル修正を作り出す
- 主なツール
- Stable diffusion (AUTOMATIC1111 WebUI, ComfyUI)Various open-source fine-tuning pipelines
- 関連用語
- LoRAFine-tuningEmbedding / textual inversionStable diffusionModel weights
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
ハイパーネットワーク対LoRA:どちらも、完全な再訓練なしにベースモデルを特化させるパラメーター効率の良いファインチューニング手法です。LoRAは、重みの更新を低ランク行列のペアに分解してモデルの層に直接適用することで機能し、同程度の計算コストでハイパーネットワークよりも一般的に優れた品質とより予測可能な訓練の挙動を達成します。その結果、LoRAが実際には主要な技法になっています。ハイパーネットワークは比較すると古く、より制限されますが、LoRAのサポートが利用できない環境では依然として使えます。
プロのヒント
AUTOMATIC1111でハイパーネットワークを扱うとき、強度の乗数(ハイパーネットワークの修正がどれだけ強く適用されるかをスケーリングする値)は出力に大きく影響します。最大強度(1.0)では、多くのハイパーネットワークがプロンプトを圧倒し、プロンプトの内容を犠牲にしてハイパーネットワークのスタイルを反映した出力を生み出します。乗数を0.5~0.7に下げると、ハイパーネットワークのスタイル的影響とプロンプトで記述された内容の間で、より良い混ざり合いが生まれることが多いです。
種類とバリエーション
ハイパーネットワークは通常、その訓練ターゲットによって特徴づけられます。スタイルハイパーネットワークは特定の視覚的美学やアーティストスタイルの特性を学習し、被写体ハイパーネットワークは特定のキャラクター、オブジェクト、コンセプトの見た目を学習します。サイズ(層の深さと幅で測られる)と訓練品質はさまざまで、より大きなハイパーネットワークはより多くのニュアンスを捉える可能性がありますが、より多くの訓練データと計算を必要とします。この技法は、Stable Diffusion 1.
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
Stable Diffusionコミュニティ内のアーティストやクリエイターは、ハイパーネットワークを使って特定の芸術運動、イラストレーションスタイル、個々のアーティストの作品の視覚的特性を再現したスタイル適応を訓練し、それらのハイパーネットワークを他者が使えるように共有しました。キャラクターデザイナーは、各プロンプトであらゆる物理的な詳細を記述する必要なく一貫したキャラクター生成を行うために、オリジナルのキャラクターデザインでハイパーネットワークを訓練しました。商業ユーザーは、ブランドの視覚的アイデンティティでハイパーネットワークを訓練し、ブランドに沿った美的出力へ生成を誘導しました。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
ハイパーネットワークは、ベースモデルの重みを直接変更することなく、推論時により大きなAI画像生成モデルの挙動を修正する小さな補助ニューラルネットワークです。ベースモデルの内部処理に学習した調整を適用するように訓練され、フルモデルを再訓練するコストなしに、出力を望ましいスタイル、被写体、美学へと誘導します。
標準的なファインチューニングでは、新しい情報を取り込むためにベースモデル自体の重みが更新されます。ハイパーネットワークのアプローチでは、ベースモデルの重みは変更されないままで、代わりに別個の小さなネットワークが、生成中に動的に適用される調整を生成することを学習します。これにより、ベースモデルを元のまま保ちつつ、複数の異なるハイパーネットワークを必要に応じて読み込んで差し替えられます。
どちらもベースモデルを特化させるパラメーター効率の良いファインチューニング手法ですが、仕組みが異なります。LoRAは低ランクの重みの更新をモデルの層に直接適用し、ハイパーネットワークはベースモデルの活性化を実行時に修正する別個のネットワークを訓練します。LoRAは、通常より優れた品質とより一貫した訓練結果を達成するため、実際にはハイパーネットワークにほぼ取って代わっています。
Stable Diffusionベースのモデル向けのハイパーネットワークは、Civitaiのようなコミュニティリポジトリで入手できます。ハイパーネットワークのファイルを指定のフォルダに置き、生成設定内で選択することで、AUTOMATIC1111 WebUIや互換インターフェース内で使えます。この技法は、より古いStable Diffusion 1.5のワークフローで最も一般的に見られます。
ハイパーネットワークの訓練は、AUTOMATIC1111 WebUIやさまざまなオープンソースの訓練スクリプトでサポートされています。このプロセスには、学習するスタイルや被写体を表す画像のデータセットと、適切な訓練設定が必要です。ハイパーネットワークの訓練は、一般的にフルモデルの訓練より少ない計算リソースで済みますが、一部の他のファインチューニングアプローチよりは多く必要とします。
ハイパーネットワークは、それをサポートするStable Diffusion環境では依然として機能し、利用のピーク期に訓練されたハイパーネットワークは今も入手・使用できます。しかし、LoRAがほとんどの実用目的で主要なファインチューニング技法になっており、同程度以下の計算コストで一般的により優れた結果を提供します。ハイパーネットワークは主に、レガシーなワークフローや、特定の事前訓練済みハイパーネットワークが必要なケースで関心を持たれます。
エンベディング(テキスチュアルインバージョンとも呼ばれる)は、特定のコンセプトを表す小さなトークンベクトルのセットを訓練することでテキストエンコーダーに新しい語彙を追加し、モデルが新しいトリガーワードを学習した視覚的コンセプトに関連づけられるようにします。ハイパーネットワークは、テキスト処理ではなくモデルの画像生成層を修正するため、テキスト記述だけではあまりうまく表現されない視覚的スタイルの特性を捉えるのに適しています。
AUTOMATIC1111や同様のインターフェースでは、通常、生成ごとに一つのハイパーネットワークが適用されます。個別の強度コントロールで複数の適応を同時にスタックできるLoRAとは異なり、ほとんどのツールでのハイパーネットワークの実装は一度に一つを適用します。これは、一つの生成で複数の適応を組み合わせる必要があるクリエイターにとって、LoRAがより大きなワークフローの柔軟性を提供するもう一つの領域です。