拡散モデル
拡散モデルとは?
拡散モデルは、ランダムなノイズから始めて段階的にそれを整えていき、テキストプロンプトなどの指示に一致する整った画像が現れるまで続けることで、画像の作り方を学習します。
ひと目で分かる
- 別名
- ノイズ除去拡散モデルスコアベース生成モデル潜在拡散モデル(潜在空間の変種について)
- 用途
- テキストから画像への生成画像編集とインペインティング動画生成音声生成カスタムモデルのファインチューニング
- 主なツール
- Stable diffusionDALL-e 2DALL-e 3MidjourneyImagenAI video generation platforms
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
拡散モデル対GAN:敵対的生成ネットワーク、すなわちGANは、拡散モデル以前に支配的だった画像生成アーキテクチャです。GANは生成器と識別器という2つの競合するネットワークを用い、敵対的に学習します。シャープな画像を生成できる一方で、GANは学習が不安定で、モード崩壊を起こしやすく、出力の多様性も低くなります。拡散モデルはより安定し、より高い多様性を生み出し、条件付けをより確実に扱い、追加の計算資源に対してより良くスケールします。これが、高品質な画像・動画生成の支配的手法としてGANに取って代わった理由です。
プロのヒント
拡散ベースのツールを使う際、インターフェースでしばしば推論ステップやサンプリングステップと呼ばれるノイズ除去ステップの数は、品質と生成時間の両方に直接影響します。ステップ数が多いほどモデルが画像を精緻化する機会が増え、概してディテールと整合性が向上しますが、各ステップには時間がかかります。素早いコンセプト探索には、低いステップ数で実用的な結果が速く得られます。最終品質の生成には、高いステップ数がモデルからより多くのディテールを引き出します。用途に対して許容できる品質を生み出す最小のステップ数を見つけることが、速度と出力品質を両立させる実用的な方法です。
種類とバリエーション
画素空間の拡散モデルはフル解像度の画素に対して直接動作し、大きな計算資源を要します。Stable Diffusionを含む潜在拡散モデルは、画素に直接ではなく圧縮された潜在空間で動作し、出力品質を保ちながら計算要件を大幅に削減します。スコアベースのモデルは数学的に関連する手法で、異なる定式化を通じて同様の生成品質を達成します。動画拡散モデルはアーキテクチャを時間方向に拡張し、個別の画像ではなく整合したフレームのシーケンスを生成します。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
クリエイティブ、商業、研究の各用途にわたる、テキストプロンプトからの画像生成。拡散ベースの生成を用いて領域を置き換えたり拡張したりする、既存画像のインペインティングやアウトペインティング。カスタムデータセット上で事前学習済みの拡散モデルをファインチューニングし、専用のキャラクターモデル、スタイルの一貫した生成器、特定ドメインのツールを作ること。複数フレームにわたる整合した動きを生み出す時間的拡散モデルのアーキテクチャを用いた動画生成。拡散モデルのフレームワークを用いた、生成AIの能力・アラインメント・安全性に関する研究。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
拡散モデルとは、ノイズを加えるプロセスを逆向きにする方法を学習することで画像を作り出す生成AIの一種です。ランダムなノイズから始めて、テキストプロンプトなどの条件付け入力に導かれながら、整った画像が現れるまで段階的にノイズを除去していきます。
拡散モデルは、GANのような従来の生成アーキテクチャよりも学習が安定し、テキスト条件付けへの追従に優れた、高品質で多様な出力を生み出します。計算資源に対してスケールでき、幅広い条件付け入力を扱える能力により、現代のAI画像・動画生成において支配的なアーキテクチャとなりました。
潜在拡散モデルは、フル解像度の画素に直接ではなく、潜在空間と呼ばれる画像の圧縮表現で動作します。これにより出力品質を保ちながら計算要件を大幅に削減でき、Stable Diffusionをはじめ多くの実用的な画像生成システムが採用する手法です。
テキストエンコーダが、書かれたプロンプトを数値表現に変換し、各ステップでノイズ除去ネットワークに与えます。これにより、統計的にもっともらしいだけの画像ではなく、プロンプトに一致する画像を生み出すよう、ノイズ除去プロセスが進むべき方向を導きます。
ノイズ除去ステップとは、拡散モデルが最終画像を生み出すために行うノイズ除去の個々の反復のことです。ステップ数が多いほどモデルが画像を精緻化する機会が増え、概して品質とディテールが向上しますが、各ステップには計算時間が必要です。ステップ数が少ないほど速く生成できますが、精緻さに欠ける結果になることがあります。
Stable Diffusion、DALL-E 2、DALL-E 3、Midjourney、Imagenをはじめ、主要なテキストから画像へのツールのほとんどが拡散モデルのアーキテクチャを使っています。現代のAI動画生成モデルのほとんども、拡散ベースか、拡散モデルの原理から強く影響を受けています。
GANは敵対的に学習する競合する生成器と識別器のネットワークを用い、拡散モデル以前の支配的手法でした。GANは不安定で多様性が限られがちです。拡散モデルは学習がより安定し、より多様な出力を生み出し、テキスト条件付けをより確実に扱います。これが、高品質な生成の多くの用途でGANに取って代わった理由です。
使えます。動画拡散モデルはアーキテクチャを時間方向に拡張し、個別の画像ではなく整合したフレームのシーケンスを生成します。現代のAI動画生成システムのほとんどは、時間的シーケンスに適用された拡散モデルの原理に基づくか、それから大きな影響を受けています。