Question 1

拡散モデルとは何ですか。

Accepted Answer

拡散モデルとは、ノイズを加えるプロセスを逆向きにする方法を学習することで画像を作り出す生成AIの一種です。ランダムなノイズから始めて、テキストプロンプトなどの条件付け入力に導かれながら、整った画像が現れるまで段階的にノイズを除去していきます。

Question 2

なぜ今日、拡散モデルはこれほど広く使われているのですか。

Accepted Answer

拡散モデルは、GANのような従来の生成アーキテクチャよりも学習が安定し、テキスト条件付けへの追従に優れた、高品質で多様な出力を生み出します。計算資源に対してスケールでき、幅広い条件付け入力を扱える能力により、現代のAI画像・動画生成において支配的なアーキテクチャとなりました。

Question 3

潜在拡散モデルとは何ですか。

Accepted Answer

潜在拡散モデルは、フル解像度の画素に直接ではなく、潜在空間と呼ばれる画像の圧縮表現で動作します。これにより出力品質を保ちながら計算要件を大幅に削減でき、Stable Diffusionをはじめ多くの実用的な画像生成システムが採用する手法です。

Question 4

拡散モデルでテキスト条件付けはどう機能しますか。

Accepted Answer

テキストエンコーダが、書かれたプロンプトを数値表現に変換し、各ステップでノイズ除去ネットワークに与えます。これにより、統計的にもっともらしいだけの画像ではなく、プロンプトに一致する画像を生み出すよう、ノイズ除去プロセスが進むべき方向を導きます。

Question 5

ノイズ除去ステップとは何で、なぜ重要なのですか。

Accepted Answer

ノイズ除去ステップとは、拡散モデルが最終画像を生み出すために行うノイズ除去の個々の反復のことです。ステップ数が多いほどモデルが画像を精緻化する機会が増え、概して品質とディテールが向上しますが、各ステップには計算時間が必要です。ステップ数が少ないほど速く生成できますが、精緻さに欠ける結果になることがあります。

Question 6

どの画像生成ツールが拡散モデルを使っていますか。

Accepted Answer

Stable Diffusion、DALL-E 2、DALL-E 3、Midjourney、Imagenをはじめ、主要なテキストから画像へのツールのほとんどが拡散モデルのアーキテクチャを使っています。現代のAI動画生成モデルのほとんども、拡散ベースか、拡散モデルの原理から強く影響を受けています。

Question 7

拡散モデルとGANの違いは何ですか。

Accepted Answer

GANは敵対的に学習する競合する生成器と識別器のネットワークを用い、拡散モデル以前の支配的手法でした。GANは不安定で多様性が限られがちです。拡散モデルは学習がより安定し、より多様な出力を生み出し、テキスト条件付けをより確実に扱います。これが、高品質な生成の多くの用途でGANに取って代わった理由です。

Question 8

拡散モデルは画像だけでなく動画にも使えますか。

Accepted Answer

使えます。動画拡散モデルはアーキテクチャを時間方向に拡張し、個別の画像ではなく整合したフレームのシーケンスを生成します。現代のAI動画生成システムのほとんどは、時間的シーケンスに適用された拡散モデルの原理に基づくか、それから大きな影響を受けています。

拡散モデル

拡散モデルとは？

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

種類とバリエーション

Morphicで最初のシーンを作ってみませんか？

主な活用シーン

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

FAQ