敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)とは?
GANは2つのネットワークが競い合うAIシステムです。一方は説得力のある偽の画像を作ろうとし、もう一方は偽物を見破ろうとします。この競争を通じて、生成器はますますリアルな結果を生み出すのが上手くなっていきます。
ひと目で分かる
- 別名
- GAN敵対的ネットワーク生成器・識別器ネットワーク
- 用途
- 画像合成映像生成スタイル転送顔生成画像アップスケーリングドメイン変換
- 主なツール
- StyleGANPix2PixCycleGANBigGANESRGAN
- 関連用語
- Diffusion modelLatent spaceNeural networkStyleGANImage synthesisDiscriminator
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
GAN対拡散モデル:GANは生成器を通る単一の順方向パスで画像を生成するため高速ですが、学習が不安定になることがあり、モード崩壊を起こしやすいです。拡散モデルは反復的なノイズ除去のプロセスを通じて画像を生成し、より遅いものの一般により安定し、より制御しやすく、より高い多様性と品質を実現できます。主要な画像・映像生成ツールのほとんどは拡散ベースのアーキテクチャに移行しましたが、速度が重要な場合にはGANが依然として好まれます。
たとえば…
GANは、競争して働く贋作者と美術探偵のようなものだと考えてください。贋作者(生成器)は偽の絵画を本物として通そうとして作り続け、一方、探偵(識別器)は偽物を見破るのが上手くなるために本物と偽物の両方を研究します。探偵が上達するにつれて、贋作者はそれを欺くためにより努力しなければなりません。この行き来を通じて、贋作者は最終的に説得力のある偽物を作るのに並外れて熟練するようになります。
プロのヒント
ライブ映像の強化や高速のポートレート生成のようなリアルタイムアプリケーション向けのAIツールを評価するときは、それがGANベースのアプローチを使っているか確認してください。GANは推論において拡散モデルよりも大幅に高速になりうるため、レイテンシが制約となる場合に重要です。
種類とバリエーション
GANのファミリーには、異なるタスク向けに設計された多くの異なるアーキテクチャが含まれます。DCGAN(深層畳み込みGAN)は画像生成のための畳み込み層の使用を確立しました。Progressive GANとStyleGANは解像度と制御を改善し、StyleGANは高品質な顔の合成の標準となりました。条件付きGAN(cGAN)は、クラスラベルやその他の入力条件によって生成を導けるようにします。Pix2Pixは対になった学習データで画像から画像への変換を行い、CycleGANは対になった例なしに同様の変換を達成します。ESRGANは画像の超解像に敵対的学習を適用します。より最近のハイブリッドなアプローチは、それぞれのパラダイムの利点を受け継ぐために、GANのコンポーネントを拡散やトランスフォーマーの要素と組み合わせます。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
GANはAIのクリエイティブおよび商用アプリケーション全般で広く使われてきました。一般的な用途には、他の機械学習モデル向けの合成学習データの生成、アバターやストック画像向けのリアルな人間の顔の生成、リアルタイムの映像強化とアップスケーリング、画像間の芸術的スタイルの転送、ポートレートアニメーションツールの駆動が含まれます。放送やポストプロダクションでは、GANベースのアップスケーラーがアーカイブや低解像度の映像を強化するために使われます。ディープフェイク技法、すなわち有害なものと映画での顔の置き換えのような正当なアプリケーションの両方も、GANのアーキテクチャから派生しています。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
GANは敵対的生成ネットワーク(Generative Adversarial Network)の略です。「敵対的(adversarial)」は、学習プロセスを駆動する2つのネットワーク(生成器と識別器)の間の競争的な関係を指します。
GANは2014年の論文でイアン・グッドフェローとモントリオール大学の同僚たちによって導入されました。このアイデアはパブでの議論中に着想され、同じ晩に動作するプロトタイプへと発展したと伝えられています。
はい、ただし拡散モデルが画像・映像生成の品質において支配的なアーキテクチャとして取って代わりました。GANはリアルタイムの映像強化、顔生成、ESRGANのようなアップスケーリングツール、そして推論速度が優先されるアプリケーションで依然として広く使われています。
モード崩壊とは、生成器が学習データの完全な多様性ではなく、識別器を確実に欺く狭い範囲の出力だけを生成するよう学習してしまう学習の失敗です。たとえば、顔のGANが似たような数個の顔だけを生成するように崩壊することがあります。これはGANの学習における重要な課題の一つです。
GANは生成器ネットワークを通る単一のパスで出力を生成するため高速です。拡散モデルは多くのステップにわたって反復的にノイズ除去することで出力を生成し、より遅いものの一般により多様で高品質な結果を生みます。最先端の生成ツールのほとんどは今や拡散モデルを使っています。
StyleGANはNVIDIAが開発した非常に影響力のあるGANアーキテクチャで、生成される画像の属性に対するスタイルベースの制御を導入し、顔やポートレートの生成において前例のない品質と制御を可能にしました。複数のバージョン(StyleGAN2、StyleGAN3)を経ており、最もよく研究されたGANのバリアントの一つであり続けています。
はい。映像GANは敵対的学習のフレームワークを時間的なシークエンスへと拡張し、一貫した複数フレームのクリップを生成するよう生成器を学習させます。例にはVideoGANやMoCoGANがあります。ただし、GANによる映像生成の品質は最終的に拡散ベースの映像モデルに追い抜かれました。