モデルアーキテクチャ
モデルアーキテクチャとは?
モデルアーキテクチャは、AIの脳の設計図です。層がいくつあるか、各層がどんな種類の計算を行うか、情報が一端から他端へどう移動するかを記述します。設計図が異なれば、AIは異なるタスクを得意とします。
ひと目で分かる
- 別名
- ネットワークアーキテクチャニューラルネットワークアーキテクチャモデル設計
- 用途
- AIの能力を定義する画像・動画生成言語理解モデルの選択と評価
- 主なツール
- PyTorchTensorFlowHugging face transformersJAX
- 関連用語
- TransformerDiffusion modelGANModel trainingLatent space
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
モデルアーキテクチャ と モデル重み:アーキテクチャは固定された設計図、すなわち層と演算の配置です。重みは学習中に得られる数値で、その設計図を埋めます。同じ間取りの2つの建物がまったく異なる家具と装飾を施せるのと同様に、同一のアーキテクチャを持つが完全に異なる重み(したがって完全に異なる振る舞い)を持つ2つのモデルが存在しえます。
たとえば…
モデルアーキテクチャは、工場の設計のようなものと考えてください。アーキテクチャは、組立ラインがいくつあり、各ラインにどんな機械が置かれ、材料がどんな順序で通過するかを規定します。それらの機械の具体的な設定と較正(学習を通じて得られる)はモデル重みのようなものです。工場の設計(アーキテクチャ)は何を作れるかを決め、較正(重み)はそれをどれだけうまく作るかを決めます。
プロのヒント
特定のタスク向けにAIツールを評価する際は、マーケティングを超えて、基盤となるモデルがどのアーキテクチャ系統に属するかを確認しましょう。拡散モデル、トランスフォーマー、GANは、推論速度、出力の多様性、ファインチューニングの柔軟性の点で実質的に異なるトレードオフを持ち、それが制作ワークフローに影響します。
種類とバリエーション
AIメディアツールに関連する主要なアーキテクチャ系統には、画像認識と初期の生成タスクを支配した畳み込みニューラルネットワーク(CNN)、生成器と識別器を敵対的な学習ループで組み合わせる敵対的生成ネットワーク(GAN)、データの圧縮された潜在表現を学習する変分オートエンコーダ(VAE)、自己アテンション機構を用い現代の言語・マルチモーダルモデルの大半の基盤をなすトランスフォーマーアーキテクチャ、そしてデータ生成を学習されたノイズ除去プロセスとしてモデル化する拡散アーキテクチャがあります。Stable Diffusionで使われる潜在拡散モデルのように、これらの系統の要素を組み合わせるハイブリッドアーキテクチャがますます一般的になっています。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
モデルアーキテクチャは、画像生成、動画合成、音声処理、言語タスク向けのAIツールを選択・比較するたびに考慮事項となります。たとえばStable Diffusionが潜在拡散アーキテクチャを使うと理解することは、なぜそれがコンシューマー向けGPUで実行できるのか(拡散プロセスがフルピクセル空間ではなく圧縮された潜在空間で動作するため)を説明します。アーキテクチャはモデルのファインチューニングでも重要です。アーキテクチャが異なればファインチューニング手法も異なり、LoRA(Low-Rank Adaptation)のような技術はトランスフォーマー層の特定の構造を中心に設計されています。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
深く理解する必要はありませんが、基本的な知識があると、ツールの能力と限界を理解する助けになります。たとえばツールが拡散アーキテクチャを使うと知れば、GANベースのツールと比べて推論時間が遅いが出力の多様性が高いと予想できます。
2017年に導入されたトランスフォーマーアーキテクチャは、自己アテンションと呼ばれる機構を使い、入力のどの部分も他のどの部分とも同時に関連付けられるようにします。これにより長いシーケンスにわたる文脈の理解がはるかに向上し、現在では言語、画像、動画AIの最先端モデルの大半を支えています。
アーキテクチャは生成画像の解像度、整合性、多様性に影響します。拡散アーキテクチャは高品質で多様な出力を生み出す傾向がありますが、推論ごとにより多くの計算を要します。GANはより高速ですが、モデルが繰り返し似た出力を生み出すモード崩壊に陥ることがあります。
はい。多くの動画生成モデルは、時間次元を追加することで画像ベースのアーキテクチャを拡張しています。たとえばトランスフォーマーベースの動画モデルは、動画フレームをシーケンスとして扱い、フレーム間の一貫性を保つために空間と時間の両次元にわたってアテンションを適用します。
潜在拡散モデルは、拡散プロセスをピクセルに直接ではなく、圧縮された潜在空間で実行します。これにより出力品質を保ちながら計算コストを劇的に削減します。Stable Diffusionが最も代表的な例で、コンシューマー向けハードウェアで高品質な画像生成がアクセス可能になった理由です。
アーキテクチャは、どのファインチューニング手法が適用できるかを決めます。トランスフォーマーベースのモデルはLoRAやDreamBoothのような技術に適しています。CNNベースのモデルには異なる適応経路があります。一部のアーキテクチャは、生成中により高いクリエイティブな制御に活用できる内部状態(アテンションマップなど)もより多く露出します。