トランスフォーマーモデル
トランスフォーマーモデルとは?
トランスフォーマーは、ほとんどの現代的な生成モデルを支えるAIアーキテクチャのタイプです。入力のすべての部分が他のすべての部分に同時に注意を払うことを可能にすることで動作します。これがAIが、プロンプトを単語ごとに読むのではなく、複雑でニュアンスのあるプロンプトを理解できる理由です。
ひと目で分かる
- 別名
- アテンションモデル自己アテンションアーキテクチャ拡散トランスフォーマーDiTモデル
- 用途
- テキストプロンプトを処理し、生成を条件付ける豊かな文脈表現を構築する拡散トランスフォーマーアーキテクチャを通じて画像と動画を生成する生成されたコンテンツの長距離関係とグローバル一貫性を捉えるほとんどの最先端の画像、動画、言語AIシステムを支える
- Key features
- 自己アテンションがすべての入力要素を逐次的ではなく同時に処理する逐次的アーキテクチャが見逃す長距離依存性を捉える非常に大きなパラメータ数に効果的にスケールし、モデルサイズとともに改善するSora、FLUX、ほとんどの主要プラットフォームを含む主要な生成モデルの基盤
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
トランスフォーマーモデルは、シーケンス処理タスクで置き換えたリカレントニューラルネットワークアーキテクチャと最も直接的に比較されます。リカレントネットワーク(特にLSTMとGRU)は、情報を前方に運ぶ隠れ状態を維持しながらシーケンスをステップごとに処理しましたが、長いシーケンスにわたる長距離依存性を保持するのに苦労しました。トランスフォーマーは、この逐次処理を放棄し、全シーケンスにわたる並列の自己アテンションを採用し、すべての要素間の関係を同時に捉えます。これにより、トランスフォーマーは長距離の一貫性で劇的に優れ、訓練中に大幅に並列化可能になり、現代のAI能力を定義する非常に大きなモデル規模を可能にしました。トランスフォーマーは畳み込みニューラルネットワークとも区別されます。それらは、積み重ねによって大きくなる局所的な受容野を通じて空間データを処理します。多くのコンピュータビジョンタスクに有用ですが、画像全体にわたるグローバルな空間関係を捉えるのにはトランスフォーマーよりも効果的ではありません。
たとえば…
原稿をレビューする編集者の委員会を想像してください。リカレントアーキテクチャは、テキストを最初から最後まで読む単一の編集者のようなものです。後の箇所に到達するときに以前の箇所を覚えておこうとします。最終章に到達する頃には、冒頭の詳細は直近の記憶から薄れています。トランスフォーマーは、すべての編集者がすべての段落を同時に読むようなものです。各人が他の人に、各箇所が自分のセクションとどう関係するかを尋ねます。結果として、すべての部分が互いにどうつながるかについてのはるかに豊かで一貫した理解が得られます。テキストのどの部分も他のどの部分からも孤立して処理されないからです。これが自己アテンションの働きです。すべての要素が、表現を形成する際に他のすべての要素を直接参照することを可能にします。
プロのヒント
現代の生成モデルがトランスフォーマーベースであることを知ることは、プロンプトの書き方を調整するのに役立ちます。自己アテンションがモデルにプロンプトのすべての部分を互いに関連付けることを可能にするため、要素間の関係を明確に指定するよく構造化されたプロンプト(被写体が環境とどう関係するか、ライティングがムードとどう関係するか)は、つながりのない属性のリストよりも一貫して処理されます。要素がどう協働するかを表現する一貫した記述として書かれたプロンプトは、望ましい特徴を単に列挙するプロンプトよりもグローバルに一貫した出力を生み出す傾向があります。まさにトランスフォーマーのアテンションメカニズムが関係構造を理解するように作られているからです。
種類とバリエーション
トランスフォーマーアーキテクチャは、AI生成の風景の中でいくつかの異なる形に進化してきました。エンコーダー専用トランスフォーマー(BERTやCLIPなど)は、理解と検索タスクに使われる豊かな表現を構築するために入力シーケンスを処理します。デコーダー専用トランスフォーマー(GPTファミリーの言語モデルを含む)は、以前のすべてのトークンから各次のトークンを予測することで自己回帰的にシーケンスを生成します。エンコーダー・デコーダートランスフォーマーは両方のコンポーネントを組み合わせ、入力シーケンスを処理し出力シーケンスを生成します。これは基礎論文で記述された元のアーキテクチャでした。画像・動画生成では、最も意義深い最近の発展は拡散トランスフォーマーです。これは以前の拡散モデルの畳み込みU-Netバックボーンを、空間的画像パッチや動画フレームトークンに自己アテンションを適用するトランスフォーマーに置き換えます。このアーキテクチャは、畳み込みアプローチよりも良いグローバル一貫性とよりスケーラブルな訓練を可能にし、今や最先端の画像・動画生成モデルの支配的な設計です。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
トランスフォーマーモデルは、事実上すべての現代的なAI生成・言語ツールを支えています。テキスト・トゥ・イメージおよびテキスト・トゥ・ビデオ生成システムは、プロンプトを処理するためにトランスフォーマーベースのテキストエンコーダーを使い、ますます視覚コンテンツを生み出すためにトランスフォーマーベースの生成バックボーンを使います。クリエイティブライティング、脚本作成、計画に使われる大規模言語モデルは、完全にトランスフォーマーアーキテクチャの上に構築されています。テキストと画像の両方の入力を受け入れるマルチモーダルモデルは、統一されたアテンションメカニズムを通じて両方のモダリティからのトークンを処理するためにトランスフォーマーアーキテクチャを使います。MorphicのAI動画制作ワークフローでは、サポートされるカタログのすべてのモデル(Runway Gen-4、Kling、Sora、Veoなど)がトランスフォーマーベースの基盤の上に構築されています。つまり、現代の生成品質を特徴付けるプロンプトへの感度、グローバル一貫性、文脈応答性はすべて、トランスフォーマーアーキテクチャから直接派生しています。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。