トランスフォーマーモデル
トランスフォーマーモデルとは?
トランスフォーマーは、ほとんどの現代的な生成モデルを支えるAIアーキテクチャのタイプです。入力のすべての部分が他のすべての部分に同時に注意を払うことを可能にすることで動作します。これがAIが、プロンプトを単語ごとに読むのではなく、複雑でニュアンスのあるプロンプトを理解できる理由です。
ひと目で分かる
- 別名
- アテンションモデル自己アテンションアーキテクチャ拡散トランスフォーマーDiTモデル
- 用途
- テキストプロンプトを処理し、生成を条件付ける豊かな文脈表現を構築する拡散トランスフォーマーアーキテクチャを通じて画像と動画を生成する生成されたコンテンツの長距離関係とグローバル一貫性を捉えるほとんどの最先端の画像、動画、言語AIシステムを支える
- Key features
- 自己アテンションがすべての入力要素を逐次的ではなく同時に処理する逐次的アーキテクチャが見逃す長距離依存性を捉える非常に大きなパラメータ数に効果的にスケールし、モデルサイズとともに改善するSora、FLUX、ほとんどの主要プラットフォームを含む主要な生成モデルの基盤
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
トランスフォーマーモデルは、シーケンス処理タスクで置き換えたリカレントニューラルネットワークアーキテクチャと最も直接的に比較されます。リカレントネットワーク(特にLSTMとGRU)は、情報を前方に運ぶ隠れ状態を維持しながらシーケンスをステップごとに処理しましたが、長いシーケンスにわたる長距離依存性を保持するのに苦労しました。トランスフォーマーは、この逐次処理を放棄し、全シーケンスにわたる並列の自己アテンションを採用し、すべての要素間の関係を同時に捉えます。これにより、トランスフォーマーは長距離の一貫性で劇的に優れ、訓練中に大幅に並列化可能になり、現代のAI能力を定義する非常に大きなモデル規模を可能にしました。トランスフォーマーは畳み込みニューラルネットワークとも区別されます。それらは、積み重ねによって大きくなる局所的な受容野を通じて空間データを処理します。多くのコンピュータビジョンタスクに有用ですが、画像全体にわたるグローバルな空間関係を捉えるのにはトランスフォーマーよりも効果的ではありません。
たとえば…
原稿をレビューする編集者の委員会を想像してください。リカレントアーキテクチャは、テキストを最初から最後まで読む単一の編集者のようなものです。後の箇所に到達するときに以前の箇所を覚えておこうとします。最終章に到達する頃には、冒頭の詳細は直近の記憶から薄れています。トランスフォーマーは、すべての編集者がすべての段落を同時に読むようなものです。各人が他の人に、各箇所が自分のセクションとどう関係するかを尋ねます。結果として、すべての部分が互いにどうつながるかについてのはるかに豊かで一貫した理解が得られます。テキストのどの部分も他のどの部分からも孤立して処理されないからです。これが自己アテンションの働きです。すべての要素が、表現を形成する際に他のすべての要素を直接参照することを可能にします。
プロのヒント
現代の生成モデルがトランスフォーマーベースであることを知ることは、プロンプトの書き方を調整するのに役立ちます。自己アテンションがモデルにプロンプトのすべての部分を互いに関連付けることを可能にするため、要素間の関係を明確に指定するよく構造化されたプロンプト(被写体が環境とどう関係するか、ライティングがムードとどう関係するか)は、つながりのない属性のリストよりも一貫して処理されます。要素がどう協働するかを表現する一貫した記述として書かれたプロンプトは、望ましい特徴を単に列挙するプロンプトよりもグローバルに一貫した出力を生み出す傾向があります。まさにトランスフォーマーのアテンションメカニズムが関係構造を理解するように作られているからです。
種類とバリエーション
トランスフォーマーアーキテクチャは、AI生成の風景の中でいくつかの異なる形に進化してきました。エンコーダー専用トランスフォーマー(BERTやCLIPなど)は、理解と検索タスクに使われる豊かな表現を構築するために入力シーケンスを処理します。デコーダー専用トランスフォーマー(GPTファミリーの言語モデルを含む)は、以前のすべてのトークンから各次のトークンを予測することで自己回帰的にシーケンスを生成します。エンコーダー・デコーダートランスフォーマーは両方のコンポーネントを組み合わせ、入力シーケンスを処理し出力シーケンスを生成します。これは基礎論文で記述された元のアーキテクチャでした。画像・動画生成では、最も意義深い最近の発展は拡散トランスフォーマーです。これは以前の拡散モデルの畳み込みU-Netバックボーンを、空間的画像パッチや動画フレームトークンに自己アテンションを適用するトランスフォーマーに置き換えます。このアーキテクチャは、畳み込みアプローチよりも良いグローバル一貫性とよりスケーラブルな訓練を可能にし、今や最先端の画像・動画生成モデルの支配的な設計です。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
トランスフォーマーモデルは、事実上すべての現代的なAI生成・言語ツールを支えています。テキスト・トゥ・イメージおよびテキスト・トゥ・ビデオ生成システムは、プロンプトを処理するためにトランスフォーマーベースのテキストエンコーダーを使い、ますます視覚コンテンツを生み出すためにトランスフォーマーベースの生成バックボーンを使います。クリエイティブライティング、脚本作成、計画に使われる大規模言語モデルは、完全にトランスフォーマーアーキテクチャの上に構築されています。テキストと画像の両方の入力を受け入れるマルチモーダルモデルは、統一されたアテンションメカニズムを通じて両方のモダリティからのトークンを処理するためにトランスフォーマーアーキテクチャを使います。MorphicのAI動画制作ワークフローでは、サポートされるカタログのすべてのモデル(Runway Gen-4、Kling、Sora、Veoなど)がトランスフォーマーベースの基盤の上に構築されています。つまり、現代の生成品質を特徴付けるプロンプトへの感度、グローバル一貫性、文脈応答性はすべて、トランスフォーマーアーキテクチャから直接派生しています。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
トランスフォーマーとは、自己アテンションと呼ばれるメカニズムを使ってデータのシーケンス(テキスト、画像パッチ、動画フレーム)を処理するニューラルネットワークアーキテクチャです。これは入力内のすべての要素間の関係を逐次的ではなく同時に計算します。元々は言語タスクのために開発されましたが、トランスフォーマーはAI生成全体で支配的なアーキテクチャになり、ほとんどの最先端のテキスト・トゥ・イメージおよびテキスト・トゥ・ビデオモデルを支えています。長距離依存性を捉え、大きなパラメータ数にスケールし、複雑な関係的プロンプトを一貫して処理する能力が、それを現代のAI生成能力の基盤にしてきました。
自己アテンションは、トランスフォーマーモデルの中核メカニズムです。入力シーケンス内の各要素について、モデルは、その表現を構築する際にその要素が他のすべての要素にどれだけ注意を払うべきかを表現するアテンション重みを計算します。これにより、モデルは入力のすべての部分間の関係を同時に理解できます。プロンプトの始まりの単語が終わりの単語とどう関係するか、または画像のある領域のライティングがシーンの構図とグローバルにどう関係するかです。これらの長距離関係を捉える能力が、トランスフォーマーベースの生成モデルが、情報を局所的に処理するアーキテクチャよりも複雑な複数要素のプロンプトを扱い、グローバルに一貫した出力を生み出す理由です。
拡散トランスフォーマー、つまりDiTモデルは、トランスフォーマーの自己アテンションメカニズムを生成プロセス自体に適用します。入力側にトランスフォーマーテキストエンコーダーだけを持つ生成のために畳み込みU-Netバックボーンを使うのではなく、画像パッチや動画トークンをアテンションが動作するシーケンスとして扱います。これは、すべての空間領域が生成プロセス全体を通じて他のすべての領域に注意を払うため、生成されたコンテンツ全体でより良いグローバル一貫性を生み出し、複雑なシーン全体でより一貫したライティング、構造、ディテールを可能にします。SoraとFLUXは、生成品質の現在の最前線を代表する拡散トランスフォーマーアーキテクチャの顕著な例です。
トランスフォーマーのパフォーマンスは、よく文書化された関係でパラメータ数とともにスケールします。より多くのパラメータでより多くのデータで訓練された大きなモデルは、一貫してより高品質でより一貫性がありより文脈に敏感な出力を生み出します。これは、より多くのパラメータが、訓練データと入力の両方でより複雑な関係をモデルが学習し表現することを可能にするからです。すべての入力要素間の関係をモデル化する自己アテンションメカニズムの能力は、追加のパラメータがプロンプト要素が互いにどう関係するかのよりニュアンスのある理解に変換されることを意味し、指定されたクリエイティブな意図の完全な複雑さをよりよく反映する出力を生み出します。
トランスフォーマーモデルは自己アテンションを通じてプロンプトのすべての部分を同時に処理するため、関係構造(プロンプトのある要素が他とどう関係するか)を理解するように作られています。これは、要素間の関係を表現する一貫した記述として書かれたプロンプトが、単に属性を列挙するプロンプトよりもグローバルに一貫した出力を生み出す傾向があることを意味します。被写体が環境とどう関係するか、ライティングの質がムードとどうつながるか、構図要素がどう協働するかを指定することは、モデルのアテンションメカニズムにより豊かな関係的情報を与え、より統合された一貫した生成を生み出します。
支配的な傾向は、最前線の生成モデルにとってトランスフォーマーベースのアーキテクチャに強く向かっていますが、この分野は進化を続けています。テキスト・トゥ・イメージおよびテキスト・トゥ・ビデオ生成では、トランスフォーマーベースのテキストエンコーダーがほぼ普遍的で、拡散トランスフォーマーアーキテクチャが品質の最先端のモデルにとって好まれる設計になっています。一部のモデルは、トランスフォーマーコンポーネントを畳み込み要素と組み合わせるハイブリッドアーキテクチャを使います。状態空間モデルを含む代替アーキテクチャは、潜在的により効率的な代替手段として積極的に研究されていますが、トランスフォーマーは現在、ほとんどの製品品質の生成システムのベースラインアーキテクチャを定義しています。
CLIPは、テキストと画像の表現を整合させるためにOpenAIによって訓練されたトランスフォーマーベースのモデルで、画像・テキストペアでの対照的訓練を通じてテキスト記述を視覚コンテンツと関連付けることを学習します。多くのテキスト・トゥ・イメージ生成システムは、プロンプトを処理し生成プロセスを条件付けるテキスト表現を構築するためにCLIPのテキストエンコーダー(または類似のトランスフォーマーベースのテキストエンコーダー)を使います。したがってCLIPは、生成モデル自体ではなく、多くの生成モデルのパイプラインにおける重要なコンポーネントです。トランスフォーマーアーキテクチャを使って豊かで文脈を意識したテキスト表現を構築し、プロンプト言語を生成システムが条件付けできる形に翻訳します。
動画生成は、トランスフォーマーのトークンシーケンスを、空間的画像パッチから、フレームのシーケンス内の空間的位置と時間的位置の両方を表現する時空間トークンへと拡張します。単一フレーム内の空間関係だけに注意を払うのではなく、動画生成トランスフォーマーは空間と時間の両方にわたる関係に注意を払い、一貫した動き、フレーム全体での一貫した被写体の外見、クリップの持続時間にわたるグローバルなシーンの連続性を可能にします。この時間的アテンションが、主要な動画モデルが生成された映像の複数秒にわたってキャラクターの外見、ライティングの一貫性、動きの一貫性を維持することを可能にするものです。生成の完全な時空間範囲にわたる関係をモデル化するトランスフォーマーアーキテクチャの能力から生まれる能力です。