トランスフォーマーモデルとは、入力のすべての要素が同時に他のすべての要素と直接関係し影響し合うセルフアテンションと呼ばれる機構を用いてデータの列を処理するニューラルネットワークアーキテクチャのクラスである。元来は自然言語処理のために開発されたが、トランスフォーマーアーキテクチャは画像生成、映像合成、マルチモーダルシステムを含むAI領域全体に適応され、現在は最先端のAI生成モデルのほとんどを支えている。
セルフアテンション機構が、トランスフォーマーを従来の逐次アーキテクチャと区別する。入力のすべての要素間の関係を同時に計算することで、トランスフォーマーは従来のアーキテクチャでは学習が難しかった長距離依存と文脈的関係を捉えられる。テキストから画像・映像への生成では、トランスフォーマーベースのテキストエンコーダーがプロンプトを処理し、その意味の豊かな表現を構築して生成プロセスを条件づける。完全にトランスフォーマーベースの生成アーキテクチャ(拡散トランスフォーマーやDiTモデルと呼ばれることもある)は、アテンション機構をテキスト処理にだけではなく生成プロセスそのものに適用し、画像や映像フレーム全体でのより良いグローバルコヒーレンスを可能にする。SoraやFLUXを含む多くの主要モデルがトランスフォーマーベースの生成アーキテクチャを用いている。
実務者にとって、トランスフォーマーを理解すると、現代のAI生成モデルがニュアンスのあるプロンプト言語にこれほど反応する理由——アテンション機構によりモデルがプロンプト内の概念間の複雑な関係を理解し、各語を独立に扱わずに済む——が説明できる。モデルサイズが重要な理由も文脈づけられる。より多くのパラメータを持つ大きなトランスフォーマーはより複雑な関係を学習・表現でき、一般により能力が高くコヒーレントなアウトプットを生む。