Modèles transformer (Transformer Models)

Qu’est-ce que Modèles transformer (Transformer Models) ?

Un transformer est le type d'architecture d'IA qui alimente la plupart des modèles de génération modernes : il fonctionne en permettant à chaque partie de l'entrée de prêter attention à toutes les autres en même temps, ce qui explique pourquoi l'IA peut comprendre des prompts complexes et nuancés plutôt que de les lire mot à mot.

En un coup d’œil

Aussi appelé
Modèle d'attentionArchitecture d'auto-attentionDiffusion transformerModèle DiT
Utilisé pour
Traiter les prompts textuels pour construire des représentations contextuelles riches qui conditionnent la générationGénérer des images et de la vidéo via des architectures de diffusion transformerCapturer les relations à longue portée et la cohérence globale dans le contenu généréSous-tendre la plupart des systèmes d'IA d'image, de vidéo et de langage de pointe
Key features
L'auto-attention traite tous les éléments d'entrée simultanément et non séquentiellementCapture des dépendances à longue portée que les architectures séquentielles manquentPasse efficacement à l'échelle vers de très grands nombres de paramètres, s'améliorant avec la taille du modèleFondation des principaux modèles de génération, dont sora, FLUX et la plupart des grandes plateformes

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

Comparaison

Comparaison

Compared with related concepts

Les modèles transformer se comparent le plus directement aux architectures de réseaux de neurones récurrents qu'ils ont remplacées pour les tâches de traitement de séquences. Les réseaux récurrents ( en particulier les LSTM et les GRU ) traitaient les séquences étape par étape, maintenant un état caché qui transportait l'information vers l'avant mais peinant à conserver les dépendances à longue portée sur de longues séquences. Les transformers ont abandonné ce traitement séquentiel au profit d'une auto-attention parallèle sur l'ensemble de la séquence, capturant les relations entre tous les éléments simultanément. Cela a rendu les transformers radicalement meilleurs en cohérence à longue portée et nettement plus parallélisables durant l'entraînement, permettant les très grandes échelles de modèle qui définissent les capacités modernes de l'IA. Les transformers se distinguent également des réseaux de neurones convolutifs, qui traitent les données spatiales via des champs récepteurs locaux qui s'agrandissent par empilement : utiles pour de nombreuses tâches de vision par ordinateur mais moins efficaces que les transformers pour capturer les relations spatiales globales sur une image entière.


Imaginez plutôt…

Imaginez un comité d'éditeurs examinant un manuscrit. Une architecture récurrente est comme un éditeur unique lisant le texte du début à la fin, essayant de se souvenir des passages antérieurs à mesure qu'il atteint les suivants : au moment où il arrive au chapitre final, les détails d'ouverture se sont estompés de sa mémoire immédiate. Un transformer est comme si chaque éditeur lisait chaque paragraphe simultanément, chacun demandant aux autres comment chaque passage se rapporte à sa propre section. Le résultat est une compréhension bien plus riche et plus cohérente de la manière dont toutes les parties se relient les unes aux autres, parce qu'aucune partie du texte n'est traitée isolément des autres. C'est ce que fait l'auto-attention : elle permet à chaque élément de consulter directement tous les autres pour former sa représentation.


Astuce de pro

Savoir que les modèles de génération modernes sont basés sur des transformers aide à calibrer la manière d'écrire des prompts. Parce que l'auto-attention permet au modèle de relier toutes les parties d'un prompt les unes aux autres, un prompt bien structuré qui spécifie clairement les relations entre ses éléments : comment le sujet se rapporte à l'environnement, comment l'éclairage se rapporte à l'ambiance, sera traité de manière plus cohérente qu'une liste d'attributs déconnectés. Les prompts rédigés comme des descriptions cohérentes qui expriment comment les éléments interagissent tendent à produire des sorties plus globalement cohérentes que les prompts qui se contentent d'énumérer les caractéristiques souhaitées, précisément parce que le mécanisme d'attention du transformer est conçu pour comprendre la structure relationnelle.

Types et variantes

  • Les architectures transformer ont évolué en plusieurs formes distinctes au sein du paysage de la génération par IA.
  • Les transformers à encodeur seul, comme BERT et CLIP, traitent les séquences d'entrée pour construire des représentations riches utilisées dans les tâches de compréhension et de recherche.
  • Les transformers à décodeur seul, dont les modèles de langage de la famille GPT, génèrent des séquences de manière auto-régressive en prédisant chaque token suivant à partir de tous les précédents.
  • Les transformers encodeur-décodeur combinent les deux composants, traitant une séquence d'entrée et générant une séquence de sortie, ce qui était l'architecture originale décrite dans l'article fondateur.
  • Pour la génération d'images et de vidéo, le développement récent le plus significatif est le diffusion transformer, qui remplace l'épine dorsale convolutive en U-Net des modèles de diffusion antérieurs par un transformer appliquant l'auto-attention à des patches d'image spatiaux ou des tokens d'images vidéo.
  • Cette architecture permet une meilleure cohérence globale et un entraînement plus évolutif que les approches convolutives et constitue désormais la conception dominante pour les modèles de génération d'images et de vidéo de pointe.

Prêt à créer votre première scène dans Morphic ?

Essayer Morphic

Cas d’usage courants

  • Les modèles transformer sous-tendent pratiquement tous les outils contemporains de génération par IA et de langage.
  • Les systèmes de génération text-to-image et text-to-vidéo utilisent des encodeurs textuels basés sur transformer pour traiter les prompts et, de plus en plus, des épines dorsales de génération basées sur transformer pour produire le contenu visuel.
  • Les grands modèles de langage utilisés pour l'écriture créative, le scénario et la planification sont entièrement construits sur des architectures transformer.
  • Les modèles multimodaux qui acceptent à la fois des entrées textuelles et d'image utilisent des architectures transformer pour traiter les tokens des deux modalités via des mécanismes d'attention unifiés.
  • Pour les workflows de production vidéo par IA sur Morphic, chaque modèle du catalogue pris en charge ( Runway Gen-4, Kling, Sora, Veo et d'autres ) est construit sur des fondations basées sur transformer, ce qui signifie que la sensibilité au prompt, la cohérence globale et la réactivité contextuelle qui caractérisent la qualité de génération moderne dérivent toutes directement de l'architecture transformer.

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

FAQ

Qu'est-ce qu'un modèle transformer en IA ?

Un transformer est une architecture de réseau de neurones qui traite des séquences de données ( texte, patches d'image, images vidéo ) à l'aide d'un mécanisme appelé auto-attention, qui calcule simultanément les relations entre tous les éléments de l'entrée plutôt que séquentiellement. Développés à l'origine pour des tâches linguistiques, les transformers sont devenus l'architecture dominante en génération par IA, sous-tendant la plupart des modèles text-to-image et text-to-vidéo de pointe. Leur capacité à capturer des dépendances à longue portée, à passer à l'échelle vers de grands nombres de paramètres et à traiter de manière cohérente des prompts relationnels complexes en a fait la fondation des capacités modernes de génération par IA.

Qu'est-ce que l'auto-attention et pourquoi est-ce important ?

L'auto-attention est le mécanisme central des modèles transformer. Pour chaque élément d'une séquence d'entrée, le modèle calcule des poids d'attention exprimant à quel point cet élément doit prêter attention à tous les autres éléments lors de la construction de sa représentation. Cela permet au modèle de comprendre les relations entre toutes les parties de l'entrée simultanément : comment les mots du début d'un prompt se rapportent à ceux de la fin, ou comment l'éclairage d'une région d'une image se rapporte à la composition globale de la scène. La capacité à capturer ces relations à longue portée explique pourquoi les modèles de génération basés sur transformer gèrent des prompts complexes à plusieurs éléments et produisent des sorties globalement cohérentes plus efficacement que les architectures qui traitent l'information localement.

Qu'est-ce qu'un diffusion transformer et en quoi diffère-t-il des architectures de génération antérieures ?

Un diffusion transformer, ou modèle DiT, applique le mécanisme d'auto-attention du transformer au processus de génération lui-même : traitant les patches d'image ou les tokens vidéo comme la séquence sur laquelle l'attention opère, plutôt que d'utiliser une épine dorsale convolutive en U-Net pour la génération avec seulement un encodeur textuel transformer en entrée. Cela produit une meilleure cohérence globale dans le contenu généré, car chaque région spatiale prête attention à toutes les autres tout au long du processus de génération, permettant un éclairage, une structure et des détails plus cohérents sur des scènes complexes. Sora et FLUX sont des exemples éminents d'architectures de diffusion transformer qui représentent la frontière actuelle de la qualité de génération.

Pourquoi les plus grands modèles transformer produisent-ils généralement de meilleures sorties ?

Les performances des transformers évoluent avec le nombre de paramètres selon une relation bien documentée : les modèles plus grands, entraînés sur plus de données avec plus de paramètres, produisent systématiquement des sorties de meilleure qualité, plus cohérentes et plus sensibles au contexte. C'est parce que plus de paramètres permettent au modèle d'apprendre et de représenter des relations plus complexes, à la fois dans ses données d'entraînement et dans ses entrées. La capacité du mécanisme d'auto-attention à modéliser les relations entre tous les éléments d'entrée fait que des paramètres supplémentaires se traduisent par une compréhension plus nuancée de la manière dont les éléments du prompt se rapportent les uns aux autres, produisant des sorties qui reflètent mieux la pleine complexité de l'intention créative spécifiée.

Comment la compréhension des transformers m'aide-t-elle à écrire de meilleurs prompts ?

Parce que les modèles transformer traitent toutes les parties d'un prompt simultanément via l'auto-attention, ils sont conçus pour comprendre la structure relationnelle : comment un élément d'un prompt se rapporte aux autres. Cela signifie que les prompts rédigés comme des descriptions cohérentes exprimant les relations entre les éléments tendent à produire des sorties plus globalement cohérentes que les prompts qui se contentent d'énumérer des attributs. Spécifier comment le sujet se rapporte à l'environnement, comment la qualité de l'éclairage se rattache à l'ambiance et comment les éléments compositionnels fonctionnent ensemble donne au mécanisme d'attention du modèle des informations relationnelles plus riches à exploiter, produisant des générations plus intégrées et cohérentes.

Tous les modèles modernes de génération par IA sont-ils basés sur des transformers ?

La tendance dominante penche fortement vers les architectures basées sur transformer pour les modèles de génération de pointe, bien que le domaine continue d'évoluer. Pour la génération text-to-image et text-to-vidéo, les encodeurs textuels basés sur transformer sont quasi universels, et les architectures de diffusion transformer sont devenues la conception préférée des modèles à la pointe de la qualité. Certains modèles utilisent des architectures hybrides combinant des composants transformer avec des éléments convolutifs. Des architectures alternatives, dont les state-space models, font l'objet de recherches actives en tant qu'alternatives potentiellement plus efficaces, mais les transformers définissent actuellement l'architecture de référence pour la plupart des systèmes de génération de qualité production.

Quelle est la relation entre les modèles transformer et CLIP ?

CLIP est un modèle basé sur transformer entraîné par OpenAI pour aligner les représentations textuelles et visuelles, apprenant à associer descriptions textuelles et contenu visuel via un entraînement contrastif sur des paires image-texte. De nombreux systèmes de génération text-to-image utilisent l'encodeur textuel de CLIP ( ou des encodeurs textuels similaires basés sur transformer ) pour traiter les prompts et construire la représentation textuelle qui conditionne le processus de génération. CLIP est donc un composant important dans le pipeline de nombreux modèles de génération plutôt qu'un modèle de génération en soi : il traduit le langage du prompt en une forme sur laquelle le système de génération peut se conditionner, en utilisant son architecture transformer pour construire des représentations textuelles riches et conscientes du contexte.

Comment les transformers gèrent-ils la génération vidéo différemment de la génération d'images ?

La génération vidéo étend la séquence de tokens du transformer des patches d'image spatiaux à des tokens spatio-temporels qui représentent à la fois la position spatiale et la localisation temporelle au sein d'une séquence d'images. Plutôt que de prêter attention uniquement aux relations spatiales au sein d'une seule image, un transformer de génération vidéo prête attention aux relations à la fois dans l'espace et dans le temps, permettant un mouvement cohérent, une apparence cohérente du sujet sur les images et une continuité globale de scène sur la durée du clip. Cette attention temporelle est ce qui permet aux principaux modèles vidéo de maintenir l'apparence des personnages, la cohérence d'éclairage et la cohérence de mouvement sur plusieurs secondes de séquence générée : des capacités qui émergent de la capacité de l'architecture transformer à modéliser les relations sur toute l'étendue spatio-temporelle de la génération.

Can't find what you are looking for?
Contact us and let us know.
bg