Modèles transformer (Transformer Models)
Qu’est-ce que Modèles transformer (Transformer Models) ?
Un transformer est le type d'architecture d'IA qui alimente la plupart des modèles de génération modernes : il fonctionne en permettant à chaque partie de l'entrée de prêter attention à toutes les autres en même temps, ce qui explique pourquoi l'IA peut comprendre des prompts complexes et nuancés plutôt que de les lire mot à mot.
En un coup d’œil
- Aussi appelé
- Modèle d'attentionArchitecture d'auto-attentionDiffusion transformerModèle DiT
- Utilisé pour
- Traiter les prompts textuels pour construire des représentations contextuelles riches qui conditionnent la générationGénérer des images et de la vidéo via des architectures de diffusion transformerCapturer les relations à longue portée et la cohérence globale dans le contenu généréSous-tendre la plupart des systèmes d'IA d'image, de vidéo et de langage de pointe
- Key features
- L'auto-attention traite tous les éléments d'entrée simultanément et non séquentiellementCapture des dépendances à longue portée que les architectures séquentielles manquentPasse efficacement à l'échelle vers de très grands nombres de paramètres, s'améliorant avec la taille du modèleFondation des principaux modèles de génération, dont sora, FLUX et la plupart des grandes plateformes
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Compared with related concepts
Les modèles transformer se comparent le plus directement aux architectures de réseaux de neurones récurrents qu'ils ont remplacées pour les tâches de traitement de séquences. Les réseaux récurrents ( en particulier les LSTM et les GRU ) traitaient les séquences étape par étape, maintenant un état caché qui transportait l'information vers l'avant mais peinant à conserver les dépendances à longue portée sur de longues séquences. Les transformers ont abandonné ce traitement séquentiel au profit d'une auto-attention parallèle sur l'ensemble de la séquence, capturant les relations entre tous les éléments simultanément. Cela a rendu les transformers radicalement meilleurs en cohérence à longue portée et nettement plus parallélisables durant l'entraînement, permettant les très grandes échelles de modèle qui définissent les capacités modernes de l'IA. Les transformers se distinguent également des réseaux de neurones convolutifs, qui traitent les données spatiales via des champs récepteurs locaux qui s'agrandissent par empilement : utiles pour de nombreuses tâches de vision par ordinateur mais moins efficaces que les transformers pour capturer les relations spatiales globales sur une image entière.
Imaginez plutôt…
Imaginez un comité d'éditeurs examinant un manuscrit. Une architecture récurrente est comme un éditeur unique lisant le texte du début à la fin, essayant de se souvenir des passages antérieurs à mesure qu'il atteint les suivants : au moment où il arrive au chapitre final, les détails d'ouverture se sont estompés de sa mémoire immédiate. Un transformer est comme si chaque éditeur lisait chaque paragraphe simultanément, chacun demandant aux autres comment chaque passage se rapporte à sa propre section. Le résultat est une compréhension bien plus riche et plus cohérente de la manière dont toutes les parties se relient les unes aux autres, parce qu'aucune partie du texte n'est traitée isolément des autres. C'est ce que fait l'auto-attention : elle permet à chaque élément de consulter directement tous les autres pour former sa représentation.
Astuce de pro
Savoir que les modèles de génération modernes sont basés sur des transformers aide à calibrer la manière d'écrire des prompts. Parce que l'auto-attention permet au modèle de relier toutes les parties d'un prompt les unes aux autres, un prompt bien structuré qui spécifie clairement les relations entre ses éléments : comment le sujet se rapporte à l'environnement, comment l'éclairage se rapporte à l'ambiance, sera traité de manière plus cohérente qu'une liste d'attributs déconnectés. Les prompts rédigés comme des descriptions cohérentes qui expriment comment les éléments interagissent tendent à produire des sorties plus globalement cohérentes que les prompts qui se contentent d'énumérer les caractéristiques souhaitées, précisément parce que le mécanisme d'attention du transformer est conçu pour comprendre la structure relationnelle.
Types et variantes
- Les architectures transformer ont évolué en plusieurs formes distinctes au sein du paysage de la génération par IA.
- Les transformers à encodeur seul, comme BERT et CLIP, traitent les séquences d'entrée pour construire des représentations riches utilisées dans les tâches de compréhension et de recherche.
- Les transformers à décodeur seul, dont les modèles de langage de la famille GPT, génèrent des séquences de manière auto-régressive en prédisant chaque token suivant à partir de tous les précédents.
- Les transformers encodeur-décodeur combinent les deux composants, traitant une séquence d'entrée et générant une séquence de sortie, ce qui était l'architecture originale décrite dans l'article fondateur.
- Pour la génération d'images et de vidéo, le développement récent le plus significatif est le diffusion transformer, qui remplace l'épine dorsale convolutive en U-Net des modèles de diffusion antérieurs par un transformer appliquant l'auto-attention à des patches d'image spatiaux ou des tokens d'images vidéo.
- Cette architecture permet une meilleure cohérence globale et un entraînement plus évolutif que les approches convolutives et constitue désormais la conception dominante pour les modèles de génération d'images et de vidéo de pointe.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- Les modèles transformer sous-tendent pratiquement tous les outils contemporains de génération par IA et de langage.
- Les systèmes de génération text-to-image et text-to-vidéo utilisent des encodeurs textuels basés sur transformer pour traiter les prompts et, de plus en plus, des épines dorsales de génération basées sur transformer pour produire le contenu visuel.
- Les grands modèles de langage utilisés pour l'écriture créative, le scénario et la planification sont entièrement construits sur des architectures transformer.
- Les modèles multimodaux qui acceptent à la fois des entrées textuelles et d'image utilisent des architectures transformer pour traiter les tokens des deux modalités via des mécanismes d'attention unifiés.
- Pour les workflows de production vidéo par IA sur Morphic, chaque modèle du catalogue pris en charge ( Runway Gen-4, Kling, Sora, Veo et d'autres ) est construit sur des fondations basées sur transformer, ce qui signifie que la sensibilité au prompt, la cohérence globale et la réactivité contextuelle qui caractérisent la qualité de génération moderne dérivent toutes directement de l'architecture transformer.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.