Token (jeton de modèle)
Qu’est-ce que Token (jeton de modèle) ?
Un token est le petit fragment de texte (à peu près un mot ou une partie de mot) que les modèles IA utilisent comme unité de base de traitement, comme les briques individuelles à partir desquelles un modèle construit sa compréhension.
En un coup d’œil
- Aussi appelé
- Text tokenInput tokenOutput tokenVisual token
- Utilisé pour
- Mesurer la longueur de prompt et la consommation de la fenêtre de contexte dans les modèles IACalculer le coût d'utilisation des APIs IA selon les tokens traitésReprésenter des patchs d'image comme tokens visuels dans les architectures multimodalesComprendre comment l'attention du modèle se distribue à travers le contenu du prompt
- Key features
- Unité de base du traitement du texte : approximativement un mot ou une partie de motLes limites de tokens définissent la longueur maximale de prompt, de sortie et la mémoire de sessionÉTendu aux tokens visuels dans les modèles multimodaux pour les entrées image et vidéoLa position et la proximité des tokens influencent la force des associations entre concepts
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Compared with related concepts
Les tokens sont liés mais distincts des mots, des caractères et des paramètres. Les mots sont l'unité humaine de langage que les tokens approximent ; les caractères sont les unités brutes au niveau de la lettre que les tokens agrègent ; les paramètres sont les poids appris dans le réseau de neurones d'un modèle, un concept entièrement différent parfois confondu avec les tokens dans la discussion informelle. Le nombre de paramètres d'un modèle décrit sa taille et sa capacité d'apprentissage, tandis que son nombre de tokens décrit la longueur de texte qu'il peut traiter en une fois : un modèle avec plus de paramètres n'est pas nécessairement celui ayant une fenêtre de contexte plus grande, et une fenêtre de contexte plus grande n'implique pas plus de connaissance ou de capacité du modèle. La distinction importe lors de l'évaluation d'outils IA : le nombre de paramètres mesure ce que le modèle sait ; les limites de tokens mesurent à quelle quantité d'information il peut prêter attention en une fois.
Imaginez plutôt…
Pensez à un token comme à une pièce de puzzle dans un très grand puzzle. Un mot est souvent une pièce, mais un mot inhabituel ou technique peut devoir être brisé en deux ou trois pièces plus petites que le modèle assemble en sens à partir du contexte. Le modèle ne peut tenir qu'un certain nombre de pièces sur la table à la fois : sa fenêtre de contexte. Si vous versez trop de pièces sur la table, les plus anciennes glissent par-dessus le bord et sont oubliées. C'est pourquoi de longs prompts perdent parfois la trace d'instructions spécifiées loin du point de génération courant : ces tokens sont sortis de l'espace d'attention actif.
Astuce de pro
Lorsque vous écrivez des prompts pour de la génération vidéo ou image IA, traitez les vingt à trente premiers tokens comme un emplacement de choix. Commencez par les décisions créatives les plus critiques (sujet, traitement caméra, style visuel, éclairage) avant d'ajouter des détails secondaires comme éléments d'arrière-plan, température de couleur ou ambiance. Les modèles pondèrent les tokens précoces de manière plus constante que les tokens tardifs, et un long prompt qui enfouit l'instruction clé au troisième paragraphe sous-exécutera souvent cette instruction tout en suivant fidèlement les détails décrits tôt. Si vos prompts sont systématiquement longs, faites une passe d'élagage qui retire toute phrase pouvant être inférée du contexte, libérant des tokens pour la direction créative réellement spécifique que le modèle ne peut deviner.
Types et variantes
- Les tokens prennent différentes formes selon la modalité et le contexte dans lesquels ils sont utilisés.
- Les tokens de texte sont la forme standard : des unités de langage produites par un tokenizer à partir du texte d'entrée et traitées séquentiellement par les couches d'attention du modèle.
- Les tokens d'entrée sont ceux soumis par l'utilisateur dans le cadre du prompt ; les tokens de sortie sont ceux générés par le modèle en réponse.
- Ils sont souvent facturés différemment dans les APIs IA commerciales parce que la génération de sortie est plus intensive en calcul que le traitement de l'entrée.
- Les tokens visuels étendent le concept aux données d'image, où une image est divisée en patchs spatiaux de taille fixe et chaque patch est converti en un vecteur numérique que le modèle traite aux côtés des tokens de texte.
- Dans les modèles vidéo, les tokens temporels représentent des séquences d'images, ajoutant une dimension temporelle à la structure spatiale en patchs.
- Les tokens spéciaux (tels que ceux marquant le début ou la fin d'une séquence, ou les tokens de séparation entre différents types de contenu) sont utilisés en interne par les modèles pour gérer la structure du contexte.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- La conscience des tokens est la plus directement pertinente lorsqu'on travaille avec des modèles IA via des APIs, où l'usage est facturé par token et où les limites de fenêtre de contexte exigent une gestion prudente de la longueur de prompt et de l'historique de conversation.
- Les développeurs construisant des applications alimentées par l'IA doivent suivre les comptes cumulés de tokens à travers une session pour éviter de dépasser les limites de contexte et pour gérer les coûts d'API.
- Pour les créateurs utilisant directement les interfaces de génération IA, les considérations de tokens deviennent pertinentes lors de la construction de prompts longs et détaillés (en particulier pour des scènes complexes à plusieurs sujets, des références stylistiques spécifiques et des instructions techniques détaillées) où il y a un risque que le contenu ultérieur du prompt soit sous-pris en compte par le modèle.
- Comprendre l'allocation des tokens aide aussi à expliquer pourquoi des scènes multi-sujets sous-spécifient parfois un sujet : si le prompt dépense de nombreux tokens à établir le premier sujet en détail, il reste moins de tokens pour décrire le second, entraînant une qualité de génération inégale sur la composition.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
FAQ
Un token est l'unité de base de texte qu'un modèle IA traite. Plutôt que de lire des caractères bruts ou des mots complets, les modèles opèrent sur des séquences de tokens produites en découpant le texte d'entrée en unités standardisées par un tokenizer. Les comptes de tokens importent parce qu'ils déterminent les limites de longueur de prompt, la taille de mémoire de session et les coûts d'utilisation d'API : et parce que la capacité d'un modèle à prêter attention à du contenu à travers une très longue séquence de tokens diminue pour du contenu éloigné du point de génération courant, affectant la qualité de génération pour des prompts longs ou complexes.
Une règle empirique utile est que cent tokens correspondent à environ soixante-quinze mots en anglais, soit environ un et un tiers de tokens par mot. Les mots courts courants comme the ou and sont typiquement des tokens uniques, tandis que les mots plus longs ou plus rares peuvent se diviser en deux tokens ou plus. La ponctuation, les espaces et les caractères spéciaux consomment aussi des tokens, de sorte que les ratios réels mots-tokens varient avec le style d'écriture, la complexité du vocabulaire et le schéma de tokenisation spécifique qu'un modèle utilise.
Une fenêtre de contexte est le nombre maximal de tokens qu'un modèle IA peut traiter dans une seule session : sa mémoire de travail. Tous les tokens d'entrée (le prompt) et de sortie (la réponse) comptent dans cette limite. Lorsqu'une conversation ou un prompt dépasse la fenêtre de contexte, le contenu antérieur est tronqué ou sous-pondéré, ce qui signifie que le modèle perd l'accès à l'information qui lui a été donnée plus tôt. Les tailles de fenêtre de contexte varient sensiblement entre modèles, de quelques milliers de tokens dans les systèmes plus petits à des centaines de milliers dans les modèles de pointe.
Oui : dans les modèles multimodaux qui acceptent des entrées image, les images sont divisées en patchs spatiaux et chaque patch est converti en un token visuel. Une image typique peut générer plusieurs centaines de tokens visuels selon sa résolution et la taille de patch du modèle. Les images haute résolution consomment plus de tokens, ce qui signifie qu'utiliser des images de référence haute résolution dans un prompt multimodal peut réduire significativement le budget de tokens restant pour les instructions textuelles. Être attentif à la résolution des images lors de l'utilisation d'entrées visuelles aide à gérer l'usage de la fenêtre de contexte dans les workflows de génération conditionnée par image.
Les modèles traitent les tokens séquentiellement et distribuent l'attention à travers la séquence complète, mais cette attention n'est pas parfaitement uniforme. Le contenu près du début d'un prompt et le contenu immédiatement avant le point de génération tendent à recevoir l'attention la plus constante. Les instructions enfouies au cœur d'un long prompt (à plusieurs centaines de tokens du début) sont plus à risque d'être sous-pondérées, en particulier si le prompt approche de la limite de fenêtre de contexte du modèle. Placer les instructions créatives les plus critiques tôt dans le prompt et garder les prompts concis réduit cet effet.
Les tokens d'entrée sont les tokens qui composent le prompt soumis au modèle : tout le texte, les patchs d'image ou autre contenu fourni par l'utilisateur. Les tokens de sortie sont les tokens que le modèle génère en réponse. Dans les APIs IA commerciales, ils sont typiquement facturés différemment parce que générer des tokens de sortie requiert d'exécuter la passe avant complète du modèle pour chaque token produit, ce qui est plus intensif en calcul que de traiter les tokens d'entrée. Pour des tâches de génération à longues sorties (telles que générer un script complet ou un traitement créatif long), les coûts de tokens de sortie peuvent dépasser significativement les coûts de tokens d'entrée.
Pour les prompts de génération vidéo et image, la conscience des tokens signifie commencer par les décisions créatives et compositionnelles les plus importantes (cadrage du sujet, mouvement de caméra, style visuel, éclairage) avant d'ajouter des détails secondaires. Les modèles prêtent attention le plus constamment aux tokens précoces, de sorte qu'enfouir l'instruction clé au milieu ou à la fin d'un paragraphe dense risque une exécution incohérente. Visez des prompts concis et précis qui placent les spécificités créatives en tête et évitez les formulations redondantes qui consomment des tokens sans ajouter d'information nouvelle. Des prompts plus courts et bien structurés surpassent souvent des prompts plus longs et plus exhaustifs pour cette raison.
Non : les tokens et les paramètres décrivent des aspects entièrement différents d'un modèle IA. Les tokens sont les unités de texte ou d'entrée visuelle qu'un modèle traite au moment de l'inférence ; ils décrivent ce qui entre et sort du modèle pendant l'utilisation. Les paramètres sont les poids numériques appris stockés dans le réseau de neurones du modèle qui encodent sa connaissance et ses capacités ; ils décrivent ce que le modèle sait et comment il traite l'information. Un modèle avec plus de paramètres a plus de capacité apprise, tandis qu'un modèle avec une fenêtre de contexte de tokens plus grande peut traiter plus d'information à la fois : ce sont des propriétés indépendantes qui varient séparément entre différents modèles.