Tokenisation (Tokenization)
Qu’est-ce que Tokenisation (Tokenization) ?
La tokenisation est la manière dont les modèles IA découpent votre texte en petits morceaux avant de le lire : la façon dont un modèle décompose les mots en fragments manipulables qu'il peut traiter mathématiquement.
En un coup d’œil
- Aussi appelé
- Text tokenizationSubword tokenizationByte-pair encoding (BPE)Analyse lexicaleTokenisation
- Utilisé pour
- Convertir du texte brut en séquences numériques de tokens pour traitement par modèle IAGérer les mots rares ou inhabituels par décomposition en sous-motsÉQuilibrer la taille du vocabulaire et la longueur des séquences dans l'architecture du modèleDiagnostiquer les problèmes d'interprétation de prompt causés par des découpages de tokens inattendus
- Key features
- Convertit le texte en séquences entières de tokens avant traitement par le modèleLes schémas de sous-mots gèrent les mots rares en les décomposant en fragments familiersLes frontières de tokens affectent la manière dont les modèles associent termes et concepts liésLa langue, l'orthographe et les choix de formatage interagissent avec le comportement du tokenizer
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.
Comparaison
Compared with related concepts
La tokenisation est distincte mais étroitement liée au concept de vocabulaire dans les modèles de langage. Le vocabulaire d'un modèle est l'ensemble complet des types de tokens qu'il connaît : la liste fixe d'indices entiers et leurs fragments de texte correspondants que le tokenizer peut produire et que le modèle peut traiter. La tokenisation est le processus de mappage du texte d'entrée sur des séquences tirées de ce vocabulaire. Un modèle avec un vocabulaire plus grand peut représenter plus de concepts distincts comme tokens uniques, tandis qu'un modèle avec un vocabulaire plus petit peut découper les mêmes concepts à travers plusieurs tokens. La tokenisation est aussi distincte de l'embedding, l'étape suivante du traitement : l'embedding convertit chaque entier de token en un vecteur numérique de haute dimension qui encode son sens, tandis que la tokenisation convertit seulement le texte en une séquence d'indices entiers sans information sémantique encodée.
Imaginez plutôt…
Imaginez lire une lettre manuscrite où certains mots sont entièrement lisibles et d'autres sont tachés ou écrits dans une écriture non familière. Votre cerveau traite les mots lisibles comme des unités entières, comprises instantanément. Pour les mots tachés ou non familiers, vous les décomposez lettre par lettre et reconstituez une meilleure approximation à partir des fragments que vous pouvez distinguer. C'est à peu près ainsi que fonctionne la tokenisation en sous-mots : les mots communs familiers sont traités comme des tokens uniques ; les mots inhabituels, rares ou mal formés sont divisés en leurs composants et reconstruits à partir de fragments sous-mots familiers, le modèle faisant de son mieux pour inférer le sens voulu à partir des parties.
Astuce de pro
Lorsqu'un terme de prompt ne produit pas le résultat attendu, considérez que le problème peut être la tokenisation plutôt que la connaissance du modèle. Essayez de remplacer les orthographes inhabituelles, les composés créatifs ou le jargon technique par des alternatives plus standard susceptibles d'être tokenisées comme des tokens uniques et bien représentés. Par exemple, si une référence stylistique à une technique obscure ne fonctionne pas, essayez de décrire les qualités visuelles de cette technique en mots simples plutôt que d'utiliser son nom : le langage descriptif peut tokeniser et s'associer plus fiablement que le nom lui-même. Ce reformulage des étiquettes vers les descriptions est l'une des techniques de débogage de prompt les plus efficaces pour les échecs d'interprétation liés à la tokenisation.
Types et variantes
- Les principales approches de tokenisation représentent différents compromis entre taille de vocabulaire, longueur de séquence et gestion du vocabulaire nouveau.
- La tokenisation au niveau du mot associe chaque mot distinct à un seul token, produisant des séquences courtes et intuitives mais exigeant d'énormes vocabulaires et échouant entièrement sur les mots inconnus.
- La tokenisation au niveau du caractère utilise les caractères individuels comme tokens, minimisant le vocabulaire à quelques centaines d'éléments mais produisant des séquences très longues coûteuses à traiter.
- La tokenisation en sous-mots, l'approche dominante dans les modèles de langage modernes, se situe entre ces extrêmes : le byte-pair encoding fusionne itérativement les paires de caractères fréquentes en tokens composites ; WordPiece utilise un critère probabiliste pour les fusions ; SentencePiece est une implémentation indépendante de la langue qui traite l'entrée comme un flux d'octets brut avant tokenisation, la rendant plus robuste à travers les langues et jeux de caractères.
- Chaque schéma produit un équilibre différent entre granularité des tokens, couverture du vocabulaire et longueur de séquence, ce qui à son tour affecte l'efficacité avec laquelle un modèle traite les prompts et gère les frontières entre langage familier et nouveau.
Prêt à créer votre première scène dans Morphic ?
Essayer MorphicCas d’usage courants
- La tokenisation sous-tend chaque interaction avec un système IA basé sur le texte, opérant invisiblement à l'arrière-plan de tout usage de modèle de langage, de l'IA conversationnelle aux prompts de génération.
- Elle devient explicitement pertinente lors du diagnostic de performance de prompt : si un terme spécifique est ignoré, mal interprété ou confondu avec un concept non lié malgré son apparition claire dans le prompt, la tokenisation est une cause probable.
- Les praticiens construisant des applications IA sur des APIs de modèle doivent implémenter des tokenizers dans leur code pour estimer précisément les comptes de tokens à des fins de gestion des coûts et de planification de la fenêtre de contexte.
- Pour les créateurs de génération vidéo IA, la conscience de la tokenisation est une compétence diagnostique : comprendre pourquoi un mot inhabituel pourrait ne pas susciter l'association visuelle attendue aide à orienter la révision du prompt vers des termes que le tokenizer et l'entraînement du modèle gèrent conjointement de manière plus fiable.
Prêt à créer ?
Réalisez des scènes, créez des personnages, livrez des films entiers
Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.