Tokenisation (Tokenization)

Qu’est-ce que Tokenisation (Tokenization) ?

La tokenisation est la manière dont les modèles IA découpent votre texte en petits morceaux avant de le lire : la façon dont un modèle décompose les mots en fragments manipulables qu'il peut traiter mathématiquement.

En un coup d’œil

Aussi appelé
Text tokenizationSubword tokenizationByte-pair encoding (BPE)Analyse lexicaleTokenisation
Utilisé pour
Convertir du texte brut en séquences numériques de tokens pour traitement par modèle IAGérer les mots rares ou inhabituels par décomposition en sous-motsÉQuilibrer la taille du vocabulaire et la longueur des séquences dans l'architecture du modèleDiagnostiquer les problèmes d'interprétation de prompt causés par des découpages de tokens inattendus
Key features
Convertit le texte en séquences entières de tokens avant traitement par le modèleLes schémas de sous-mots gèrent les mots rares en les décomposant en fragments familiersLes frontières de tokens affectent la manière dont les modèles associent termes et concepts liésLa langue, l'orthographe et les choix de formatage interagissent avec le comportement du tokenizer

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

Comparaison

Comparaison

Compared with related concepts

La tokenisation est distincte mais étroitement liée au concept de vocabulaire dans les modèles de langage. Le vocabulaire d'un modèle est l'ensemble complet des types de tokens qu'il connaît : la liste fixe d'indices entiers et leurs fragments de texte correspondants que le tokenizer peut produire et que le modèle peut traiter. La tokenisation est le processus de mappage du texte d'entrée sur des séquences tirées de ce vocabulaire. Un modèle avec un vocabulaire plus grand peut représenter plus de concepts distincts comme tokens uniques, tandis qu'un modèle avec un vocabulaire plus petit peut découper les mêmes concepts à travers plusieurs tokens. La tokenisation est aussi distincte de l'embedding, l'étape suivante du traitement : l'embedding convertit chaque entier de token en un vecteur numérique de haute dimension qui encode son sens, tandis que la tokenisation convertit seulement le texte en une séquence d'indices entiers sans information sémantique encodée.


Imaginez plutôt…

Imaginez lire une lettre manuscrite où certains mots sont entièrement lisibles et d'autres sont tachés ou écrits dans une écriture non familière. Votre cerveau traite les mots lisibles comme des unités entières, comprises instantanément. Pour les mots tachés ou non familiers, vous les décomposez lettre par lettre et reconstituez une meilleure approximation à partir des fragments que vous pouvez distinguer. C'est à peu près ainsi que fonctionne la tokenisation en sous-mots : les mots communs familiers sont traités comme des tokens uniques ; les mots inhabituels, rares ou mal formés sont divisés en leurs composants et reconstruits à partir de fragments sous-mots familiers, le modèle faisant de son mieux pour inférer le sens voulu à partir des parties.


Astuce de pro

Lorsqu'un terme de prompt ne produit pas le résultat attendu, considérez que le problème peut être la tokenisation plutôt que la connaissance du modèle. Essayez de remplacer les orthographes inhabituelles, les composés créatifs ou le jargon technique par des alternatives plus standard susceptibles d'être tokenisées comme des tokens uniques et bien représentés. Par exemple, si une référence stylistique à une technique obscure ne fonctionne pas, essayez de décrire les qualités visuelles de cette technique en mots simples plutôt que d'utiliser son nom : le langage descriptif peut tokeniser et s'associer plus fiablement que le nom lui-même. Ce reformulage des étiquettes vers les descriptions est l'une des techniques de débogage de prompt les plus efficaces pour les échecs d'interprétation liés à la tokenisation.

Types et variantes

  • Les principales approches de tokenisation représentent différents compromis entre taille de vocabulaire, longueur de séquence et gestion du vocabulaire nouveau.
  • La tokenisation au niveau du mot associe chaque mot distinct à un seul token, produisant des séquences courtes et intuitives mais exigeant d'énormes vocabulaires et échouant entièrement sur les mots inconnus.
  • La tokenisation au niveau du caractère utilise les caractères individuels comme tokens, minimisant le vocabulaire à quelques centaines d'éléments mais produisant des séquences très longues coûteuses à traiter.
  • La tokenisation en sous-mots, l'approche dominante dans les modèles de langage modernes, se situe entre ces extrêmes : le byte-pair encoding fusionne itérativement les paires de caractères fréquentes en tokens composites ; WordPiece utilise un critère probabiliste pour les fusions ; SentencePiece est une implémentation indépendante de la langue qui traite l'entrée comme un flux d'octets brut avant tokenisation, la rendant plus robuste à travers les langues et jeux de caractères.
  • Chaque schéma produit un équilibre différent entre granularité des tokens, couverture du vocabulaire et longueur de séquence, ce qui à son tour affecte l'efficacité avec laquelle un modèle traite les prompts et gère les frontières entre langage familier et nouveau.

Prêt à créer votre première scène dans Morphic ?

Essayer Morphic

Cas d’usage courants

  • La tokenisation sous-tend chaque interaction avec un système IA basé sur le texte, opérant invisiblement à l'arrière-plan de tout usage de modèle de langage, de l'IA conversationnelle aux prompts de génération.
  • Elle devient explicitement pertinente lors du diagnostic de performance de prompt : si un terme spécifique est ignoré, mal interprété ou confondu avec un concept non lié malgré son apparition claire dans le prompt, la tokenisation est une cause probable.
  • Les praticiens construisant des applications IA sur des APIs de modèle doivent implémenter des tokenizers dans leur code pour estimer précisément les comptes de tokens à des fins de gestion des coûts et de planification de la fenêtre de contexte.
  • Pour les créateurs de génération vidéo IA, la conscience de la tokenisation est une compétence diagnostique : comprendre pourquoi un mot inhabituel pourrait ne pas susciter l'association visuelle attendue aide à orienter la révision du prompt vers des termes que le tokenizer et l'entraînement du modèle gèrent conjointement de manière plus fiable.

Prêt à créer ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Plateforme créative IA tout-en-un, avec une tarification simple et transparente, sans bridage de vitesse, et un Canvas infini pour une créativité maximale.

FAQ

Qu'est-ce que la tokenisation en IA et pourquoi importe-t-elle pour le prompting ?

La tokenisation est le processus de décomposition du texte d'entrée en unités discrètes appelées tokens avant qu'un modèle IA ne le traite. Chaque token est un fragment de texte (un mot, une partie de mot ou un signe de ponctuation) converti en un indice numérique avec lequel le modèle travaille mathématiquement. C'est important pour le prompting parce que la manière dont un terme est tokenisé affecte la force avec laquelle le modèle l'associe à des concepts liés : un mot qui se tokenise comme une seule unité familière tendra à être interprété plus fiablement qu'un mot divisé en plusieurs fragments de sous-mots aux associations apprises plus faibles.

Pourquoi certains mots se divisent-ils en plusieurs tokens ?

Les mots sont divisés en plusieurs tokens lorsqu'ils sont suffisamment rares pour que le tokenizer ne leur ait pas assigné un seul token dédié dans son vocabulaire. Les schémas de tokenisation en sous-mots comme le byte-pair encoding construisent leur vocabulaire en fusionnant les séquences de caractères les plus fréquentes dans les données d'entraînement en tokens composites. Les mots courants entrent dans le vocabulaire comme tokens uniques ; les mots moins courants doivent être assemblés à partir de fragments plus petits et plus fondamentaux. Un mot rare ou absent des données d'entraînement peut être brisé en de nombreux fragments de sous-mots, chacun traité indépendamment par le modèle plutôt que comme une unité sémantique unifiée.

Comment la tokenisation affecte-t-elle la qualité des sorties de génération IA ?

La tokenisation affecte la qualité de génération en déterminant la fiabilité avec laquelle le modèle interprète des termes spécifiques et l'uniformité avec laquelle il distribue son attention à travers un prompt. Les termes qui se tokenisent comme des unités uniques bien représentées sont traités avec des associations apprises plus fortes et une interprétation plus constante que les termes divisés à travers plusieurs fragments de sous-mots de faible fréquence. Pour des prompts très longs, la séquence des tokens affecte aussi la distribution de l'attention : les tokens près du début et de la fin de la séquence reçoivent une attention plus constante que ceux au milieu d'entrées très longues, ce qui signifie que la structure du prompt importe au-delà du simple choix de vocabulaire.

Qu'est-ce que le byte-pair encoding et comment est-il utilisé en tokenisation ?

Le byte-pair encoding est un algorithme de tokenisation en sous-mots qui construit son vocabulaire en fusionnant itérativement les paires de caractères les plus fréquemment co-occurrentes dans un corpus d'entraînement en tokens composites. Partant des caractères individuels, il identifie de manière répétée la paire adjacente la plus commune et ajoute leur forme fusionnée au vocabulaire, continuant jusqu'à ce qu'une taille de vocabulaire cible soit atteinte. Le vocabulaire résultant contient un mélange de caractères individuels, de syllabes communes, de fragments de mots fréquents et de mots communs complets, permettant à tout texte d'entrée d'être représenté comme une séquence de tokens tirés de ce vocabulaire fixe, indépendamment de si des mots spécifiques ont été vus lors de l'entraînement.

La tokenisation fonctionne-t-elle différemment pour différentes langues ?

Oui, la performance de la tokenisation varie sensiblement à travers les langues, en grande partie parce que la plupart des tokenizers largement utilisés ont été conçus et optimisés pour le texte anglais. Les langues à structures morphologiques différentes (où les mots sont assemblés à partir de nombreux composants signifiants, comme en finnois ou en turc) requièrent souvent bien plus de tokens par mot que les équivalents anglais, les rendant moins efficaces et parfois moins bien gérées. Les langues utilisant des écritures non latines, ou celles avec des conventions de frontière de mot différentes, peuvent interagir avec les hypothèses au niveau caractère des tokenizers de manière qui réduit la performance. Les modèles entraînés principalement sur des données anglaises avec des tokenizers optimisés pour l'anglais performent généralement moins bien sur les langues morphologiquement complexes ou à écriture non latine, en conséquence directe des choix de conception de la tokenisation.

Pourquoi une orthographe inhabituelle ou une ponctuation créative confond-elle parfois les modèles IA ?

Les orthographes inhabituelles et la ponctuation créative confondent les modèles IA principalement par leur interaction avec la tokenisation. Un mot orthographié de manière non conventionnelle (ou un mot familier avec ponctuation, espaces ou capitalisation ajoutés) peut se tokeniser différemment de sa forme standard, brisant l'association apprise du modèle entre les deux. Si le modèle a de fortes associations avec la forme standard d'un mot comme token unique, la forme inhabituelle peut être traitée comme une séquence non familière de fragments de sous-mots que le modèle relie moins fiablement au sens voulu. Le texte standard et conventionnel produit généralement une tokenisation plus prévisible et un comportement de modèle plus constant que des choix orthographiques créatifs.

Comment la tokenisation est-elle liée aux limites de fenêtre de contexte ?

Les limites de fenêtre de contexte sont exprimées en tokens, et non en mots ou caractères, de sorte que la tokenisation détermine directement la quantité de texte qui rentre dans le contexte disponible d'un modèle. Un prompt rédigé dans un vocabulaire technique complexe peut consommer significativement plus de tokens que la même information exprimée en mots simples et courants, même si les comptes de mots sont similaires, parce que les termes peu communs se tokenisent en plusieurs fragments de sous-mots. Comprendre cette relation aide les créateurs à écrire des prompts plus efficaces en tokens en favorisant un vocabulaire commun et bien établi par rapport à des termes techniques rares partout où les deux expriment la même information : préservant l'espace de fenêtre de contexte pour les détails réellement spécifiques qui requièrent plus de tokens.

Que faire si un terme de mon prompt ne produit pas le résultat attendu ?

Si un terme spécifique d'un prompt n'est pas interprété comme attendu, considérez la tokenisation comme une cause possible et essayez plusieurs approches. D'abord, testez si un synonyme plus simple ou une formulation alternative plus commune produit de meilleurs résultats : les mots courants à représentation en token unique sont interprétés de manière plus fiable. Ensuite, essayez de décrire le concept en termes de ses qualités ou caractéristiques visuelles plutôt que d'utiliser un nom ou une étiquette spécifique, en particulier pour le jargon technique ou les références obscures qui peuvent avoir été rares dans les données d'entraînement du modèle. Troisièmement, essayez de placer le terme clé plus tôt dans le prompt, où il recevra une pondération d'attention plus forte. Faire varier systématiquement ces facteurs à travers les générations identifiera si le problème est lié à la tokenisation ou reflète une véritable lacune dans la connaissance du modèle.

Les mots inhabituels ou les noms de marque peuvent-ils causer des problèmes de tokenisation ?

Oui. Les mots peu communs, les composés inventés ou le jargon technique qui n'apparaissent pas fréquemment dans les données d'entraînement sont susceptibles d'être divisés en plusieurs tokens de sous-mots dont les significations individuelles diffèrent du tout voulu. Un nom de marque fictif ou un adjectif composé créatif peut être segmenté de manière à ce que le modèle l'associe à des concepts entièrement différents, produisant des sorties confuses ou hors sujet. Reformuler avec un vocabulaire descriptif commun est généralement le contournement le plus efficace.

La tokenisation fonctionne-t-elle différemment pour les images et les vidéos ?

Dans les modèles multimodaux qui traitent à la fois le texte et les images, une forme parallèle de tokenisation s'applique aux entrées visuelles. Les images sont divisées en patchs de taille fixe (petites régions de pixels) qui sont ensuite encodées en tokens visuels que le modèle traite aux côtés des tokens de texte. Cela permet au modèle de prêter attention à l'information textuelle et visuelle dans une séquence unifiée. Certaines architectures utilisent des nombres différents de tokens par image selon la résolution, ce qui affecte le budget de contexte disponible pour la composante texte du prompt.

Comment les limites de tokens affectent-elles spécifiquement la génération vidéo IA ?

En génération vidéo IA, les limites de tokens de prompt définissent la quantité d'information descriptive pouvant être transmise au modèle dans une seule requête de génération. Des prompts très détaillés spécifiant sujet, environnement, éclairage, mouvement de caméra, style et ambiance peuvent consommer un budget de tokens significatif, repoussant potentiellement les éléments descriptifs antérieurs hors de la plage de traitement la plus attentive du modèle. Écrire des prompts focalisés et hiérarchisés qui utilisent les tokens disponibles efficacement (plutôt que des listes exhaustives de chaque détail possible) tend à produire de meilleurs résultats de génération que des descriptions maximales en longueur.

Can't find what you are looking for?
Contact us and let us know.
bg