Question 1

Qu'est-ce que la tokenisation en IA et pourquoi importe-t-elle pour le prompting ?

Accepted Answer

La tokenisation est le processus de décomposition du texte d'entrée en unités discrètes appelées tokens avant qu'un modèle IA ne le traite. Chaque token est un fragment de texte (un mot, une partie de mot ou un signe de ponctuation) converti en un indice numérique avec lequel le modèle travaille mathématiquement. C'est important pour le prompting parce que la manière dont un terme est tokenisé affecte la force avec laquelle le modèle l'associe à des concepts liés : un mot qui se tokenise comme une seule unité familière tendra à être interprété plus fiablement qu'un mot divisé en plusieurs fragments de sous-mots aux associations apprises plus faibles.

Question 2

Pourquoi certains mots se divisent-ils en plusieurs tokens ?

Accepted Answer

Les mots sont divisés en plusieurs tokens lorsqu'ils sont suffisamment rares pour que le tokenizer ne leur ait pas assigné un seul token dédié dans son vocabulaire. Les schémas de tokenisation en sous-mots comme le byte-pair encoding construisent leur vocabulaire en fusionnant les séquences de caractères les plus fréquentes dans les données d'entraînement en tokens composites. Les mots courants entrent dans le vocabulaire comme tokens uniques ; les mots moins courants doivent être assemblés à partir de fragments plus petits et plus fondamentaux. Un mot rare ou absent des données d'entraînement peut être brisé en de nombreux fragments de sous-mots, chacun traité indépendamment par le modèle plutôt que comme une unité sémantique unifiée.

Question 3

Comment la tokenisation affecte-t-elle la qualité des sorties de génération IA ?

Accepted Answer

La tokenisation affecte la qualité de génération en déterminant la fiabilité avec laquelle le modèle interprète des termes spécifiques et l'uniformité avec laquelle il distribue son attention à travers un prompt. Les termes qui se tokenisent comme des unités uniques bien représentées sont traités avec des associations apprises plus fortes et une interprétation plus constante que les termes divisés à travers plusieurs fragments de sous-mots de faible fréquence. Pour des prompts très longs, la séquence des tokens affecte aussi la distribution de l'attention : les tokens près du début et de la fin de la séquence reçoivent une attention plus constante que ceux au milieu d'entrées très longues, ce qui signifie que la structure du prompt importe au-delà du simple choix de vocabulaire.

Question 4

Qu'est-ce que le byte-pair encoding et comment est-il utilisé en tokenisation ?

Accepted Answer

Le byte-pair encoding est un algorithme de tokenisation en sous-mots qui construit son vocabulaire en fusionnant itérativement les paires de caractères les plus fréquemment co-occurrentes dans un corpus d'entraînement en tokens composites. Partant des caractères individuels, il identifie de manière répétée la paire adjacente la plus commune et ajoute leur forme fusionnée au vocabulaire, continuant jusqu'à ce qu'une taille de vocabulaire cible soit atteinte. Le vocabulaire résultant contient un mélange de caractères individuels, de syllabes communes, de fragments de mots fréquents et de mots communs complets, permettant à tout texte d'entrée d'être représenté comme une séquence de tokens tirés de ce vocabulaire fixe, indépendamment de si des mots spécifiques ont été vus lors de l'entraînement.

Question 5

La tokenisation fonctionne-t-elle différemment pour différentes langues ?

Accepted Answer

Oui, la performance de la tokenisation varie sensiblement à travers les langues, en grande partie parce que la plupart des tokenizers largement utilisés ont été conçus et optimisés pour le texte anglais. Les langues à structures morphologiques différentes (où les mots sont assemblés à partir de nombreux composants signifiants, comme en finnois ou en turc) requièrent souvent bien plus de tokens par mot que les équivalents anglais, les rendant moins efficaces et parfois moins bien gérées. Les langues utilisant des écritures non latines, ou celles avec des conventions de frontière de mot différentes, peuvent interagir avec les hypothèses au niveau caractère des tokenizers de manière qui réduit la performance. Les modèles entraînés principalement sur des données anglaises avec des tokenizers optimisés pour l'anglais performent généralement moins bien sur les langues morphologiquement complexes ou à écriture non latine, en conséquence directe des choix de conception de la tokenisation.

Question 6

Pourquoi une orthographe inhabituelle ou une ponctuation créative confond-elle parfois les modèles IA ?

Accepted Answer

Les orthographes inhabituelles et la ponctuation créative confondent les modèles IA principalement par leur interaction avec la tokenisation. Un mot orthographié de manière non conventionnelle (ou un mot familier avec ponctuation, espaces ou capitalisation ajoutés) peut se tokeniser différemment de sa forme standard, brisant l'association apprise du modèle entre les deux. Si le modèle a de fortes associations avec la forme standard d'un mot comme token unique, la forme inhabituelle peut être traitée comme une séquence non familière de fragments de sous-mots que le modèle relie moins fiablement au sens voulu. Le texte standard et conventionnel produit généralement une tokenisation plus prévisible et un comportement de modèle plus constant que des choix orthographiques créatifs.

Question 7

Comment la tokenisation est-elle liée aux limites de fenêtre de contexte ?

Accepted Answer

Les limites de fenêtre de contexte sont exprimées en tokens, et non en mots ou caractères, de sorte que la tokenisation détermine directement la quantité de texte qui rentre dans le contexte disponible d'un modèle. Un prompt rédigé dans un vocabulaire technique complexe peut consommer significativement plus de tokens que la même information exprimée en mots simples et courants, même si les comptes de mots sont similaires, parce que les termes peu communs se tokenisent en plusieurs fragments de sous-mots. Comprendre cette relation aide les créateurs à écrire des prompts plus efficaces en tokens en favorisant un vocabulaire commun et bien établi par rapport à des termes techniques rares partout où les deux expriment la même information : préservant l'espace de fenêtre de contexte pour les détails réellement spécifiques qui requièrent plus de tokens.

Question 8

Que faire si un terme de mon prompt ne produit pas le résultat attendu ?

Accepted Answer

Si un terme spécifique d'un prompt n'est pas interprété comme attendu, considérez la tokenisation comme une cause possible et essayez plusieurs approches. D'abord, testez si un synonyme plus simple ou une formulation alternative plus commune produit de meilleurs résultats : les mots courants à représentation en token unique sont interprétés de manière plus fiable. Ensuite, essayez de décrire le concept en termes de ses qualités ou caractéristiques visuelles plutôt que d'utiliser un nom ou une étiquette spécifique, en particulier pour le jargon technique ou les références obscures qui peuvent avoir été rares dans les données d'entraînement du modèle. Troisièmement, essayez de placer le terme clé plus tôt dans le prompt, où il recevra une pondération d'attention plus forte. Faire varier systématiquement ces facteurs à travers les générations identifiera si le problème est lié à la tokenisation ou reflète une véritable lacune dans la connaissance du modèle.

Question 9

Les mots inhabituels ou les noms de marque peuvent-ils causer des problèmes de tokenisation ?

Accepted Answer

Oui. Les mots peu communs, les composés inventés ou le jargon technique qui n'apparaissent pas fréquemment dans les données d'entraînement sont susceptibles d'être divisés en plusieurs tokens de sous-mots dont les significations individuelles diffèrent du tout voulu. Un nom de marque fictif ou un adjectif composé créatif peut être segmenté de manière à ce que le modèle l'associe à des concepts entièrement différents, produisant des sorties confuses ou hors sujet. Reformuler avec un vocabulaire descriptif commun est généralement le contournement le plus efficace.

Question 10

La tokenisation fonctionne-t-elle différemment pour les images et les vidéos ?

Accepted Answer

Dans les modèles multimodaux qui traitent à la fois le texte et les images, une forme parallèle de tokenisation s'applique aux entrées visuelles. Les images sont divisées en patchs de taille fixe (petites régions de pixels) qui sont ensuite encodées en tokens visuels que le modèle traite aux côtés des tokens de texte. Cela permet au modèle de prêter attention à l'information textuelle et visuelle dans une séquence unifiée. Certaines architectures utilisent des nombres différents de tokens par image selon la résolution, ce qui affecte le budget de contexte disponible pour la composante texte du prompt.

Question 11

Comment les limites de tokens affectent-elles spécifiquement la génération vidéo IA ?

Accepted Answer

En génération vidéo IA, les limites de tokens de prompt définissent la quantité d'information descriptive pouvant être transmise au modèle dans une seule requête de génération. Des prompts très détaillés spécifiant sujet, environnement, éclairage, mouvement de caméra, style et ambiance peuvent consommer un budget de tokens significatif, repoussant potentiellement les éléments descriptifs antérieurs hors de la plage de traitement la plus attentive du modèle. Écrire des prompts focalisés et hiérarchisés qui utilisent les tokens disponibles efficacement (plutôt que des listes exhaustives de chaque détail possible) tend à produire de meilleurs résultats de génération que des descriptions maximales en longueur.

Tokenisation (Tokenization)

Qu’est-ce que Tokenisation (Tokenization) ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Types et variantes

Prêt à créer votre première scène dans Morphic ?

Cas d’usage courants

Réalisez des scènes, créez des personnages, livrez des films entiers

FAQ