Question 1

Quelle est la différence entre apprentissage zero-shot et few-shot ?

Accepted Answer

L'apprentissage zero-shot est la capacité du modèle à exécuter une tâche ou à générer du contenu sans aucun exemple spécifique à la tâche fourni au moment de l'inférence, en s'appuyant entièrement sur la généralisation depuis son entraînement. L'apprentissage few-shot fournit un petit nombre d'exemples (généralement entre un et cinq) aux côtés de la demande au moment de l'inférence, démontrant au modèle à quoi ressemble la sortie souhaitée et lui permettant de calquer la réponse sur les exemples fournis plutôt que de généraliser de zéro. La performance few-shot est généralement supérieure au zero-shot pour les tâches dotées d'un format ou d'un style précis difficile à généraliser depuis l'entraînement seul.

Question 2

Comment l'apprentissage zero-shot affecte-t-il la qualité de la génération IA ?

Accepted Answer

L'apprentissage zero-shot est la capacité sous-jacente qui rend les modèles de génération IA flexibles et largement applicables : c'est ce qui permet à un modèle de génération de répondre de manière utile à des prompts portant sur des concepts et des combinaisons qu'il n'a jamais été directement entraîné à produire. La qualité de la performance zero-shot détermine jusqu'où un modèle peut être poussé hors du territoire familier tout en produisant des résultats utiles. Là où la généralisation zero-shot s'effondre (pour des prompts très inédits, contradictoires ou sous-spécifiés), la qualité de sortie se dégrade vers des résultats génériques ou incohérents qui reflètent une moyenne du modèle sur sa distribution d'entraînement plutôt qu'une extrapolation réussie vers la nouveauté demandée.

Question 3

Puis-je améliorer la performance zero-shot par un meilleur prompt ?

Accepted Answer

Oui : la spécificité du prompt et la fourniture d'ancrages contextuels affectent significativement la qualité de généralisation d'un modèle vers des demandes inédites. Décomposer des combinaisons de concepts inhabituelles en leurs éléments familiers composants, fournir des exemples de référence visuels ou textuels pour les aspects les plus inédits, et décrire explicitement le caractère de la sortie souhaitée en termes que l'entraînement du modèle a vraisemblablement rencontrés améliorent tous les résultats pour des tâches en bordure de la capacité zero-shot du modèle. L'objectif est de fournir suffisamment de points de référence familiers pour que le modèle puisse interpoler vers la cible inédite plutôt que d'extrapoler à l'aveugle à partir de trop peu de guidage.

Question 4

Qu'est-ce qui fait échouer un modèle sur des tâches zero-shot ?

Accepted Answer

Les échecs zero-shot surviennent lorsque la combinaison de concept, de style ou de tâche demandée sort de la portée effective de généralisation de l'entraînement du modèle : lorsqu'il n'y a pas assez de schémas apparentés dans les données d'entraînement pour que le modèle extrapole précisément vers la nouveauté demandée. Cela peut arriver parce que le concept est véritablement rare dans les données d'entraînement, parce que la combinaison de concepts crée des signaux contradictoires que le modèle ne peut résoudre, ou parce que la tâche requiert un degré de raisonnement inédit que l'architecture du modèle ne prend pas en charge. Lorsque le zero-shot échoue, le résultat typique est une sortie générique, confuse, ou qui se rabat sur les associations les plus courantes des termes superficiels de la demande plutôt que sur le sens précis voulu.

Question 5

Quel est le rapport entre apprentissage zero-shot et prompt engineering ?

Accepted Answer

Le prompt engineering peut être compris comme la discipline pratique consistant à maximiser la performance utile du modèle dans les limites des capacités zero-shot et few-shot. Un prompt engineer travaille avec la capacité de généralisation du modèle : en tentant de formuler les demandes en termes que le modèle peut généraliser avec succès, en fournissant des exemples lorsque le zero-shot seul ne suffit pas, et en structurant les prompts pour réduire l'ambiguïté et guider l'inférence du modèle vers la sortie voulue. Comprendre théoriquement l'apprentissage zero-shot soutient une meilleure pratique du prompt engineering en expliquant pourquoi certaines stratégies fonctionnent et d'autres échouent.

Question 6

L'apprentissage zero-shot est-il propre aux grands modèles d'IA ?

Accepted Answer

La capacité zero-shot évolue fortement avec la taille du modèle et la diversité des données d'entraînement : les modèles plus grands entraînés sur des données plus variées présentent généralement une meilleure généralisation zero-shot. Les modèles plus petits ou plus spécialisés ont souvent une performance zero-shot médiocre hors de leur domaine d'entraînement spécifique, exigeant des exemples spécifiques à la tâche ou un fine-tuning pour bien performer sur des entrées inédites. Le développement de très grands modèles pré-entraînés (modèles de langage à l'échelle GPT, grands modèles de diffusion pour la génération d'images) a porté la capacité zero-shot à un niveau pratique inaccessible aux modèles plus petits, ce qui est l'une des raisons pour lesquelles les grands modèles de fondation sont devenus l'approche dominante dans les applications d'IA générative.

Question 7

Comment l'apprentissage zero-shot s'applique-t-il spécifiquement à la génération vidéo par IA ?

Accepted Answer

En génération vidéo par IA, la capacité zero-shot détermine la qualité avec laquelle un modèle peut interpréter les descriptions de prompt portant sur des sujets, styles, mouvements de caméra et conditions atmosphériques non directement représentés comme exemples étiquetés à l'entraînement. Un modèle doté d'une forte capacité de génération vidéo zero-shot peut produire des images plausibles pour des combinaisons de concepts inhabituelles, des techniques caméra précises décrites en termes techniques ou des qualités atmosphériques spécifiées par un langage descriptif plutôt que par des références visuelles nommées. Là où la capacité de génération vidéo zero-shot est dépassée, le modèle tend à se rabattre sur des mouvements de caméra génériques, des styles visuels moyennés et des représentations de sujets qui approximent des exemples courants d'entraînement plutôt que la sortie spécifiquement demandée.

Question 8

Dois-je m'appuyer sur la capacité zero-shot ou toujours fournir des images de référence ?

Accepted Answer

L'approche optimale dépend du caractère inédit ou spécifique de la sortie demandée. Pour des concepts et styles bien représentés dans les données d'entraînement du modèle (styles visuels nommés, techniques cinématographiques établies, sujets clairement décrits), la génération zero-shot produit généralement de bons résultats et les images de référence n'apportent qu'une amélioration marginale. Pour des concepts très spécifiques, inhabituels ou inédits qui poussent contre la distribution d'entraînement du modèle, les images de référence sont des ancrages précieux qui guident l'inférence du modèle vers la cible voulue plutôt que vers une moyenne générique. En pratique, fournir des images de référence pour les éléments les plus spécifiques et inédits d'une génération tout en s'appuyant sur la capacité zero-shot pour les éléments plus familiers est l'approche la plus efficace.

Apprentissage zero-shot

Qu’est-ce que Apprentissage zero-shot ?

Réalisez des scènes, créez des personnages, livrez des films entiers

Types et variantes

Prêt à créer votre première scène dans Morphic ?

Cas d’usage courants

Réalisez des scènes, créez des personnages, livrez des films entiers

FAQ