En intelligence artificielle et en apprentissage automatique, un modèle est un système computationnel qui a été entraîné sur de grandes quantités de données pour apprendre des motifs, des relations et des structures au sein de ces données, et qui peut ensuite appliquer ces motifs appris pour produire des sorties en réponse à de nouvelles entrées. Un modèle d'IA est, au sens le plus fondamental, une fonction : il prend une entrée (une invite textuelle, une image, une séquence de mots, un ensemble de paramètres) et produit une sortie (une image générée, une réponse textuelle, un clip vidéo, une classification) en appliquant la représentation interne du monde qu'il a développée pendant l'entraînement. Le terme est utilisé à la fois au niveau conceptuel le plus large, pour décrire tout système IA entraîné, et au niveau produit spécifique, où des modèles nommés individuellement (GPT-4, Stable Diffusion, Flux, Kling, Claude) désignent des systèmes entraînés spécifiques avec des architectures, des données d'entraînement et des capacités spécifiques.
Le processus d'entraînement est ce qui distingue un modèle d'un programme traditionnel. Là où un programme conventionnel suit des règles explicites écrites par un programmeur, un modèle développe ses propres représentations internes via l'exposition à de vastes quantités d'exemples pendant l'entraînement : un processus dans lequel les paramètres du modèle (souvent des milliards de valeurs numériques) sont itérativement ajustés pour minimiser la différence entre les sorties du modèle et les sorties correctes sur les données d'entraînement. Après l'entraînement, ces paramètres sont fixés, encodant une représentation apprise des motifs dans la distribution d'entraînement. Lorsque le modèle reçoit une nouvelle entrée au moment de l'inférence, il applique ces paramètres appris pour produire une sortie qui reflète les motifs rencontrés pendant l'entraînement. C'est pourquoi un modèle de langage peut générer un texte fluide, un modèle d'image peut produire une imagerie photoréaliste, et un modèle vidéo peut générer un mouvement cohérent : non parce qu'ils ont été programmés avec des règles sur le langage, les images ou le mouvement, mais parce qu'ils ont appris des régularités statistiques à partir d'énormes quantités d'exemples.
Pour les utilisateurs d'outils de génération par IA, le modèle est l'unité fondamentale de capacité. Différents modèles ont différentes forces, faiblesses, styles visuels, données d'entraînement et tendances comportementales : choisir le bon modèle pour une tâche est aussi important que de rédiger une invite efficace. Les modèles de génération d'image peuvent se spécialiser dans le rendu photoréaliste, l'esthétique stylisée, la visualisation architecturale ou la cohérence de personnage. Les modèles de génération vidéo varient dans leur gestion du mouvement, de la cohérence temporelle, de la résolution et de l'adhésion à l'invite. Les modèles de langage diffèrent par leur capacité de raisonnement, leurs connaissances, leur suivi d'instructions et leur style de sortie. Comprendre qu'un modèle est un artefact entraîné spécifique avec des caractéristiques spécifiques (et non une intelligence générale capable de tout) est fondamental pour utiliser efficacement les outils de génération par IA. Dans des plateformes telles que Morphic, différentes options de modèles offrent différentes approches de génération, et choisir le modèle approprié est le premier choix de paramètre et le plus conséquent qu'un créateur effectue.