Architecture de modèle
L'architecture du modèle désigne la conception structurelle fondamentale d'un système IA : le type de réseau de neurones, le flux de l'information, le nombre de couches et de paramètres, et les opérations effectuées à chaque étape. L'architecture définit les capacités et contraintes de base avant tout entraînement.
Comprendre l'architecture au niveau conceptuel aide à expliquer pourquoi les modèles ont des forces différentes et pourquoi certaines innovations créent des sauts de capacité réels.