Glossaryarrow
IA multimodale
IA multimodale

L'IA multimodale désigne des systèmes capables de traiter et de générer du contenu sur plusieurs types de données (texte, images, audio, vidéo) dans un même modèle, sans avoir besoin de systèmes spécialisés séparés. Un modèle multimodal peut comprendre une image et répondre en texte, générer une image à partir d'une description, ou traiter une vidéo et produire un résumé.

En génération d'images et vidéo, le multimodal permet d'accepter des combinaisons de texte, images de référence, audio et vidéo en entrée. À mesure que les outils deviennent plus multimodaux, la frontière entre texte-vers-image, image-vers-vidéo et autres modes s'estompe au profit de flux plus flexibles.

Can't find what you are looking for?
Contact us and let us know.
bg