Qu'est-ce que Multimodal ?

Multimodal

Un modèle multimodal est capable de traiter plusieurs types de données à la fois : texte, image, audio, voire vidéo. Il peut par exemple analyser une photo et répondre à une question écrite à son sujet.

Définition. Un modèle multimodal est capable de traiter plusieurs types de données à la fois : texte, image, audio, voire vidéo. Il peut par exemple analyser une photo et répondre à une question écrite à son sujet.

Les modèles récents comme Claude ou GPT sont multimodaux : ils lisent un document scanné, interprètent un schéma ou décrivent une image.

Dans l'industrie, cela ouvre des usages concrets : analyser une photo de pièce défectueuse, lire un plan ou extraire des données d'un document non structuré.

Termes liés

Vision par ordinateur OCR (reconnaissance optique de caractères)Grand modèle de langage

Comment l'appliquer chez vous ?

Un audit IA identifie les cas d'usage où cette technologie crée de la valeur dans votre organisation.

Voir nos solutions IA Démarrer un audit IA

Explorer le glossaire.

Intelligence artificielle IA générative Grand modèle de langage Apprentissage automatique Apprentissage profond Traitement automatique du langage IA agentique Agent IA Assistant IA Chatbot Copilote IA Hallucination Token Fenêtre de contexte Prompt Prompt engineering Embedding Base vectorielle

Voir tout le glossaire ›

De la définition à la mise en production.

Made in AI connecte ces technologies à vos outils métier et forme vos équipes.

Contactez-nous

Découvrir l'audit IA