Définition. Un modèle multimodal est capable de traiter plusieurs types de données à la fois : texte, image, audio, voire vidéo. Il peut par exemple analyser une photo et répondre à une question écrite à son sujet.
Les modèles récents comme Claude ou GPT sont multimodaux : ils lisent un document scanné, interprètent un schéma ou décrivent une image.
Dans l'industrie, cela ouvre des usages concrets : analyser une photo de pièce défectueuse, lire un plan ou extraire des données d'un document non structuré.
Comment l'appliquer chez vous ?
Un audit IA identifie les cas d'usage où cette technologie crée de la valeur dans votre organisation.