Modèle multimodal

Équivalent anglaismultimodal model

Modèle d’intelligence artificielle capable de traiter et de produire plusieurs formats de données (texte, image, son, vidéo) dans un cadre unifié. Un modèle multimodal peut, par exemple, comprendre une image et la décrire en texte, générer une image à partir d’une description écrite, écouter une parole et y répondre vocalement, ou analyser une vidéo et la résumer.

SourceOpenAI GPT-4o (2024) ; Anthropic Claude 3 et 4 (2024-2025) ; Google Gemini (2024).