Modèle multimodal

Équivalent anglaismultimodal model

Modèle d’intelligence artificielle capable de traiter et de produire plusieurs formats de données (texte, image, son, vidéo) dans un cadre unifié. Un modèle multimodal peut, par exemple, comprendre une image et la décrire en texte, générer une image à partir d’une description écrite, écouter une parole et y répondre vocalement, ou analyser une vidéo et la résumer.

Voir d’abord

Modèle de fondation Grand modèle de langage

Pour aller plus loin

Vision par ordinateur Reconnaissance vocale Synthèse vocale Génération d’images

SourceOpenAI GPT-4o (2024) ; Anthropic Claude 3 et 4 (2024-2025) ; Google Gemini (2024).