Multimodal AI gjør det mulig for maskiner å forstå og koble sammen ulike former for informasjon. Et eksempel er systemer som kan beskrive bilder med tekst eller tolke både stemme og ansiktsuttrykk. Denne teknologien ligger bak verktøy som Gemini og GPT-5 Vision.
Multimodal AI
Lite leksikon om AI
AI som kombinerer flere typer data – tekst, bilde, lyd og video.