Multimodal AI

Lite leksikon om AI

AI som kombinerer flere typer data – tekst, bilde, lyd og video.

Multimodal AI gjør det mulig for maskiner å forstå og koble sammen ulike former for informasjon. Et eksempel er systemer som kan beskrive bilder med tekst eller tolke både stemme og ansiktsuttrykk. Denne teknologien ligger bak verktøy som Gemini og GPT-5 Vision.

Relatert AI Nyheter