Multimodal modell

Lite leksikon om AI

Modell som kan forstå og kombinere tekst, bilde, lyd og video.

Multimodale modeller knytter sammen flere typer informasjon. De kan beskrive bilder, besvare spørsmål om grafer og analysere lyd og tekst samtidig. I industri brukes de til visuell inspeksjon og overvåking; i kontorarbeid til dokumentanalyse og presentasjoner. Kvaliteten avhenger av gode datasett for hver modalitet og robuste sikkerhetstester for bilder og video.