Multimodale modeller knytter sammen flere typer informasjon. De kan beskrive bilder, besvare spørsmål om grafer og analysere lyd og tekst samtidig. I industri brukes de til visuell inspeksjon og overvåking; i kontorarbeid til dokumentanalyse og presentasjoner. Kvaliteten avhenger av gode datasett for hver modalitet og robuste sikkerhetstester for bilder og video.
Multimodal modell
Lite leksikon om AI
Modell som kan forstå og kombinere tekst, bilde, lyd og video.