Få 70 % rabatt på to-årsabonnement – NordVPN

3 tegn på at en AI-modell kan være forgiftet

Microsoft beskriver tre tegn som kan avsløre om en AI-modell er forgiftet.

Modellforgiftning betyr at en angriper har lagt inn en skjult instruksjon, en «backdoor», i modellen under trening. Microsoft peker på tre varselsignaler: at modellen plutselig fokuserer på et lite triggerord og svarer snevert uavhengig av resten av spørsmålet (skiftende oppmerksomhet); at modellen kan «regurgitere» fragmenter av treningsdata som ofte inneholder de forurensede eksemplene (lekkasje av forgiftet data); og at triggeren kan være «uklar» — deler eller varianter av triggeren kan likevel aktivere bakdøren (fuzzy triggers).

Microsoft har også utviklet en praktisk skanner for GPT-lignende modeller som kan oppdage slike backdoors uten ekstra trening, og som er testet på modeller fra 270M til 14B parametere. Skanneren krever åpne vekter, virker ikke for multimodale modeller og er best for backdoors som gir faste svar. Forskning fra Anthropic viser at angripere kan bruke så få som 250 dokumenter for å sette inn en backdoor.

Saken er relevant for norske brukere av kunstlig intelligens (KI) og for de som følger AI-nyheter.

Kilde: https://zdnet.com/article/ai-model-poisoned-warning-signs | Sammendraget er KI-generert med OpenAI API og kvalitetssikret av redaksjonen i Ainy.no