Dataforgiftning er å manipulere treningsdata for å endre atferden til maskinlæringsmodeller.
Dataforgiftning endrer treningsdata slik at ferdigtrente modeller blir partiske eller feilaktige; ifølge kilden er skaden ofte irreversibel uten ny opprydding og retrening med rene data. Angrep kan være svært skjulte: Sofiane Bessaï beskriver angrep som introduserer imperseptible perturbasjoner som får modeller til å gi sikre, men gale prediksjoner. Hartle et al. (2025) viser at 0,001% forgiftet medisinsk innhold kunne øke skadelig innhold med 4,8%, og Souly et al. (2025) fant at omtrent 250 dokumenter kan være nok til å oppnå forgiftning i tekstbaserte treningssett. Fjerning av forgiftet data og forsøk på «machine unlearning» har i stor grad ikke vært effektive. Motiver omfatter kriminalitet (for eksempel å svekke sikkerhetsmodeller eller manipulere låneavgjørelser), og forsvar fra skapere som ønsker å forhindre opphavsrettstyveri ved å gjøre verk ubrukelige i trening, blant annet med verktøy som Nightshade.
Temaet er relevant for Norge fordi norske skapere, bedrifter og offentlige tjenester forholder seg til samme utfordringer knyttet til treningsdata, opphavsrett og sikkerhet; dette dekkes som AI-nyheter.
Kilde: https://towardsdatascience.com/data-poisoning-in-machine-learning-why-and-how-people-manipulate-training-data | Sammendraget er KI-generert med OpenAI API og kvalitetssikret av redaksjonen i Ainy.no
