AI-nyheter om StruQ og SecAlign viser effektive forsvar mot promptinjeksjon i store språkmodeller.
Forskere bak StruQ og SecAlign viser at promptinjeksjon i store språkmodeller kan motarbeides uten ekstra beregningskostnader eller menneskelig arbeid. Secure Front-End reserverer spesialtegn som [MARK] for å skille prompt og data og filtrerer bort data som ligger i separatorene. StruQ trener LLM-en ved å simulere injeksjoner i treningen, slik at modellen alltid svarer på den tiltente instruksjonen.
SecAlign bygger videre ved å trenes på simulert injiserte inputs, med merkelapper for ønsket og uønsket respons, og foretar preferanse-optimisering som gir større gap mellom ønsket og injisert respons. Resultatene viser at StruQ reduserer ASR til ca. 45 %, mens SecAlign senker ASR til ca. 8 %. For angrep som er mer sofistikterte enn treningssettet, ligger ASR under 15 %. Begge metodene gir omtrent 0 % for optimeringsfrie angrep. SecAlign bevarer AlpacaEval2-score på Llama3-8B-Instruct; StruQ gir en nedgang på 4,5 prosentpoeng. For Norge og Norden er økt bruk av kunstlig intelligens (KI) i offentlig og privat sektor en viktig grunn til å vurdere slike forsvarsmetoder.
Kilde: http://bair.berkeley.edu/blog/2025/04/11/prompt-injection-defense/ | Sammendraget er KI-generert med OpenAI API av Ainy.no