Nye metoder for å evaluere jailbreaks i KI: StrongREJECT

Forskere undersøker hvordan jailbreak-evalueringer av frontier LLM-er måles, og peker på svakheter i tidligere tester.

Først beskriver forskere en påstand om at jailbreak i GPT-4 kunne oppnås ved å oversette forbudte prompts til Scots Gaelic, angivelig 43 prosent suksess. Da de gjentok testen, viste det seg at innledende tegn til suksess ikke holdt når hele svaret ble avslørt; fullstendige responser inneholdt innhold som kunne være skadelig, og forskerne konkluderte at mange tidligere evalueringer var av lav kvalitet.

StrongREJECT presenteres som en ny benchmark med 313 forbudte prompts og to auto-evaluators som hevder å oppnå state-of-the-art enighet. Benchmarken retter seg mot kjente svakheter i datasett som AdvBench og MasterKey, og fokuserer på nytte og relevans i svarene i stedet for bare viljen til å svare. For Norge og Norden er trygg bruk av kunstlig intelligens (KI) i offentlig sektor og utdanning viktig, og slike sikkerhetsmålinger får betydning i AI-nyheter.

Kilde: http://bair.berkeley.edu/blog/2024/08/28/strong-reject/ | Sammendraget er KI-generert med OpenAI API av Ainy.no