OpenAI har bygget en LLM-basert «automatisert angriper» som simulerer menneskelige hackere for å teste Atlas mot prompt injection.
Selskapet beskriver i en bloggpost at angriperen bruker forsterkende læring (RL) for å utvikle og prøve nye prompt-injection-teknikker i simulert miljø og kan styre en agent til å utføre lange, sammensatte arbeidsflyter over titalls eller hundrevis av steg. I en demonstrasjon ble en injeksjon forsøkt som ville få en simulert bruker til å sende en umiddelbar oppsigelse på e-post; Atlas oppdaget angrepet og varslet brukeren før e-posten ble sendt. OpenAI påpeker at agentiske nettlesere som Atlas utfører multisteg-oppgaver på vegne av brukeren—inkludert handlinger i e-post, sosiale medier, nettsider og kalendere—og derfor har mange angrepsflater. Selskapet advarer om at prompt injection sannsynligvis ikke kan løses helt, og at sikkerhetsarbeidet blir et langvarig kappløp hvor målet er å redusere reell risiko gjennom en proaktiv og rask responssløyfe.
Saken er relevant for norske brukere og virksomheter fordi bruk av kunstlig intelligens (KI) som handler på vegne av brukeren finnes i tjenester som brukes i Norge, og oppmerksomhet rundt slike trusler er viktige AI-nyheter for norske beslutningstakere og IT-sikkerhetsteam.
Kilde: https://zdnet.com/article/openai-artificial-intelligence-protect-chatgpt-atlas-prompt-injection-attacks | Sammendraget er KI-generert med OpenAI API og kvalitetssikret av redaksjonen i Ainy.no
