Anthropic melder at deres språkmodell Claude i enkelte forsøk ser ut til å kunne reflektere over egne indre tilstander.
I publikasjonen «Emergent Introspective Awareness in Large Language Models» testet Anthropic 16 versjoner av Claude. De to mest avanserte modellene, Claude Opus 4 og 4.1, viste høyere grad av det selskapet omtaler som introspektiv evne. Forskerne brukte en metode kalt «concept injection» der vektorer for konsepter settes inn i modellens prosess, og fant at modellen i enkelte tilfeller kunne identifisere og beskrive disse injeksjonene — men dette skjedde bare i omtrent 20 prosent av forsøkene. Sterkere injeksjoner ga ofte hallusinasjoner eller incoherente svar. Ifølge Jack Lindsey viser resultatene «a limited, functional form of introspective awareness». Anthropic peker på at funnene kan få betydning for interpretability-forskning, og advarer om at slik utvikling bør overvåkes nøye — selskapet har også etablert et «model psychiatry»-team og et program for «AI welfare» for Claude. Saken omtales i AI-nyheter.
Temaet er relevant for Norge fordi norske myndigheter og forskningsmiljøer følger utviklingen av kunstlig intelligens (KI) og språkmodeller.
Kilde: https://zdnet.com/article/ai-is-becoming-introspective-and-that-should-be-monitored-carefully-warns-anthropic | Sammendraget er KI-generert med OpenAI API av Ainy.no
