AI nyheter: Et nytt arXiv-paper viser at debattformat og modellspesifikke trekk former hvordan store språkmodeller fordeler skyld i hverdagsdilemmaer.
Forskerne Pratik S. Sachdeva og Tom van Nuenen publiserte arXiv-artikkelen ‘Deliberative Dynamics and Value Alignment in LLM Debates’ sendt 11. oktober 2025. De testet tre modeller – GPT-4.1, Claude 3.7 Sonnet og Gemini 2.0 Flash – på 1 000 hverdagsdilemmaer hentet fra Reddit-samfunnet «Am I the Asshole». Modeller deltok i både synkrone (parallelle svar) og round-robin (sekvensielle svar) debattformater for å undersøke rekkefølgeeffekter og mulighet for å revidere avgjørelser.
Resultatene viste klare forskjeller: i den synkrone settingen hadde GPT svært lav endringsrate (0,6–3,1 %), mens Claude og Gemini var langt mer fleksible (28–41 %). Verdimønstre skilte seg også; GPT la vekt på personlig autonomi og direkte kommunikasjon, mens Claude og Gemini prioriterte empatisk dialog. Visse verdier var særlig effektive for å endre avgjørelser, og debattformatet hadde sterk innvirkning på atferd: GPT og Gemini framsto som mer konforme enn Claude, med markante rekkefølgeeffekter. Studien konkluderer med at socioteknisk justering avhenger like mye av hvordan dialogen er strukturert som av modellens enkeltstående utsagn.
Relevans for Norge: Funnene gjelder bruk av store språkmodeller i kontekster som personlig rådgivning, mental helse og moralsk veiledning, temaer som også berører norske tjenester og regelverk, og derfor er av interesse for norsk kunstlig intelligens (KI)-miljø.
Kilde: https://arxiv.org/abs/2510.10002 | Sammendraget er KI-generert med OpenAI API av Ainy.no
