AI og Wikipedia truer sårbare språk

Maskinoversettelser har fylt små Wikipedia-utgaver med feilaktige artikler som kan forringe språkteknologi.

Kenneth Wehr slettet nesten alle artikler på grønlandsk Wikipedia etter å ha funnet at de fleste var maskinoversettelser skrevet av folk som ikke kunne språket; sidene inneholdt grammatiske feil, meningsløse ord og faktabommer, blant annet en artikkel som påsto at Canada hadde 41 innbyggere. Frivillige anslår at 40–60 prosent av artiklene i noen afrikanske språk-utgaver er ukorrigerte maskinoversettelser, og for Inuktitut inneholder mer enn to tredjedeler av lengre sider slike maskinproduserte deler.

Problemet er at kunstlig intelligens (KI) modeller trener på nettdata, og Wikipedia kan være den største tilgjengelige kilden for underresursede språk; feilaktig innhold kan dermed «forurense» treningsdataene og skape en selvforsterkende «doom loop», advarer eksperter som Kevin Scannell og Trond Trosterud ved Universitetet i Tromsø. I AI-nyheter om språk understrekes konsekvensene for arktiske språk som grønlandsk og inuktitut.

Kilde: https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/ | AI-sammendrag generert av Ainy.no