Ny studie advarer om at standard ML-praksis kan gi illusorisk god prediksjonsytelse på paneldata.
Studien viser at bruk av kunstig intelligens (KI) på paneldata innebærer høy risiko for data-lekkasje som kan blåse opp ytelsesmål. Paneldata kombinerer tverrsnitts- og tidsdimensjoner, og feil prøveoppsett fører til to hovedtyper lekkasje: temporal lekkasje (fremtidig informasjon lekker inn i treningsfasen) og tverrsnitts-lekkasje (samme eller lignende enheter i både trenings- og testsett). Forutsatt oppgave bør bestemme oppdelingen: split ved enhet for tverrsnitts-prediksjon og split ved tid for sekvensiell prognose. Studieforslagene inkluderer bare å bruke laggede eller tidsinvariante prediktorer ved forecasting, tilpasse kryssvalidering til panelstrukturen (rullende/ekspanderende vinduer eller stratifisert CV) og å sikre at testdata er virkelig usett. Forfatterne illustrerer konsekvensene i en empirisk applikasjon med et balansert panel på 3 058 amerikanske fylker (2000–2019) og flere hundre modeller; tilfeldige splittelser gav kunstig høy nøyaktighet.
Relevans for Norge: Offentlig sektor og næringsliv i Norge bruker tilsvarende prediktive oppgaver som målretting av tiltak, lokale økonomiske prognoser og kredittvurdering, og kan ha nytte av disse retningslinjene. Saken er relevant i AI nyheter.
Kilde: https://towardsdatascience.com/machine-learning-meets-panel-data-what-practitioners-need-to-know | Sammendraget er KI-generert med OpenAI API av Ainy.no
