AI-nyheter: Google Research og afrikanske partnere lanserer AfriMed-QA, et omfattende benchmark for å vurdere store språkmodeller på afrikanske helsespørsmål.
Datasettet inneholder om lag 15 000 klinisk varierte spørsmål på engelsk, inkludert over 4 000 multiple choice-spørsmål, mer enn 1 200 kortsvarsoppgaver og rundt 10 000 forbrukerspørsmål. Materialet er crowdsourcet fra 621 bidragsytere ved over 60 medisinske skoler og dekker 32 spesialiteter; det ble publisert på ACL 2025 og fikk Best Social Impact Paper Award. AfriMed-QA og evalueringskoden er åpen kildekode, og benchmarket ble brukt i trening av MedGemma. Evaluering av 30 generelle og biomedisinske LLM viste bedre ytelse for større modeller, og at generelle modeller ofte generaliserte bedre enn spesialiserte biomedisinske modeller.
LLM-svar ble vurdert av klinikere og forbrukere på korrekthet, utelatelser, demografisk skjevhet og potensiell skade ved bruk av kvantitative og kvalitative metoder. Dette er relevant for Norge som del av internasjonalt arbeid for å evaluere kunstlig intelligens (KI) i helse, særlig i flerspråklige og lavressursmiljøer.
Kilde: https://research.google/blog/afrimed-qa-benchmarking-large-language-models-for-global-health | Sammendraget er KI-generert med OpenAI API av Ainy.no