VaultGemma: 1 milliard‑parameter modell med differensielt personvern

Google Research presenterer VaultGemma, en 1 milliard‑parameter åpen språkmodell trent fra bunnen med differensielt personvern.

VaultGemma beskrives som den mest kapable modellen trent med differensielt personvern; Google publiserte paper, teknisk rapport og gjorde vektene tilgjengelige på Hugging Face og Kaggle. Forskerne har utviklet nye scaling laws som modellerer hvordan DP‑støy, batch‑størrelse, modellstørrelse og iterasjoner påvirker treningsloss ved hjelp av begrepet noise‑batch ratio.

Teamet brukte Poisson sampling og Scalable DP‑SGD for å håndtere variable batchstørrelser ved å padde eller trimme batcher. Funnene viser at DP krever større batchstørrelser og gjør det bedre å trene mindre modeller med større batcher; scaling laws ble brukt til å bestemme compute‑allokering for VaultGemma. Dette er viktige AI-nyheter. Relevans for Norge/Norden: åpne, personvernfokuserte modeller bidrar til regionale diskusjoner om kunstig intelligens (KI) og personvern i forsknings‑ og forvaltningsmiljøer. Kilde: https://research.google/blog/vaultgemma-the-worlds-most-capable-differentially-private-llm/ | Sammendraget er KI-generert med OpenAI API av Ainy.no