AI-nyheter: Amazon lanserer nye evalueringsfunksjoner for Amazon Nova i SageMaker AI, inkludert tilpassede målemetoder, LLM-dommer, log-sannsynligheter, metadata og multi-node skalerbarhet.
Oppdateringen introduserer bring-your-own-metrics (BYOM) via Lambda-funksjoner for pre-/post-prosessering og egendefinert aggregering (min, maks, gjennomsnitt eller sum). Nova LLM-as-a-Judge utfører parvise A/B-sammenligninger med frem- og tilbakepass for å oppdage posisjonsbias, og rapporterer Bradley–Terry-sannsynligheter med bootstrap-konfidensintervaller samt naturlige språkforklaringer for hver vurdering. Evalueringscontaineren kan fange token-nivå log-sannsynligheter ved bruk av top_logprobs (for eksempel top_logprobs: 10), og metadata passthrough bevarer per-rad felter for segmentert analyse. Multi-node kjøring distribuerer arbeidsmengder og sikrer stabil aggregering, slik at datasett kan skaleres fra tusenvis til millioner eksempler.
Evalueringer defineres som JSONL-filer i Amazon S3 og kjøres som SageMaker-treningsjobber, med resultater levert som strukturerte JSONL for videre analyse i verktøy som Amazon Athena eller AWS Glue eller for direkte ruting til observability-stabler. Disse funksjonene gir mer detaljerte målinger for kunstlig intelligens (KI) og eksemplifiseres i bloggen med en IT-support ticket-klassifisering.
For norske utviklere og organisasjoner i AI-Norge kan verktøyene bidra til mer konsistente og reproduserbare evalueringer av modeller som vurderes for produksjon.
Kilde: https://aws.amazon.com/blogs/machine-learning/evaluate-models-with-the-amazon-nova-evaluation-container-using-amazon-sagemaker-ai | Sammendraget er KI-generert med OpenAI API og kvalitetssikret av redaksjonen i Ainy.no
