Amazon Search doblet GPU-utnyttelsen med AWS Batch

Amazon Search økte GPU-utnyttelsen for ML-trening fra 40% til over 80% ved å bruke AWS Batch for Amazon SageMaker Training jobs.

Tidligere brukte teamet en FIFO-kø, men trengte finere prioritering hvor produksjonsmodeller har høy prioritet, utforskende arbeid middels og hyperparametertester lav prioritet. De valgte AWS Batch integrert med SageMaker for å orkestrere trening på GPU-familier som P5 og P4, samt for håndtering av avbrudd og bytte til tilgjengelige kompatible instanstyper. Løsningen benytter Service Environments for å representere total GPU-kapasitet med faste grenser basert på reservert kapasitet, og Share Identifiers som fordeler andeler av kapasiteten. AWS Batchs fair-share-scheduling tillater låning av ledig kapasitet og preemptiv gjenoppretting ved behov (eksempelvis 60/40 fordeling med låning og preemptering). Innen en Share Identifier styres jobbrekkefølge av prioritet (0–99) med preemptering når kvoten nås. Amazon CloudWatch samler SageMaker- og Batch-metrikker, overvåker jobbstater (SUBMITTED, PENDING, RUNNABLE, STARTING, RUNNING, SUCCEEDED, FAILED) og gir dashbord og alarmer. Artikkelen inkluderer en steg-for-steg gjennomgang av implementasjonen for kunstlig intelligens (KI).

Relevans for Norge: Saken viser en konkret skybasert metode for økt GPU-utnyttelse ved bruk av AWS Batch og SageMaker, og er relevant for norske bedrifter og forskningsmiljøer som benytter skybaserte GPU-ressurser; dette er aktuelle tema i AI-nyheter.

Kilde: https://aws.amazon.com/blogs/machine-learning/how-amazon-search-increased-ml-training-twofold-using-aws-batch-for-amazon-sagemaker-training-jobs | Sammendraget er KI-generert med OpenAI API av Ainy.no