Amazon SageMaker HyperPod for storskala KI-trening

Amazon beskriver Amazon SageMaker HyperPod training operator for å akselerere storskala trening av kunstlig intelligens (KI), med innebygd resilien som kan redusere treningstid med opptil 40 prosent.

HyperPod training operator distribueres som en Amazon EKS add-on og leverer Custom Resource Definitions (for eksempel HyperPodPyTorchJob), RBAC-policyer, en jobbkontroller, pod-managere og en HyperPod elastic agent (en utvidelse av PyTorch ElasticAgent). Operatøren starter jobbpoder og tilhørende pod-managere, bruker helsesjekk-agenter og Node health checks for å oppdage feil, og kommuniserer med elastic agent for å overvåke treningsprosesser. Nøkkelfunksjoner inkluderer sentralisert overvåking og restart, sentral rangtildeling via en HyperPod rendezvous-backend, granulat prosessgjenoppretting i stedet for full jobbrestart, samt hengende jobb- og ytelsesnedgangsdeteksjon basert på loggmonitorering og enkel YAML-konfigurasjon.

Installasjon skjer som en EKS add-on; forutsetninger i dokumentasjonen er blant annet en EKS-klynge (versjon 1.28 eller nyere), en HyperPod EKS-klynge, ECR-repositorium, IAM-policyen AmazonSageMakerHyperPodTrainingOperatorAccess, eks-pod-identity-agent add-on, og lokale verktøy som kubectl (1.28+), docker (20.10+) og AWS CLI v2; estimert oppsettstid er 30–45 minutter, og cert-manager må installeres som del av oppsettet.

Relevans for Norge: Løsningen leveres som en Amazon EKS-add-on og gjelder dermed norske AWS-kunder som bruker EKS og ECR. Dette er AI nyheter av interesse for slike brukere.

Kilde: https://aws.amazon.com/blogs/machine-learning/accelerate-large-scale-ai-training-with-amazon-sagemaker-hyperpod-training-operator | Sammendraget er KI-generert med OpenAI API av Ainy.no