Få 70 % rabatt på to-årsabonnement – NordVPN

Slik kommuniserer flere GPU-er ved AI-trening

AI-nyheter: Moderne trening av kunstig intelligens (KI) krever rask kommunikasjon mellom flere GPU-er.

Kommunikasjon mellom GPU-er skjer i flere lag. PCIe kobler GPU-er til hovedkortet; for et kort med 16 baner gir PCIe Gen4 cirka 32 GB/s, Gen5 cirka 64 GB/s og Gen6 cirka 128 GB/s bidireksjonalt. NVLink er en direkte GPU‑til‑GPU‑forbindelse som omgår CPUen og gir mye høyere båndbredde (for eksempel rundt 600 GB/s for A100, 900 GB/s for H100, og opptil 1,8 TB/s for Blackwell). Enkelte CPU‑arkitekturer kan også bruke NVLink for raskere CPU–GPU‑overføring, blant annet IBM POWER8, POWER9 og NVIDIA Grace. NVSwitch fungerer som en intern svitsj som lar alle GPU-er kommunisere samtidig uten at båndbredden deles, og kan koble mange titalls eller opptil 256 GPU-er med nær‑NVLink‑hastighet.

Når man skalerer utover én server, brukes InfiniBand for forbindelse mellom noder; dette er mye langsommere enn NVLink, med eksempler som HDR (~25 GB/s), NDR (~50 GB/s) og NDR200 (~100 GB/s) per port. Ideelt sett gir lineær skalering dobbel ytelse med dobbelt så mange GPU-er, men i praksis begrenses dette av kommunikasjonskostnader og behovet for å overlappe kommunikasjon og beregning. Servere har ofte 128 PCIe‑baner og plass til åtte 16‑baners GPU-er, noe som forklarer begrensningen på antall GPU-er per node.

Dette er relevant for norske forskningsmiljøer, universiteter og datasentre som drifter KI‑trening, fordi valg av mellomvare og nettverk påvirker ytelse og kostnad ved opplæring av store modeller.

Kilde: https://towardsdatascience.com/how-gpus-communicate | Sammendraget er KI-generert med OpenAI API og kvalitetssikret av redaksjonen i Ainy.no