Iedereen wil meedoen met de AI-hype, maar niet iedereen geraakt aan de benodigde hardware om modellen te trainen of gebruiken. Hoe om te gaan met de schaarste aan GPU’s, zorgt voor veel gespreksvoer tijdens KubeCon.
“Er wordt altijd gesproken over een tekort aan GPU’s, maar is dat wel zo?”, vraagt Lachlan Evenson, Principal Program Manager van Microsoft, zich luidop af. “Miljarden mensen lopen vandaag met een CPU en een GPU in hun broekzak rond. In plaats van altijd maar de nieuwste en meest krachtige chips te willen, moeten we niet net bekijken hoe we meer kunnen halen uit de apparaten die we nu al gebruiken?”
Geen stuk hardware dat op dit moment meer gegeerd is in de IT-industrie dan een GPU. Nvidia hoeft een nieuwe chip nog maar aan te kondigen of de voorraden zijn al onmiddellijk uitverkocht, ook al kosten ze tienduizenden euro’s per stuk. Hyperscalers en AI-specialisten plaatsen bestellingen van tienduizenden chips per levering, waardoor het voor de rest schrapen is naar overschotjes. Ook KubeCon was helemaal in de ban van AI en GPU’s.
Geen nieuw probleem
De roep om GPU’s weerklinkt luider dan ooit in de IT-industrie, maar het probleem is niet nieuw. Grafische kaarten zijn al sinds 2020 een schaars goed. Tijdens de coronapandemie steeg de vraag naar allerhande IT-hardware en -componenten disproportioneel en fabrikanten konden die vraag simpelweg niet volgen.
Miljarden mensen lopen vandaag met een CPU en een GPU in hun broekzak rond. In plaats van altijd maar de nieuwste en meest krachtige chips te willen, moeten we niet net bekijken hoe we meer kunnen halen uit de apparaten die we nu al gebruiken?
Lachlan Evenson, Principal Program Manager Microsoft
Aanvankelijk waren het vooral cryptominers, gamers en hobbyisten die zich massaal op GPU’s stortten, maar door de huidige hype rond (generatieve) AI zijn ze door een breder publiek gegeerd. De tekorten verschuiven van lager geprijsde consumenten-GPU’s naar high-end grafische chips.
Terwijl het CPU-segment zich gaandeweg weer stabiliseerde, lijkt de kloof tussen vraag en aanbod voor GPU’s alleen maar toe te nemen. Jonathan Bryce, executive director van de OpenInfra Foundation, schets de huidige situatie. “Gebruikers van publieke clouddiensten geven doorgaans niet om de onderliggende hardware. Dit verandert met AI en zeker met generatieve AI omdat het specifieke chips vereist. De vraag naar GPU’s zal dus niet snel weer afnemen.”
Pieken en dalen
GPU’s vormen de fundering voor zowel de training als de fundering van AI-modellen. Oorspronkelijk waren grafische kaarten voornamelijk bedoeld om grafische bewerkingen over te nemen van de CPU. Waar een CPU bestaat uit een handvol krachtige kernen die zwarte taken sequentieel onder elkaar verdelen, telt een GPU tot duizenden kleinere kernen die parallel samenwerken en dus allemaal tegelijk worden ingezet. Dit maakt GPU’s geschikter voor taken die een groot aantal kleinere bewerkingen vereisen.
Bekijk het als volgt: vier heel sterke bouwvakkers kunnen goed zware balken versjouwen, maar vijfhonderd kleine kinderen zullen toch sneller vijfhonderd kleine steentjes verleggen. AI-training en inferentie bestaat uit heel veel werk dat parallel moet gebeuren, maar waarbij een individuele taak niet zo complex is
AI-workloads zorgen daarentegen wel voor grote pieken in het GPU-verbruik. Het trainen van opvoeden van AI-modellen is een intensief proces, maar het is vooral het dagelijkse gebruik, in vaktermen inferencing genoemd, dat voor die pieken zorgt. Toch worstelen veel bedrijven met efficiëntieproblemen tijdens die piekmomenten waardoor de GPU’s die in het arsenaal zitten niet ten volste worden ingezet, stelde AI-bedrijf ClearML onlangs vast in een studie.
De oplossing voor het GPU-tekort ligt dus niet enkel in het produceren van hogere aantallen GPU’s, maar ook en vooral in het volste uit elke chip halen. Dat vindt ook Bryce: “Een efficiëntiewinst van slechts enkele procenten per unit staat al gelijk aan het hebben van meer GPU’s.”
Sharing is caring
De rode loper is uitgerold voor Nvidia: de GPU-specialist bij uitstek mag natuurlijk niet ontbreken tijdens Kubecon. Vertegenwoordigers van het bedrijf duiken op in meerdere sessies om te vertellen hoe bedrijven meer uit hun (Nvidia)-GPU’s kunnen halen. Nvidia-ingenieur Kevin Klues verwijst onder meer naar het concept van GPU Sharing. Dit is op verschillende manieren mogelijk, maar het principe is hetzelfde: één fysieke GPU wordt opgedeeld in meerdere virtuele GPU’s zodat verschillende workloads tegelijkertijd op de chip kunnen draaien. Nvidia introduceerde die capaciteit met de MIG-technologie in Ampere.
Naar de ziel van openheid en samenhorigheid die KubeCon wil uitdragen, verenigt het GPU-thema zelfs gezworen rivalen. Intel en Nvidia verschijnen tijdens een sessie zowaar zij aan zij om het over dynamic resource allocation (DRA) te hebben. Een opmerkelijke combinatie, aangezien de ene de AI-dominantie van de andere maar al te graag zou willen breken.
Arun Gupta legt in een notendop uit wat DRA inhoudt. Hij leidt de opensource-activiteiten bij Intel. “DRA is een ruimer concept en samen met Nvidia onderzoeken we hoe we dit in Kubernetes kunnen toepassen op GPU’s. Het is op zichzelf geen systeem om hardware te beheren, maar kan wel toegepast worden om te bepalen hoe workloads met resources omgaan. Een van de mogelijkheden van DRA is time-slicing, het verdelen van GPU’s over meerdere containers”. Gupta benadrukt graag dat Intel hiermee op de proppen kwam.
Vergeet de CPU niet
Sudha Raghavan, VP of Developer Platform bij Oracle, zoekt de oplossing in een andere richting: “In veel situaties kunnen AI-workloads kostenefficiënter op een CPU draaien dan op een GPU.” Een stelling die Gupta als muziek in de oren klinkt. “De GPU-explosie die we nu meemaken gaat gepaard met een hoge voetafdruk. Maar moeten we voor alles wel een GPU gebruiken? Moeten we niet net meer uit de CPU halen om de GPU te ontlasten?”, aldus Gupta.
Het klinkt alsof AI de hiërarchie tussen processoren op zijn kop zet. De GPU had oorspronkelijk net het doel om de CPU bij te staan, nu wordt gekeken naar hoe de CPU de GPU ten dienste kan zijn. Intel doet ook volop zijn best om de IT-wereld te overtuigen van het nut van een NPU, een chiplet om AI naar apparaatniveau te brengen. “LLM’s hebben een complexe structuur. Cloud-native is een goed vertrekpunt om modellen te draaien, maar eens je vasthangt aan hardware, is het moeilijk daarvan los te breken”, deelt Gupta tussen de lijnen een steekje aan Nvidia uit.
Moeten we voor alles een GPU gebruiken? Als je eenmaal vasthangt aan hardware, is het moeilijk daarvan los te breken.
Arun Gupta, GM Open Ecosystem Intel
Toch zullen ook Intel en Gupta tot de realisatie moeten komen dat ze op dit moment niet om Nvidia heen kunnen in de AI-sector. Er kan tijdens KubeCon zelden over AI gesproken worden zonder dat de GPU-specialist spontaan in de gedachten van de aanwezigen komt. Nvidia is de enige ware dirigent van het AI-orkest.