Gezocht: GPU’s, maar is er wel een tekort?

Iedereen wil meedoen met de AI-hype, maar niet iedereen geraakt aan de benodigde hardware om modellen te trainen of gebruiken. Hoe om te gaan met de schaarste aan GPU’s, zorgt voor veel gespreksvoer tijdens KubeCon.

“Er wordt altijd gesproken over een tekort aan GPU’s, maar is dat wel zo?”, vraagt Lachlan Evenson, Principal Program Manager van Microsoft, zich luidop af. “Miljarden mensen lopen vandaag met een CPU en een GPU in hun broekzak rond. In plaats van altijd maar de nieuwste en meest krachtige chips te willen, moeten we niet net bekijken hoe we meer kunnen halen uit de apparaten die we nu al gebruiken?”

Geen stuk hardware dat op dit moment meer gegeerd is in de IT-industrie dan een GPU. Nvidia hoeft een nieuwe chip nog maar aan te kondigen of de voorraden zijn al onmiddellijk uitverkocht, ook al kosten ze tienduizenden euro’s per stuk. Hyperscalers en AI-specialisten plaatsen bestellingen van tienduizenden chips per levering, waardoor het voor de rest schrapen is naar overschotjes. Ook KubeCon was helemaal in de ban van AI en GPU’s.

KubeCon wijst met de vinger naar gesloten AI-modellen: “Concentratie van technologie heeft slechte neveneffecten”

Geen nieuw probleem

De roep om GPU’s weerklinkt luider dan ooit in de IT-industrie, maar het probleem is niet nieuw. Grafische kaarten zijn al sinds 2020 een schaars goed. Tijdens de coronapandemie steeg de vraag naar allerhande IT-hardware en -componenten disproportioneel en fabrikanten konden die vraag simpelweg niet volgen.

Miljarden mensen lopen vandaag met een CPU en een GPU in hun broekzak rond. In plaats van altijd maar de nieuwste en meest krachtige chips te willen, moeten we niet net bekijken hoe we meer kunnen halen uit de apparaten die we nu al gebruiken?
Lachlan Evenson, Principal Program Manager Microsoft

Aanvankelijk waren het vooral cryptominers, gamers en hobbyisten die zich massaal op GPU’s stortten, maar door de huidige hype rond (generatieve) AI zijn ze door een breder publiek gegeerd. De tekorten verschuiven van lager geprijsde consumenten-GPU’s naar high-end grafische chips.

Terwijl het CPU-segment zich gaandeweg weer stabiliseerde, lijkt de kloof tussen vraag en aanbod voor GPU’s alleen maar toe te nemen. Jonathan Bryce, executive director van de OpenInfra Foundation, schets de huidige situatie. “Gebruikers van publieke clouddiensten geven doorgaans niet om de onderliggende hardware. Dit verandert met AI en zeker met generatieve AI omdat het specifieke chips vereist. De vraag naar GPU’s zal dus niet snel weer afnemen.”

Pieken en dalen

GPU’s vormen de fundering voor zowel de training als de fundering van AI-modellen. Oorspronkelijk waren grafische kaarten voornamelijk bedoeld om grafische bewerkingen over te nemen van de CPU. Waar een CPU bestaat uit een handvol krachtige kernen die zwarte taken sequentieel onder elkaar verdelen, telt een GPU tot duizenden kleinere kernen die parallel samenwerken en dus allemaal tegelijk worden ingezet. Dit maakt GPU’s geschikter voor taken die een groot aantal kleinere bewerkingen vereisen.

Bekijk het als volgt: vier heel sterke bouwvakkers kunnen goed zware balken versjouwen, maar vijfhonderd kleine kinderen zullen toch sneller vijfhonderd kleine steentjes verleggen. AI-training en inferentie bestaat uit heel veel werk dat parallel moet gebeuren, maar waarbij een individuele taak niet zo complex is

AI-workloads zorgen daarentegen wel voor grote pieken in het GPU-verbruik. Het trainen van opvoeden van AI-modellen is een intensief proces, maar het is vooral het dagelijkse gebruik, in vaktermen inferencing genoemd, dat voor die pieken zorgt. Toch worstelen veel bedrijven met efficiëntieproblemen tijdens die piekmomenten waardoor de GPU’s die in het arsenaal zitten niet ten volste worden ingezet, stelde AI-bedrijf ClearML onlangs vast in een studie.

De oplossing voor het GPU-tekort ligt dus niet enkel in het produceren van hogere aantallen GPU’s, maar ook en vooral in het volste uit elke chip halen. Dat vindt ook Bryce: “Een efficiëntiewinst van slechts enkele procenten per unit staat al gelijk aan het hebben van meer GPU’s.”

De rode loper is uitgerold voor Nvidia: de GPU-specialist bij uitstek mag natuurlijk niet ontbreken tijdens Kubecon. Vertegenwoordigers van het bedrijf duiken op in meerdere sessies om te vertellen hoe bedrijven meer uit hun (Nvidia)-GPU’s kunnen halen. Nvidia-ingenieur Kevin Klues verwijst onder meer naar het concept van GPU Sharing. Dit is op verschillende manieren mogelijk, maar het principe is hetzelfde: één fysieke GPU wordt opgedeeld in meerdere virtuele GPU’s zodat verschillende workloads tegelijkertijd op de chip kunnen draaien. Nvidia introduceerde die capaciteit met de MIG-technologie in Ampere.

Naar de ziel van openheid en samenhorigheid die KubeCon wil uitdragen, verenigt het GPU-thema zelfs gezworen rivalen. Intel en Nvidia verschijnen tijdens een sessie zowaar zij aan zij om het over dynamic resource allocation (DRA) te hebben. Een opmerkelijke combinatie, aangezien de ene de AI-dominantie van de andere maar al te graag zou willen breken.

Arun Gupta legt in een notendop uit wat DRA inhoudt. Hij leidt de opensource-activiteiten bij Intel. “DRA is een ruimer concept en samen met Nvidia onderzoeken we hoe we dit in Kubernetes kunnen toepassen op GPU’s. Het is op zichzelf geen systeem om hardware te beheren, maar kan wel toegepast worden om te bepalen hoe workloads met resources omgaan. Een van de mogelijkheden van DRA is time-slicing, het verdelen van GPU’s over meerdere containers”. Gupta benadrukt graag dat Intel hiermee op de proppen kwam.

Vergeet de CPU niet

Sudha Raghavan, VP of Developer Platform bij Oracle, zoekt de oplossing in een andere richting: “In veel situaties kunnen AI-workloads kostenefficiënter op een CPU draaien dan op een GPU.” Een stelling die Gupta als muziek in de oren klinkt. “De GPU-explosie die we nu meemaken gaat gepaard met een hoge voetafdruk. Maar moeten we voor alles wel een GPU gebruiken? Moeten we niet net meer uit de CPU halen om de GPU te ontlasten?”, aldus Gupta.

Het klinkt alsof AI de hiërarchie tussen processoren op zijn kop zet. De GPU had oorspronkelijk net het doel om de CPU bij te staan, nu wordt gekeken naar hoe de CPU de GPU ten dienste kan zijn. Intel doet ook volop zijn best om de IT-wereld te overtuigen van het nut van een NPU, een chiplet om AI naar apparaatniveau te brengen. “LLM’s hebben een complexe structuur. Cloud-native is een goed vertrekpunt om modellen te draaien, maar eens je vasthangt aan hardware, is het moeilijk daarvan los te breken”, deelt Gupta tussen de lijnen een steekje aan Nvidia uit.

Moeten we voor alles een GPU gebruiken? Als je eenmaal vasthangt aan hardware, is het moeilijk daarvan los te breken.
Arun Gupta, GM Open Ecosystem Intel

Toch zullen ook Intel en Gupta tot de realisatie moeten komen dat ze op dit moment niet om Nvidia heen kunnen in de AI-sector. Er kan tijdens KubeCon zelden over AI gesproken worden zonder dat de GPU-specialist spontaan in de gedachten van de aanwezigen komt. Nvidia is de enige ware dirigent van het AI-orkest.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Gezocht: GPU’s, maar is er wel een tekort?

KubeCon wijst met de vinger naar gesloten AI-modellen: “Concentratie van technologie heeft slechte neveneffecten”

Geen nieuw probleem

Pieken en dalen

Sharing is caring

Vergeet de CPU niet

gerelateerd nieuws

nieuwsbrief