Wie gaat AI-serverracks van 1 MW koelen en voeden (en hoe)?

Wie gaat AI-serverracks van 1 MW koelen en voeden (en hoe)?

Nvidia heeft de eerste serverracks met een stroomvraag van 1 MW al op de planning staan. Die dingen koelen en van stroom voorzien, wordt een hele uitdaging. Schneider Electric wrijft zich in de handen, en zet zich tijdens de Innovation Summit on Kopenhagen in de spotlights als specialist van dienst.

Schneider Electric toont zich alweer de grootste supporter van Nvidia, hoewel steeds meer duidelijk wordt dat de liefde wederzijds mag zijn. Op het podium van de Innovation Summit in Copenhagen prijzen Pankaj Sharma, EVP Secure Power bij Schneider Electric, en Steve Carlini, Chief Advocate AI and Data Center, het enorme tempo van innovatie dat het bedrijf van Jensen Huang oplegt. Alleen lijkt dat tempo steeds minder houdbaar zonder de juiste omkadering.

Van gezapig naar geaccelereerd

“De datacentersector werkte decennialang exclusief met x86-CPU’s en de innovatie ging eigenlijk heel gezapig”, aldus Carlini. “Met accelerated computing is alles in een stroomversnelling terechtgekomen. 70 procent van de nieuwe datacenters worden gebouwd met oog op AI. De vraag voor AI stijgt sneller dan er capaciteit kan bijgebouwd worden.”

Samen met die vraag stijgt ook de dichtheid van systemen die AI-workloads ondersteunen. Die servers worden gebouwd door Nvidia, rond de Hopper, Blackwell en binnenkort Rubin-GPU’s. “Nvidia is waar het allemaal gecreëerd wordt”, aldus een lovende Sharma.

576 GPU’s onder één dak

De stijging van de dichtheid is geen lachertje. “In 2022 werden de eerste GPT-modellen nog getraind op rekken gevuld met Nvidia A100-chips, goed voor ongeveer 25 kW per rack”, zegt Vladimir Prodanovic. Hij kan het weten, want als Principal Program Manager voor Nvidia heeft hij de verschillende clusters waarop de opeenvolgende versies van ChatGPT werden getraind, meegebouwd.

“Dat is doenbaar met luchtkoeling”, vervolgt hij. Racks met Hopper H100-chips vroegen al een vermogen van 40 kW en zorgde voor de opkomst van interesse in vloeistofkoeling. “Een NVL72-rack met daarin 72 Blackwell Ultra-GPU’s zal een vermogen van ongeveer 145 kW vragen.”

Een NVL72-rack met daarin 72 Blackwell Ultra-GPU’s zal een vermogen van ongeveer 145 kW vragen.

Vladimir Prodanovic, Principal Program Manager Nvidia

Daar stopt het niet. Tegen 2026 wil Nvidia zijn Rubin-chips lanceren en combineren in een rack van 200 kW. Prodanovic: “Racks van 385 kW staan op de planning en tegen 2028 moet een NVL 576-rak met 576 op elkaar gepakte Feynman-accelerators de kaap van 1 MW overschrijden.”

Ondersteunende architectuur

Om dergelijke hardware te ondersteunen, is een andere architectuur nodig. “Jensen Huang is heel goed in het verwezenlijken van zijn roadmaps”, lacht Carlini, “maar de effecten op stroomvoorziening en koeling zijn minder duidelijk. Daarvoor kijkt de sector naar ons.”

Steve Carlini wijst op de nauwe integratie tussen de hardware van Nvidia en de ondersteunende koelings- en stroominfrastructuur van Schneider Electric.

Schneider Electric werkt heel nauw samen met Nvidia voor de bouw van systemen en blauwdrukken die voldoende stroom kunnen leveren en voldoende warmte kunnen afvoeren. “Dat gaat echt over co-design”, verduidelijkt Carlini. “Schneider en Nvidia leren in die fase heel veel bij.”

Het resultaat van die samenwerking is een architectuur waarbij de IT-component van het datacenter in feite niet meer zo (fysiek) groot is. De grote serverhal van weleer verdwijnt en wordt vervangen door een complexe site waar de serverkamer omringt wordt door pompen, elektrische systemen zoals power distribution units, batterijen, generatoren en koelinstallaties.

Minieme foutenmarge

“Hoe hoger de dichtheid en capaciteit, hoe kleiner de foutenmarge in de ontwerpen”, vertelt Kevin Brown van Schneider Electric terwijl hij ons langs verschillende demo-installaties op de beursvloer van de Summit loodst. “Alles moet op elkaar afgestemd zijn, van zodra de stroom binnenkomt, over de UPS-systemen tot aan de levering van de racks.”

Die stroomlevering is niet vanzelfsprekend. Voor de racks met hoge densiteit ontwikkelde Schneider Electric een ‘sidecar’: een stroom-rack om naast een compute-rack te plaatsen dat 800 volt gelijkstroom levert aan de hongerige Nvidia-systemen. “We kijken naar meer, 1.500 volt is in het vizier”, verduidelijkt Carlini.

Daar komen uitdagingen bij kijken. Hoe hoger de voltages, hoe minder geschikt datacenters worden voor mensen om in rond te lopen. Prodanovic: “Om een blade te vervangen in een datacenter met servers die 1.500 volt van de PDU’s ontvangen, heb je gekwalificeerd personeel nodig.”

Nog niet lang bezig

Innovatie op dat vlak is nog volop aan de gang. “We bouwen al 25 jaar clouddatacenters”, zegt John Wernvik, CMO van EcoDataCenter in Zweden, waar vertaalspecialist DeepL zijn Nvidia GB200-clusters huisvest. “Met AI zijn we nog maar 2,5 jaar bezig. We zitten aan het begin en moeten samen ontdekken wat de standaarden zullen worden.”

Het sidecar-concept is wat Schneider betreft in ieder geval geen eindpunt, aangezien het te veel plek inneemt in de IT-kamer. “Stroom en koeling verschuiven zoveel mogelijk naar de buitenkant”, voorspelt Carlini.

Niet zomaar loodgieterij

Voor koeling zijn de marges bovendien niet groter. Brown wijst naar een Cooling Distribution Unit in een demorack. “Koelvloeistof moet compatibel zijn met de specificaties van de serverfabrikant, met de juiste flow rate en de juiste aansluitingen. Alles moet kloppen. Bovendien is er zelfs bij vloeistofkoeling een luchtgekoelde component.

Met Motivair onder het Schneider Electric-dak heeft het bedrijf de nodige expertise in handen om waterkoeling op maat van de meest veeleisende systemen te implementeren.

Bij koeling van een rack van 135 kW met vloeistof moet je nog steeds ongeveer 15 kW aan restwarmte via de lucht wegnemen. Als de luchtstroom tussen de servers zelfs maar een klein beetje verschuift, kan de server al gaan throttlen en krijg je niet meer de verhoopte prestaties.”

De tolerantie voor fouten bij het ontwerp van een datacenter voor dichte en performante AI-racks is dus erg klein. Wie dat zelf moet uitwerken, heeft veel tijd en expertise nodig die niet alomtegenwoordig is. Schneider Electric voelt zich geroepen om de oplossing te bieden.

lees ook

Schneider Electric en Motivair onthullen end-to-end-portfolio voor AI-datacenterkoeling

Met de acquisitie van Motivair heeft het bedrijf immers een end-to-end-oplossing in handen om de volledige omkadering van stroom en koeling te voorzien voor servers. Daarom werkte Schneider referentiedesigns uit.

Gedetailleerde blauwdrukken

“Dat zijn echte ontwerpen, niet zomaar samenraapsels van producten”, zegt Brown, terwijl hij trots door enkele pagina’s bladert. We zien technische tekeningen die diep in detail gaan over de plaatsing van machines, maar ook de aansluiting van stroom en de loodgieterij voor de vloeistofkoeling.

Op de beursvloer zijn de AI-servers van karton, maar ze tonen hoe de architectuur voor koeling van krachtige AI-servers eruitziet.

Schneider Electric probeert zeker één generatie voor te blijven op wat Nvidia bouwt. Nvidia van zijn kant mag blij zijn met het werk dat Schneider verzet, aangezien de steeds dichter wordende racks niets meer zijn dan zware dozen zonder de juiste elektriciteit en koeling. Op de Innovation Summit ontpopt Schneider Electric zich dan ook steeds meer als de voorkeurs-onderaannemer voor de fysieke infrastructuur die een Nvidia-gebaseerd AI-datacenter nodig heeft.

Een minder goede Ferrari

Dat betekent niet dat Schneider zijn klassieke oplossingen op pensioen mag sturen, of gewone clouddatacenters plots de boeken mogen sluiten. “Klassieke non-AI-datacenters groeien ook gestaag aan twintig tot 25 procent per jaar”, merkt Wernvik op.

Bovendien heeft niet iedereen een datacenter met extreme dichtheid nodig, vindt ook Prodanovic. “Iedereen droomt ervan om met een Ferrari F40 rijden, maar er zijn ook andere Ferraris”, stelt hij, vakkundig duidelijk makend dat iedere Nvidia-server gelijkstaat aan toch minstens een Ferrari-model.

In de praktijk is extreme dichtheid met servers van 400 kW of op termijn 1 MW interessant in bepaalde scenario’s. Op plekken waar gigawatts aan stroom voorhanden zijn, is het logisch om het gebruik daarvan te maximaliseren. Meer GPU’s op een kleinere oppervlakte zijn in dat geval de moeite waard.

Wanneer megawatts zeldzaam zijn

“Bij ons gaat dat niet meteen gebeuren”, denkt Martijn Aerts, Vice President voor Secure Power in België en Nederland. Nederland kampt met beperkingen in de beschikbaarheid van stroom, met wachtlijsten tot gevolg. “Nederland moet slim omgaan met iedere gevonden megawatt, al is er nog wel wat te verdelen. In België kan er op dit moment meer, maar moeten we ook nadenken.”

lees ook

Wanneer AI de oplossing wordt voor AI: optimalisatie, efficiëntie en duurzaamheid in datacenters

“Als iemand in België zo’n giga-AI-fabriek wil neerzetten, dan zou dat op heel wat negatieve perceptie kunnen rekenen”, denkt hij. “De visie met grote AI-datacenters en hoge densiteit is een globaal verhaal over de toekomst die Schneider Electric ziet, maar er is toch wel een vertaalslag nodig naar onze regio.”

Edge-uitrol

Aerts volgt Prodanovic: een groot datacenter gevuld met de modernste racks is niet meteen aan de orde hier. “We hebben vandaag wel heel wat innovatieve datacenterspelers. Wat wij kunnen doen, is hier en daar één rack zetten. Daarvoor moeten we geen nieuwe datacenters bouwen of complete sites retrofitten. Eén rack biedt echter al wel heel wat AI-rekenkracht.”

Wanneer die lokale inferentie van grond komt en duidelijk wordt wat de mogelijkheden zijn, dan kan de vraag naar grotere implementaties groeien.

Martijn Aerts, Vice President Secure Power België & Nederland , Schneider Electric

Aerts denkt dat zo’n soort van Edge-uitrol van performante AI-racks de sleutel is. “Dan kunnen we lokaal applicaties draaien, bijvoorbeeld in de geneeskunde. Wanneer die lokale inferentie van grond komt en duidelijk wordt wat de mogelijkheden zijn, dan kan de vraag naar grotere implementaties groeien.”

Klein beginnen is ook beginnen

Op dit moment acht Aerts het vooral belangrijk om gedistribueerd wat AI-capaciteit uit te rollen en daar al mee te starten. Een AI-fabriek met vier gigawatt aan 1 MW-racks zal niet meteen in de rand rond Brussel verschijnen, maar voor kleinere initiatieven is er wel ruimte. Daarvan getuigd onder andere het Penta Infra-datacenter dat de watergekoelde en geaccelereerde Tier-1-supercomputer van de VUB zal huisvesten.

Op globale schaal vertelt Schneider Electric in Kopenhagen vooral aan de wereld dat het klaar is om het nieuwste van het nieuwste te ondersteunen. Als iemand een AI-cluster vol Nvidia Vera Rubin-chips wil uitrollen binnenkort, dan heeft Schneider Electric de blauwdrukken klaar om zoiets tot in detail te ondersteunen.

Heeft Schneider Electric dan geen angst voor een AI-bubbel? De toekomstvisie vertrouwt immers sterk op aanhoudende investeringen in krachtige en dure AI-datacenters door grote bedrijven wiens beurswaarde op korte termijn toch wel heel erg gestegen is. “Er zullen inderdaad winnaars en verliezers zijn”, geeft Carlini toe, maar een bubbel ziet hij niet. “Wij werken nauw samen met alle grote spelers. Die plaatsen bestellingen zo’n drie jaar vooraf, en betalen daar ook al voor een stuk voor. Toch zeker voor de komende drie jaar zien de zaken er vanuit ons oogpunt wel erg solide uit.”