‘Waterkoeling en AI moet supercomputers in de toekomst koel houden’

waterkoeling lenovo DCG

De Wet van Moore dicteert dat de transistorcapaciteit elke twee jaar wordt verdubbeld. Tel daarbij een groeiende rivaliteit tussen Intel, Nvidia en AMD en je weet dat chips de komende jaren tot het maximum zullen worden geperst. Resultaat: meer prestaties, maar ook meer warmte.

De oorspronkelijke invulling van de Wet van Moore was uitdagend maar tegelijk kristalhelder: elke twee jaar een verdubbeling van het aantal transistoren op een microchip, met bijhorend een verdubbeling van de prestaties, zonder dat er meer energie nodig is.

Intel heeft al ruim vijf jaar problemen met de verkleining van zijn processoren. Vroeger volgde het een duidelijk tick-tock-proces. De ‘tick’ was een procesverkleining om de chips efficiënter te maken, terwijl de ‘tock’ een nieuwe micro-architectuur introduceerde om de verkleining te maximaliseren, meestal gepaard met een flinke boost in prestaties. Vanaf 14 nm in 2014 had Intel moeite om de volgende stap te nemen via EUV-lithografie. Resultaat: de fabrikant bleef de 14 nm-architectuur maximaliseren en de grens opzoeken met steeds hogere TDP-waarden (Thermal Design Power). De beperkt beschikbare Ice Lake-chips buiten beschouwing gelaten zijn de eerste 10 nm-processors pas dit jaar met Tiger Lake beschikbaar.

Fabrikanten zoals AMD en Nvidia hebben geen eigen fabriek waar de chips worden geproduceerd en kloppen aan bij TSMC. Dat chipbakkerij heeft de stap naar EUV beter verteerd dan Intel met een betere energie-efficiëntie als gevolg. Toch duwen de ontwikkelaars ook hun chips steeds meer richting TDP-waarden tot 300 – 500 watt.

Verbruik blijft stijgen

Rick Koopman, EMEA Technical Lead HPC bij Lenovo, ziet al jaren een duidelijke evolutie naar steeds hogere waarden en bijhorende uitdagingen om alles koel te houden. “Elk jaar opnieuw moeten we ons aanpassen richting de fabrikanten, omdat ze de grens opzoeken van wat er maximaal kan. Dit jaar zitten we met cpu’s die 300 watt verbruiken en gpu’s die richting de 400 watt gaan. Volgend jaar mag je bij elk nog eens 100 watt bijtellen.”

Dit jaar zitten we met cpu’s die 300 watt verbruiken en gpu’s die richting de 400 watt gaan. Volgend jaar mag je bij elk nog eens 100 watt bijtellen.

Intel Cascade Lake-AP, bijvoorbeeld de Xeon 9282 (56 cores, 112 threads), heeft een TDP-waarde van 400 watt. AMD Epyc Rome houdt het meer bescheiden met 280 watt voor bijvoorbeeld de AMD Epyc 7H12 (64 cores 128 threads), maar zal die waarde binnenkort met de Zen 3-architectuur waarschijnlijk hoger duwen om Intel het vuur aan de schenen te leggen.

De Nvidia Tesla A100 gebaseerd op de Ampère-architectuur heeft intussen een TDP van 400 watt. Concurrent AMD bouwt zijn Instinct MI100 met een maximaal TDP van 300 watt in het achterhoofd.

Koopman: “In een node zitten verder nog wel een aantal componenten die elk jaar meer energie vragen. Zo klimt het voltage van memory dimm’s naar 15 volt, komende van 5 volt vorig jaar. Een Mellanox InfiniBand interconnect-adapter verbruikt 25 watt. Ik heb net een ontwerp afgewerkt waar we 100 kilowatt per rack hebben dat gekoeld moet worden.” In een gelijkaardig interview vorig jaar werkte Lenovo nog aan racks van 70 kilowatt om met water te koelen. Het maximale verbruik per rack om met lucht te koelen, bedraagt 35 kilowatt.

Waterkoeling is commodity

Omdat de hardware steeds hogere TDP-waarden kent, moet iedere leverancier van supercomputers naar waterkoeling grijpen om de huidige densiteit te houden. “Het is belangrijk om een slimme keuze te maken wat betreft efficiëntie”, zegt Koopman. “Welke temperatuur vindt de hardware het fijnst om in te opereren? Uit ons onderzoek blijkt dat een temperatuur tussen de 40 en 50 graden de meest optimale resultaten oplevert. Wanneer we richting de 60 graden gaan, zien we de curve al naar beneden gaan of afvlakken.”

Volgens Lenovo is een watertemperatuur tussen de 40 à 50 graden Celsius ideaal om de meest optimale resultaten uit de hardware te halen. Wanneer je naar 60 graden gaat, daalt de curve of vlakt ze af.

Elke specialist in HPC-installaties heeft vandaag een aanbod met waterkoeling, omdat er geen andere manier meer is. Waar het vroeger spitstechnologie was om met water te koelen, is dat vandaag commodity. Lenovo probeert daarin nog een stap verder te gaan door de volledige installatie met water te koelen.en onderzoekt wat er in de nabije toekomst verder nog met water gekoeld kan worden.

“Vandaag zijn onze PSU’s het enige onderdeel dat nog luchtgekoeld is. Er zitten 12 nodes in een chassis, die zes tot negen PSU’s nodig hebben. Dat is de laatste stap in onze volledige installatie. Eens die watergekoeld zijn, zit er geen enkele fan meer in. Daarmee kunnen we nog wat winst maken op vlak van efficiëntie. We verwachten dat de watergekoelde PSU’s er snel aankomen in onze installaties.”

waterkoeling lenovo SD650
Koperconnecties binnen een node voorzien elk onderdeel van waterkoeling.

Lees hier in detail over hoe koperconnecties binnen een node worden gebruikt en aangesloten om elke component van waterkoeling te voorzien.

Kleine winsten in de marge

Wanneer alles watergekoeld is in een installatie, wordt het moeilijk om hardwarematig flinke stappen voorwaarts te zetten. Er gebeuren continu kleine evoluties om het proces te verbeteren, maar vandaag wordt er steeds meer naar software gekeken om het verbruik van een HPC-installatie te verlagen.

“We zijn nu bezig met software die nauwer samenwerkt met de hardware. Die hebben we ontwikkeld in samenwerking met het Barcelona Supercomputing Centre (BSC), een belangrijke technologiepartner van ons. De technologie, Energy Aware Runtime, wordt vandaag bij meerdere klanten en in ons eigen benchmark centrum getest om de resultaten te zien en te optimaliseren.”

Van zodra een rekentaak in een supercomputer wordt afgewerkt, zie je precies wat het gebruik van cpu, gpu, memory of andere component is geweest. Van zodra die batch job opnieuw wordt gedraaid over meer of minder nodes, kent men het gedrag om Energy Aware Scheduling toe te passen.

We zijn nu bezig met software die nauwer samenwerkt met de hardware.

Stel dat het een I/O-job is die maar een beetje rekenwerk vereist en daarna opnieuw I/O, dan moet de cpu niet continu aan 100 procent presteren. Door de frequentie terug te schalen naar de frequentie die nodig is voor dezelfde runtime, kan je energie besparen. Je moet weten dat een cpu aan de bovenkant bijzonder veel energie verbruikt. Door de kloksnelheid met 30 procent te laten zakken, kan je tot 70 procent energie besparen volgens Lenovo.

Energy Aware Runtime

Wat doet Energy Aware Runtime specifiek? Het analyseert dynamisch elk programma en het MPI-verkeer (Message Passing Interface) dat plaatsvindt. Aan de hand daarvan kan een algoritme bepalen wat voor type job het is en kan het ook dynamisch de frequentie van de processor aanpassen. Hoe meer metingen, hoe meer ervaring het systeem krijgt, hoe efficiënter het in principe zou moeten werken.

“We hebben het project ook al getest op onze HPC-installatie Stuttgart voor één van onze klanten en partners”, zegt Koopman. “Standaard zonder dat we iets moeten bijsturen voor deze Gromacs code, presteert het systeem 10 procent zuiniger. Dat getal kan nog hoger als we de algoritmes nog verder optimaliseren en nog nauwer samenwerken met de hardware.”

“Niet iedere taak is hetzelfde. Je moet voor elke job de optimale efficiëntie bepalen. Dan heb je dat als basis. Daarna moet je nog kunnen schalen naar 1.000 nodes. Heel eenvoudig is het allemaal niet, maar de eerste resultaten zijn veelbelovend. Om alles te kunnen meten, moeten we een klein percentage overhead nemen op de prestaties van een node. Iedere node moet namelijk een stukje software hebben. Dat lijkt veel, maar als daar een bezuiniging van 10 procent of meer tegenover staat, is dat een goeie eerste stap.”

Algoritmes en exascale

De combinatie van hardware (waterkoeling) en software (algoritmes) wordt heel belangrijk om HPC-installaties in de toekomst energiezuiniger te maken. De voordelen zijn veel te belangrijk om te negeren.

De combinatie van hardware (waterkoeling) en software (algoritmes) wordt heel belangrijk om alles in de toekomst energiezuiniger te maken.

Alle projecten in de richting van Exascale die op dit moment in Europa en de rest van de wereld plaats vinden, zijn van zo’n omvang dat 10% energiebesparing voor degelijke jobs enorme reducties va kosten en CO2 tot gevolg kan hebben wetende dat we het hebben over energie gebruik van vele megawatts.

lees ook

Lenovo: ‘Wet van Moore forceert waterkoeling in datacenters’

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.