De Amerikaanse Frontier-supercomputer is voorlopig een erg onstabiel systeem. De machine kan geen volledige dag draaien zonder hardwarefouten.
Goed nieuws eerder dit jaar: AMD werkte zich met de Frontier-supercomputer naar de bovenkant van de Top 500-lijst. Het snelste systeem ter wereld brak als eerste de exaflops-barrière met zijn rekenkracht. Een kleine vijf maanden na die heuglijke introductie van ’s werelds eerste exascale-systeem blijkt de waarheid echter minder rooskleurig. Frontier is nog steeds niet klaar: het systeem toont zich onstabiel met hardwarefouten die met tussenpauze’s van amper enkele uren de kop opsteken.
Frontier staat bij het Amerikaanse Oak Ridge National Laboratory (ORNL). In een interview met InsideHPC geeft de baas van computing binnen ORNL toe dat er problemen zijn. Wanneer het systeem grote workloads op maximale kracht moet draaien, steekt instabiliteit de kop op.
Problemen met interconnects en accelerators
Frontier moet 1,685 FP64 exaflops aan rekenkracht genereren met hulp van 64 core AMD Epyc Trento-processors en MI250X-accelerators. Die worden gecombineerd met HPE Slingshot-interconnects binnen een HPE Cray EX-architectuur. Zodra workloads ongeveer 1 FP64 exaflops aan rekenkracht vragen, loopt het echter vaak mis.
Er lijkt niet één schuldige voor het probleem. De AMD MI250X-accelerators zijn niet breed beschikbaar en vormen een bron van instabiliteit, net als de interconnects.
Schaalproblemen
De precieze oorzaak van de instabiliteit blijft voorlopig een mysterie, waardoor de oplevering van Frontier al werd uitgesteld van 2022 naar 2023. De kern van het probleem is vermoedelijk het formaat en de kracht van Frontier.
Andere systemen gebruiken immers dezelfde componenten en architectuur. Zo loopt de Lumi-supercomputer in Finland niet tegen dezelfde problemen aan. Dat systeem, waaraan ook België meewerkt, genereert 550 petaflops met een gelijkaardige hardwareconfiguratie. Ook Lumi is gebouwd op het Cray EX-framework en gebruikt AMD Instinct MI250X-accelerators gecombineerd met Epyc-processors.
Voorlopig is er weinig duidelijkheid over het werk aan Frontier. Het blijft dan ook koffiedik kijken of het systeem effectief beschikbaar zal zijn voor onderzoekers volgend jaar. De problemen tonen aan dat een exascale-HPC-systeem bouwen toch meer om het lijf heeft dan gewoon meer componenten met elkaar verbinden.