Hoe Google liegt over de kracht van zijn nieuwste chips, vergeleken met El Capitan

Hoe Google liegt over de kracht van zijn nieuwste chips, vergeleken met El Capitan

Google stelt dat zijn nieuwe Ironwood-gebaseerde inferentieclusters in de cloud 24 keer krachtiger zijn dan de krachtigste supercomputer ter wereld. Die claim is eenvoudig aantoonbaar verkeerd.

Google kondigt op Google Cloud Next de Ironwood-accelerator aan, en schuwt de misleiding niet. Die krachtige chip is geoptimaliseerd voor inferentie, en biedt zo een alternatief voor GPU’s van Nvidia. Google bundelt de chip binnen zijn cloudplatform in clusters of pods met 9.216 Ironwood-chips, en claimt vervolgens dat zo’n cluster moeiteloos het krachtigste exascale-systeem ter wereld is.

Straffe claim

Op het aankondigingsblog van Google zien we (op dit moment) een mooie video waar instaat dat het Ironwood-cluster maar liefst 24 keer krachtiger is dan de krachtigste supercomputer van dit moment. Verder in de beschrijving lezen we opnieuw letterlijk dat de Ironwood-pod 24 keer krachtiger zou zijn dan El Capitan.

Google smeert de snelheidsclaim breed uit.

Helaas is de vergelijking zo duidelijk van de pot gerukt, dat het moeilijk is om te geloven dat Google niet opzettelijk misleidt. We bekijken in detail.

ExaFlops

Google claimt dat zijn Ironwood-cluster een rekenkracht heeft van 42,5 ExaFlops. Flops staat voor Floating point operations per second. Daarvoor gebruikt het geen universele benchmark, maar een eigen test die de rekenkracht meet in FP8. Dat wil zeggen dat de test gebruik maakt van cijfers opgeslagen in acht computerbits. Het cijfer geeft weer hoeveel berekeningen per seconde het systeem kan maken met dergelijke 8 bit-cijfers.

De cloudprovider kijkt vervolgens naar de prestaties van El Capitan, zoals geadverteerd door de Top 500-lijst. Daar staat dat El Capitan afklokt op 1,7 ExaFlops, zoals gemeten door de gestandaardiseerde Linpack-benchmark die universeel gebruikt wordt om de rekenkracht van supercomputers te vergelijken.

FP8 vs. FP64

Linpack werkt met FP64-waardes. Dat zijn cijfers, opgeslagen in 64 bit. FP64-cijfers zijn veel uitgebreider en gedetailleerder dan de verkorte (afgeronde) FP8-cijfers. Ter illustratie: π in FP8 kan je bekijken als ongeveer 3,125, in FP64 is de waarde eerder 3.141592653589793. Verdubbel FP8-π eens in je hoofd, en doe nu hetzelfde voor FP64-π. Eén van de twee berekeningen is aanzienlijk eenvoudiger dan de andere.

Voor AI-workloads is precisie niet van het allergrootste belang. Snelheid is relevanter. Daarom vertrouwen de workloads op cijfers die minder geheugen innemen, zoals FP8. Voor andere workloads kan zo’n gebrekkige precisie wel problemen opleveren. Hoe dan ook is een rekensom met FP8 niet evenwaardig aan een rekensom met FP64.

Onder de motorkap zijn accelerators uitgerust met geoptimaliseerde systemen om met floating point-cijfers van variabele precisie om te gaan. FP64 is acht keer complexer dan FP8, maar het volstaat niet om de 1,7 ExaFlops van El Capitan met acht te vermenigvuldigen. Doen we dat, dan komen we aan 13,6 ExaFlops en is Google Ironwood nog steeds krachtiger (maar niet met factor 24).

De echte kracht van El Capitan

In de praktijk spelen variabelen zoals de specifieke hardware en de geheugenbandbreedte een rol. El Capitan is uitgerust met 43.808 AMD Instinct MI300A-accelerators. Op basis van de specificaties van AMD zijn die per stuk goed voor 1,96 PetaFlops aan rekenkracht (al kan dat zelfs meer zijn in bepaalde scenario’s). Conservatief geschat leveren de AI-accelerators van El Capitan samen zo minstens 85 ExaFlops aan FP8-rekenkracht. Dat is meer dan het dubbele dan de Google Ironwood-pod.

Conservatief geschat leveren de AI-accelerators van El Capitan samen minstens 85 ExaFlops aan FP8-rekenkracht.

Zo wordt duidelijk dat Google niet plots een exascale-cluster heeft gebouwd. Zelfs met deze cijfers is de vergelijking complex, omdat ze niet gebaseerd zijn op een meting met een gestandaardiseerde test. Ironwood is niet geoptimaliseerd voor FP64 en zou op de Linpack-benchmark vermoedelijk niet al te best scoren. Wij zouden een rechtstreekse vergelijking zelf uit de weg gaan, maar Google klaarblijkelijk niet.

Niet sneller maar trager

In ieder geval is het 9.216 chips tellende Google Ironwood-cluster niet 24 keer sneller dan El Capitan. In het meest optimistische geval, waarbij we proberen om de rekenkracht van de El Capitan-hardware te vergelijken in FP8 waarvoor Ironwood geoptimaliseerd is, is het cluster van Google amper half zo performant.

Dat is logisch: Google stopt 9.216 Ironwood-chips in zijn HPC-oplossing, El Capitan combineert 43.808 van AMD’s nieuwste accelerators in een op maat gemaakt systeem.

Hoe Google heeft bedacht dat het een goed idee is om een ExaFlops-waarde in FP8 van een eigen test te vergelijken met een FP64-waarde van een andere test, weten we niet. We hebben Google om een reactie gevraagd. Dat een complete leek de vergissing maakt, valt te begrijpen: er staat immers twee keer ExaFlops. Wie een beetje op de hoogte is van de materie, moet toch minstens begrijpen dat een vergelijking tussen FP64 en FP8 op deze manier er één is tussen appelen en peren.

Misschien heeft het marketingteam van Google Gemini AI om raad gevraagd

Update met reactie Google:

Google deelt bij monde van een woordvoerder een reactie, die helaas nogal paradoxaal is. We delen en analyseren ze kort:

Google: “We hebben geen informatie over de aanhoudende FP8-prestaties van El Capitan. Onze aanname achter de vergelijking is dat El Capitan hun beste getal naar voren schuift voor piekrekenkracht voor AI workloads, aangezien de focus ook AI omvat.”

Maar: Het cijfer waarmee Google vergelijkt is dat van de Top 500-lijst. Dat is al sinds jaar en dag gebaseerd op de Linpack-benchmark, en wordt weergegeven in FP64-Flops. Dat is eenvoudig te vinden publiek beschikbare informatie.

Google: “Hoewel El Capitan in staat is om FP8 te ondersteunen, zijn we niet in staat om vergelijking maken zonder aanvullende gegevens over aanhoudende prestaties. We kunnen niet automatisch uitgaan van een lineaire verbetering van de piekprestaties met lagere precisie.”

Maar: Dat klopt, en precies daarom is het verrassend dat Google de vergelijking op zijn website wel maakt en blijft maken. Als we de vergelijking moeten maken, mogen we niet uitgaan van lineair schalen en moeten we de beschikbare cijfers gebruiken. Die wijzen richting 85 ExaFlops, of het dubbele van Ironwood.

Google: “Merk verder op dat Ironwood verder kan schalen dan een enkele pod tot 400K chips (43 TPU7x pods) verbonden via ons snelle Jupiter datacenternetwerk.”

Maar: Dat klinkt indrukwekkend, maar betekent eigenlijk: “Als we een krachtigere supercomputer zouden bouwen, zou die krachtiger zijn.” Het schalen doet niet ter zake, aangezien Google specifieert dat het de vergelijking betrekking heeft op het cluster met 9.216 chips.

Hoewel de woordvoerder in het antwoord aanhaalt dat de vergelijking niet te maken valt, blijft Google op zijn website de vergelijking maken. Het doet vragen rijzen over de betrouwbaarheid van minder makkelijk te verifiëren marketing-informatie.