AMD beweert dat zijn Instinct MI300X-accelerator minstens evenwaardig is aan de Nvidia H100 en staaft dat met cijfers. Nvidia van zijn kant vindt die cijfers foutief en claimt veruit de snelste kaart te hebben, zolang je je workloads maar zodanig optimaliseert dat ze enkel op Nvidia-hardware kunnen draaien.
Eerder deze maand kondigde AMD de officiële beschikbaarheid van zijn Instinct MI300-reeks van accelerators aan. De Instinct MI300X is een rechtstreekse concurrent voor de Nvidia H100 en presteert volgens AMD minstens even goed. Bovendien heeft de kaart van AMD zoveel geheugen aan boord dat je er het volledige Llama2-model met z’n 70 miljard parameters in kan proppen, zodat inferentietaken met dergelijke grote LLM’s met één GPU mogelijk zijn. Tijdens de lancering deelde AMD cijfers die aangeven dat de eigen kaart tot wel 1,6 keer beter presteert dan die van Nvidia in bepaalde workloads.
Appels, peren en eieren
Bij Nvidia schoten ze in een kramp. Het bedrijf is het niet gewoon om uitgedaagd te worden aan de bovenkant van het winstgevende AI-segment, en is het niet eens met de analyse van AMD. Op naar eigen tests dus, waaruit moet blijken dat niet de MI300X, maar de H100 de absolute kampioen is.
Eén en ander hangt af van wat je precies wil meten en hoe, maar Nvidia hamert vooral op optimalisatie. Volgens de fabrikant heeft AMD tijdens zijn tests de workloads niet geoptimaliseerd voor de H100. Met optimalisatie schieten de prestaties van de Nvidia H100 de hoogte in. Nvidia zet de cijfers vervolgens tegenover de data van AMD, en kiest er uiteraard voor om geen equivalente optimalisaties op de AMD-kaart uit te voeren.
Intussen liggen er appels, peren en wat eieren in de grote vergelijkingsbak en kan je vergeven worden om de hele saga verticaal te klasseren. Dat lijkt geen slecht idee, al delen we graag toch enkele bedenkingen. Zo kiest Nvidia ervoor om workloads te optimaliseren voor TensorRT-LLM met het FP8-datatype. De H100 is gebouwd om optimaal te presteren onder die omstandigheden.
AMD’s GPU is echter geoptimaliseerd voor vLLM, dat geen FP8 ondersteunt maar enkel FP16. Het is een geldige afweging om voor inferentie de precisie te verlagen van FP16 naar FP8 en dat brengt per definitie een enorme prestatiewinst mee, maar het zegt weinig over de kracht van de ene accelerator tegenover de andere.
Nuance en optimalisatie
Wanneer Nvidia testworkloads volledig optimaliseert voor zijn eigen ecosysteem, is het resultaat natuurlijk beter. Het is dan maar eerlijk dat AMD dezelfde optimalisatie mag voorvoeren via vLLM op zijn kaart. In dat geval blijkt (volgens AMD) opnieuw dat AMD’s kaart beter is.
De hele sage illustreert vooral dat de AMD Instinct MI300X en de Nvidia Hopper H100 best verschillende stukken hardware zijn. Met de lanceringsbenchmarks ben je vermoedelijk niet zo veel. Het lijkt er op dat beide GPU’s krachtpatsers zijn met verschillende sterktes. De juiste keuze zal sterk afhangen van de workloads die voor jouw belangrijk zijn en de manier waarop je die wil draaien. Dat genuanceerde antwoord past natuurlijk niet zo goed in een catchy marketingfolder.