Nvidia verfrist zijn aanbod van DGX-minisupercomputers met de DGX A100. Dat systeem heeft 5 petaflops aan rekenkracht aan boord in een compacte vormfactor en is gebouwd op maat van AI-workloads.
Op de digitale GTC 2020-conferentie lanceert Nvidia de DGX A100. Deze derde iteratie van de reeks compacte DGX-supercomputers levert tot 5 petaflops aan (FP16) rekenkracht voor AI-workloads. Het toestel, niet groter dan een serverkast, is van begin tot eind gebouwd om AI- en machine learning-workloads te ondersteunen. Nvidia claimt dat het toestel geschikt is voor zowel data-analyse als modeltraining en inferentie.
Prestatiesprong
De prestaties van het toestel maken een extreme sprong vooruit: voorganger DGX 2 deed het nog met 2 petaflops. Ter illustratie: toen de UA begin 2019 een DGX 2-systeem van Nvidia kocht, werd dat systeem ter grootte van een koelkast plots de krachtigste supercomputer van het land, voor grote systemen zoals BrEniac en Genius.
Een enkele DGX A100-node heeft acht splinternieuwe Nvidia A100 Tensor Core-gpu’s aan boord, voorzien van 320 GB aan geheugenbandbreedte goed voor 12,4 TB per seconde. Het geheel is voorzien van Mellanox ConnectX-6 HDR-interconnects met een snelheid van 200 Gb per seconde wat een totale bandbreedte van 3,6 Tb per seconde oplevert. Nvidia bouwt standaard 15 TB aan NVMe-opslag ‘van de vierde generatie in’. Daarmee bedoelt Nvidia vermoedelijk dat het om NVMe PCIe 4-hardware gaat.
Het gpu-geweld wordt dan ook aangestuurd door twee Epyc 7742-cpu’s van AMD, goed voor in totaal 128 rekenkernen met een basiskloksnelheid van 2,25 GHz en een maximale boostfrequentie tot 3,2 GHz. In eerdere iteraties van de DGX’s koos Nvidia nog voor Intel Xeon, maar die keuze ligt niet op tafel wanneer PCIe 4.0 een must is. AMD heeft immers de enige chips op de markt die de standaard momenteel ten volle ondersteunen.
Met dank aan Ampere
De ster van het nieuwe DGX A100-systeem is de nieuwe A100-gpu. Die datacenter-gpu is het eerste stuk hardware van de fabrikant gebaseerd op de langverwachte Ampre-architectuur. Ampere moet de AI-capaciteiten van voorgangers Turing en Volta met factor 20 overtreffen. De extreme capaciteiten van de chip maken de prestaties van de DGX A100 mogelijk.
De DGX A100-nodes zijn perfect te combineren tot krachtige systemen. De gpu-specialist claimt dat een enkel serverrack met vijf DGX A100’s een volledig datacenter vervangt voor AI-training en inferentie, en dat met een stroomverbruik dat 20 keer lager ligt en 25 keer minder plek inneemt, aan een investeringskost die tien keer lager ligt.
Supercomputer
Om de schaalbaarheid te illustreren, combineerde Nvidia zelf een cluster van 140 DGX A100-systemen tot een supercomputer met een rekenkracht van 700 petaflops. Die DGX SuperPOD AI-supercomputer kwam in minder dan een maand tot stand, waar vergelijkbare HPC-systemen maanden en zelfs jaren van planning vereisen voor ze operationeel zijn. Nvidia gebruikt het systeem voor intern onderzoek naar onder andere AI en autonome voertuigen.
De DGX SuperPOD is één van de krachtigste supercomputers ter wereld. In principe maakt de 700 petaflops aan rekenkracht gehakt van de huidige kampioen Summit van IBM, die piekt rond de 200 petaflops. In de praktijk is Nvidia’s systeem exclusief gericht op AI-workloads, wat een rechtstreekse vergelijking niet helemaal eerlijk maakt.
Nvidia DGX A100-systemen zijn per direct beschikbaar met een prijskaartje van 199.000 dollar. Wereldwijd heeft het bedrijf al verschillende klanten, waaronder het Duitse onderzoekscentrum voor AI (DFKI) in Europa. In de VS heeft het energiedepartement al toestellen gekocht om in te zetten in het onderzoek naar Covid-19.