Nvidia lanceert zijn eigen Vera-processor als onderdeel van Vera Rubin. Daarmee zingt de AI-specialist een gelijkaardig liedje als op CES, al heeft de uitvoering op GTC 2026 enkele extra coupletten.
Nvidia maakt van GTC 2026 gebruik om Vera Rubin te lanceren. Wie het Nvidia-nieuws op CES heeft gevolgd, kampt mogelijks met déjà-vu-gevoelens: ook in januari introduceerde Nvidia Rubin en Vera al. Hoewel die aankondiging redelijk compleet was, inclusief de introductie van de geïntegreerde Vera Rubin NVL72-systemen, lag de focus vooral op de nieuwe Rubin-GPU. Op GTC krijgt de Vera-CPU extra tijd in de schijnwerpers.
Opvolger van Grace
Vera volgt de Grace-CPU van Nvidia op. Die chip ondersteunde twee generaties van Nvidia-AI-servers, te beginnen met Hopper en gevolgd door Blackwell. De ARM-gebaseerde Grace-chip was tevens onderdeel van de Grace-Hopper en Grace-Blackwell-‘superchips’, die CPU en GPU combineerden.
Vera is eveneens een ARM-chip. De processor is opgebouwd uit 88 Olympus-rekenkernen, ontwikkeld door Nvidia zelf. De kernen zijn compatibel met multithreading, zodat Vera met 176 threads overweg kan. Vera heeft een nieuw zuinig geheugen-subsysteem en kan overweg met LPDDR5X aan 1,2 TB/s. Het systeemgeheugen bedraagt maximaal 1,5 TB, wat drie keer meer is dan voorganger Grace.
Sneller en efficiënter (voor AI)
Nvidia claimt dat Vera de helft sneller en dubbel zo efficiënt is dan x86-CPU’s. ARM heeft inderdaad een efficiëntievoordeel, en Nvidia heeft deze chip geoptimaliseerd voor het type AI-workloads waarmee het doorgaans benchmarks uitvoert. In de scenario’s waarvoor Vera bedoeld is, lijkt dat dus een aannemelijke claim.
De Vera-CPU is immers ontwikkeld met AI-workloads in het achterhoofd. De compilers, runtime engines, analytics pipelines en agentgebaseerde workloads draaien optimaal op de architectuur van de rekenkernen. Vera heeft vooral een dirigerende rol: uiteindelijk zijn het de (Nvidia-)GPU’s die het gros van de AI-workloads verzetten.
Samen sterk
Daartoe wordt Vera zoals eerder aangekondigd samen gezet met de nieuwe Rubin-GPU. De connectie verloopt via de NVLink C2C-interconnect, die 1,8 TB/s aan bandbreedte biet.
Vera en Rubin zijn samen terug te vinden in de Vera Rubin NVL72-systemen, die 72 Rubin-GPU’s combineren met 36 Vera-CPU’s. Vera en Rubin krijgen op hun beurt bijstand van enkele andere chips ontwikkeld door Nvidia zelf, waaronder de ConnectX-9-SuperNICs en BlueField-4-DPU’s. Nvidia is er trots op dat de NVL72-rekken vol zitten met zelfgebouwde en geoptimaliseerde chips.
Nvidia-CEO Jensen Huang noemt Vera Rubin een generationele sprong, al veranderen we in het AI-tijdperk bijna meer van generatie dan van onderbroek. In ieder geval is Vera Rubin opnieuw een pak sneller dan Grace Blackwell. Nvidia stelt dat een groot LLM met een mixture of experts-architectuur met Vera Rubin getraind kan worden met slechts een vierde van de GPU’s, vergeleken met de vorige generatie. Inferentie krijgt nog een grotere boost: de doorvoersnelheid ligt tien keer hoger, en de kost per token tien keer lager.
CPU-kast
Nvidia introduceert ook een Vera-CPU-kast, met daarin 265 vloeistofgekoelde Vera-CPU’s. Dat moet relevant zijn voor AI-fabrieken op grote schaal, waar (tien)duizenden agent-gebaseerde workloads tegelijkertijd kunnen draaien. Volgens Nvidia kan zo’n CPU-rek tot 22.500 CPU-gedreven omgevingen aansturen, en dat met een kleine voetafdruk. Hoeveel stroom zo’n CPU-kast precies nodig heeft, weten we niet, maar het is veilig om te veronderstellen dat de uitrol een heel gespecialiseerd datacenter nodig heeft.
De Vera-CPU’s rollen op dit moment van de band. De eerste Vera-gebaseerde systemen verschijnen in de tweede helft van dit jaar. Dat liet Nvidia al weten in januari, toen de focus op Rubin lag.
Alle grote server-fabrikanten en hyperscalers omarmen de CPU (en Rubin-CPU), herhaalt Nvidia op zijn eigen conferentie. Zij zullen niet allemaal exclusief gigantische NVL72-systemen in de kijker zetten. Zo kondigt HPE vandaag servers aan, gebouwd rond een meer bescheiden referentie-architectuur van Nvidia: Nvidia HGX Rubin NVL8, met acht GPU’s en natuurlijk een Vera-CPU binnenin.
Impact
Nvidia’s systemen voor AI-inferentie en training zijn de brandstof voor de AI-hype. Alle grote AI-ontwikkelaars, van OpenAI over Meta tot Google, azen op zoveel mogelijk krachtige systemen om hun nieuwe modellen te bouwen. Vera gebruikt LPDDR5X-geheugen, terwijl de Rubin-GPU’s die Vera moet aansturen zo’n 288 GB HBM4-geheugen per stuk vereisen.
Per servers zou een Vera Rubin-systeem naar schatting ongeveer 1.152 TB aan SSD-capaciteit nodig hebben om de chips adequaat te voeden. De indrukwekkende systemen die Nvidia op GTC aankondigt, zijn zo rechtstreeks verantwoordelijk voor het tekort aan RAM- en NAND-geheugen, en de prijsstijging van laptops en smartphones.
Terwijl de innovatie van Nvidia de snellere en efficiëntere ontwikkeling van almaar meer capabele AI-modellen en inferentie-datacenters ondersteunt, drijft het de innovatie de beschikbaarheid van klassiek IT-materiaal voor traditionele bedrijven en consumenten wereldwijd de hoogte in.
Dat Vera Rubin efficiënter is dan Grace Blackwell, is in dat opzicht geen voelbaar voordeel. Het is niet zo dat klanten minder systemen zullen bestellen en de vraag op geheugen zal dalen. De honger naar meer AI-trainings- en inferentiecapaciteit blijft voorlopig onverzadigbaar.
