Nvidia RTX 5090 en RTX Pro 6000 crashen in virtuele omgevingen: 1.000 dollar voor wie bug plattrapt

nvidia

CloudRift ontdekte hardnekkige stabiliteitsproblemen bij gebruik van Nvidia’s RTX 5090- en RTX PRO 6000-kaarten in virtuele omgevingen.

Aanbieder van GPU-cloudinfrastructuur CloudRift ontdekte serieuze problemen met de Nvidia’s RTX 5090 en RTX PRO 6000. De GPU’s worden in bepaalde virtuele omgevingen na verloop van tijd volledig onbruikbaar. De fout treedt willekeurig op, meestal na enkele dagen gebruik of tijdens het opstarten of afsluiten van virtuele machines. Eenmaal getroffen is de enige oplossing een volledige herstart van de fysieke hostmachine.

De fout lijkt te ontstaan wanneer de GPU via PCI-passthrough wordt gebruikt in combinatie met VFIO en QEMU/KVM. Bij het vrijgeven van de GPU na het afsluiten van een VM lukt het niet om een zogeheten Function Level Reset (FLR) correct uit te voeren. Hierdoor raakt de kaart in een niet-herstelbare toestand. De GPU blijft wel zichtbaar voor het systeem, maar reageert niet meer op commando’s. Andere GPU-modellen zoals de Nvidia H100, B200 en RTX 4090 vertonen deze problemen niet.

Geen duidelijke oorzaak

Volgens CloudRift zijn diverse mogelijke oorzaken al uitgesloten. Het gaat onder andere om fouten in IOMMU-configuraties, driver bindings, kernelversies en libvirt-instellingen. De systemen die de fouten vertonen zijn gebaseerd op veelgebruikte AMD Epyc Rome- en Milan-processoren.

Het probleem wordt gekenmerkt door kernelmeldingen die wijzen op vastlopende CPU-kernen en mislukte pogingen om PCI-apparaten te resetten. Er verschijnen foutmeldingen zoals unknown PCI header type en tijdslimieten die verlopen tijdens hardware-resetpogingen. Pogingen om de GPU opnieuw te binden aan een driver mislukken eveneens.

1.000 dollar voor bugverdelger

CloudRift is ten einde raad en heeft een bug bounty-programma opgezet. Het bedrijf looft 1.000 dollar uit voor wie de oorzaak weet te vinden of een werkende oplossing aandraagt. Een Proxmox-gebruiker ontdekte het probleem zelf ook al en claimt te weten dat Nvidia op de hoogte is en aan een oplossing werkt. We zijn benieuwd of Nvidia in dat geval dan ook de 1.000 dollar zal opstrijken voor het oplossen van een fout in de eigen hardware.

CloudRift wijst erop dat het probleem de betrouwbaarheid van GPU-virtualisatie kan ondermijnen, zeker in AI-workloads die afhankelijk zijn van stabiele en langdurige rekenprestaties.