Honderden Nvidia H100-GPU’s faalden tijdens Llama 3-training

Tijdens de training van Llama 3 waren Nvidia H100-GPU’s de meest fragiele componenten. Meer specifiek gaf het HBM3-geheugen er veelal de brui aan.

Meta heeft Llama 3 405B getraind op een GPU-supercomputer met 16.384 Nvidia H100 80 GB-GPU’s. Tijdens de trainingsperiode van 54 dagen werd het cluster geconfronteerd met 419 gefaalde componenten. Gemiddeld liep er dus iedere drie uur ongeveer iets mis.

Fragiel component

In ongeveer de helft van de gevallen had dat ‘iets’ te maken met de H100-GPU’s. In 17,2 procent van de gevallen kwam een componentfalen voort uit een fout met het HBM3-geheugen. In nog eens dertig procent lag een ander probleem met de GPU (of NVLink) aan de basis.

Slechts twee CPU’s gaven er tijdens de training de brui aan. Andere fouten kwamen voort uit een veelvoud aan diverse hardware- en softwarebugs. De GPU’s toonden zich zo veruit de fragielste componenten van het cluster, al was de impact van de defecten over de trainingsperiode beperkt. Meta stelt dat het 90 procent van de tijd effectief heeft kunnen trainen.

Het bedrijf gebruikte verschillende technieken om componentfalen te mitigeren. Gezien de schaal van het trainingscluster, waren fouten immers onvermijdelijk. Om efficiënt te trainen, moet een groot parallel systeem om kunnen met lokale problemen. Meta gebruikte software om falende GPU’s snel te detecteren en problemen snel te verhelpen. Dat gebeurde veelal automatisch. Slechts drie incidenten konden alleen met een manuele interventie opgelost worden.

Schaalnadeel

De cijfers illustreren de uitdagingen van de training van grote AI-modellen. De formaten van de trainingsclusters zijn zo immens, dat frequente problemen deel uitmaken van het trainingsproces. Het is aan onderzoekers en specialisten om de training te laten doorlopen zelfs wanneer hardware uitvalt.

Meta werd gemiddeld iedere drie uur met een probleem geconfronteerd, maar er staan veel grotere AI-clusters in de stijgers. xAI van Elon Musk wil een cluster met 100.000 Nvidia H100-GPU’s bouwen. Als componenten daarin op dezelfde schaal falen, dan moeten de ingenieurs van xAI ervoor zorgen dat distrupties meermaals per uur op een vlotte manier worden verholpen.

Itdaily - Honderden Nvidia H100-GPU’s faalden tijdens Llama 3-training

Fragiel component

Schaalnadeel