Ook oude GPU’s ondersteunen nieuwe LLM’s

Om LLM’s te draaien, heb je niet noodzakelijk de allernieuwste hardware nodig. Onderzoek uit Estland toont aan dat een Nvidia Geforce RTX 3090 zijn mannetje kan staan.

Generatieve AI staat veelal synoniem met moderne GPU’s, zowel voor training als voor inferentie. Het Estse Backprop toont nu aan dat ook oudere hardware nog relevantie heeft. Backprop is een start-up gespecialiseerd cloud-instances, en biedt specifiek GPU-instances aan. Het bedrijf doet in detail uit de doeken waarom je ook met een virtuele machine aangedreven met een vier jaar oude Nvidia GeForce RTX 3090 uit de voeten kan.

De Nvidia RTX 3090 kwam in 2020 al op de markt, voor de AI-boom. De GPU is geoptimaliseerd voor grafisch geweld en raytracing, maar heeft een rekenkracht van 142 TFLOPS (FD16). Ook de geheugenbandbreedte is met 939 GBps niet min. De kaart heeft 24 GB GDDR6x-geheugen wat veel is naar klassieke GPU-normen, maar minder dan echte high-end AI-kaarten. Alles samengenomen heeft de RTX 3090 echter heel wat FP19-pk’s aan boord, vergezeld van snel geheugen met een behoorlijke capaciteit.

Voldoende voor een bescheiden model

Backprop toont nu aan dat die specificaties voldoende zijn om een model zoals Llama 3.1 8B in te laden. De GPU in de instances van het bedrijf kan inferentie aan 12,88 tokens per seconde ondersteunen. In mensentaal betekent dat dat de GPU het model tekst gaat genereren aan een tempo dat hoger ligt dan het leestempo van de gemiddelde gebruiker. Denk daarbij aan een vijftal woorden per seconde. 10 tokens per seconde is zo’n beetje de ondergrens voor vlotte inferentie.

Backprop testte het model vooral met korte prompts, zoals je die bijvoorbeeld in een zakelijke chatbot zou tegenkomen. Om lange documenten samen te vatten, heb je meer rekenkracht nodig. De prestaties van Llama 3.1 8B op de RTX 3090 dalen dan, maar niet tot onder de cruciale grens van 10 tokens per seconde. Daar komt bij dat de GPU 50 tot 100 gelijktijdige requests kan bolwereken.

Praktisch bruikbaar

Backprop merkt nog op dat in een realistisch scenario niet iedereen op hetzelfde moment iets van een AI-model vraagt. Een instance met RTX 3090 zou zo in de praktijk duizenden gebruikers kunnen ondersteunen, zolang die allemaal maar sporadisch inferentie willen.

Prijs is de belangrijke reden om deze weg in te slaan. Een instance met één Nvidia GeForce RTX 3090, 8 vCPU’s, 60 GB RAM en 300 GB opslag kost 0,36 dollar per uur: een veelvoud minder dan een instance met een moderne professionele Nvidia-GPU bij een grote cloudprovider.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.
terug naar home