Nvidia en Mistral AI verpakken AI-model NeMo 12B in kleiner formaat

Software 3 min 23.08.'24 10:59 Katrien Duchène

Mistral-NeMo-Minitron 8B is de verkleinde versie van het bestaande AI-model NeMo 12B. Op basis van het ‘snoeien en distilleren’-proces kan de kleine variant lokaal draaien op laptops en pc’s.

Nvidia en Mistral AI brengen een klein AI-model uit, Mistral-NeMo-Minitron 8B, dat lokaal kan draaien op laptops en pc’s met minder rekenkracht. Het model is een verkleinde versie van NeMo 12B en scoort goed in de benchmarks met gelijkaardige kleine modellen. Het succes van deze kleinere variant is een combinatie van twee technieken: ‘snoeien en distilleren’.

‘Snoeien en distilleren’

Het nieuwe kleine AI-model Mistraal-NeMo-Minitron 8B is een verkleinde versie van de reeds bestaande NeMo 12B. Er werd grondig ‘gesnoeid’ in het model om van 12 miljard naar 8 miljard parameters te gaan. Om ervoor te zorgen dat dit kleine model toch effectief blijft, hanteerden de ontwikkelaars de techniek ‘snoeien en distilleren’.

“Snoeien verkleint een neuraal netwerk door modelgewichten te verwijderen die het minst bijdragen aan nauwkeurigheid. Tijdens distillatie heeft het team dit gesnoeide model opnieuw getraind op een kleine dataset om de nauwkeurigheid aanzienlijk te verbeteren, die was afgenomen door het snoeiproces”, aldus Bryan Catanzaro, VP van deep learning research bij Nvidia, in een blogpost van Nvidia.

Het geoptimaliseerde taalmodel werd getraind op een “fractie van de originele dataset”, waarmee aanzienlijke kosten uitgespaard werden in termen van ruwe berekeningen. Het model is door de hoeveelheid bespaarde rekenkracht geschikt om op laptops en pc’s lokaal te draaien en zou naar verluidt negen taalgestuurde AI-benchmarks met een gelijkaardige grootte leiden.

“Het model is verpakt als een NVIDIA NIM-microservice en is geoptimaliseerd voor een lage latentie, wat snellere reacties voor gebruikers betekent, en een hoge doorvoer, wat overeenkomt met een hogere rekenefficiëntie in productie”, staat te lezen in de blog. Verder biedt Nvidia zijn aangepaste modelservice, AI Foundry, zodat Minitron 8B ook op smartphones kan draaien.

Itdaily - Nvidia en Mistral AI verpakken AI-model NeMo 12B in kleiner formaat

‘Snoeien en distilleren’