Binnenwerk DeepSeek-AI beroert gemoederen: hoe werkt het, en wat is gestolen?

deepseek

Het AI-model DeepSeek R1 krijgt veel lof voor zijn geleverde prestaties tegen een lage trainingskost. Verschillende details rond de werking onder de motorkap raken intussen bekend, en die ondergraven de rol van Nvidia in het AI-ecosysteem. Intussen rijzen er ook vragen over de echte openheid van het model, en eventueel creatief gebruiken van GPT-4 tijdens de training.

De Chinese AI-start-up Scale AI heeft de techwereld verrast met de doorbraak van het R1-AI-model. Dat levert vergelijkbare prestaties met OpenAI’s tegen veel lagere kosten. Dat kan door slimme optimalisaties en een speciale programmeermethode. Naast lof is er ook kritiek: heeft ScaleAI het model zelf ontwikkeld of is het de mosterd elders gaan halen?

Hoe werkt DeepSeek’s AI-model?

DeepSeek maakt gebruik van Mixture-of-Experts (MoE), met 671 miljard parameters, getraind op amper 2048 bescheiden Nvidia H800 GPU’s. Het bedrijf maakte bovendien geen gebruik van Nvidia CUDA, maar wel van zijn eigen DeepSeek PTX (Parallel Thread Execution). Dat is een midlevel programmeertaal die fijnmazige optimalisaties toestaat voor de GPU. Zo werden bijvoorbeeld 20 van de 132 streamingprocessors in de Nvidia H800 gebruikt voor communicatie tussen de servers. R1 kan hierdoor sneller en efficiënter werken.

Op die manier kan het gelijkaardige prestaties leveren als grotere AI-spelers, met ontwikkelingskosten van slechts 5,6 miljoen dollar. Amerikaanse bedrijven investeren vaak miljarden in hun AI-modellen, een aanpak waarvan de noodzaak ervan nu sterk in twijfel wordt getrokken.

Dat zelfs CUDA niet meer essentieel is, mogen we ook niet onderschatten. Nvidia heeft een sterke greep op AI-ontwikkeling dankzij zijn eigen CUDA-ecosysteem. CUDA is een soort monopolie dat concurrenten willen doorbreken, maar zonder heel veel succes. DeepSeek toont hier dat alternatieven ook werken.

lees ook

Gelsinger: ‘De hele sector wil de CUDA-markt elimineren’

Heeft Scale AI plagiaat gepleegd?

Er zijn wel vragen bij de methode achter de training van DeepSeek. OpenAI beweert dat DeepSeek ‘distillatie’ gebruikt heeft, aldus de Financial Times. Dat is een methode die wel vaker gebruikt wordt, waarbij een kleiner AI-model leert van de output van een groter en meer capabel model. DeepSeek zou volgens OpenAI data van GPT-4 gebruikt hebben, en daarmee schendt het OpenAI’s gebruiksvoorwaarden.

Distillatie is dus niet nieuw, en volgens insiders is het gebruikelijk dat AI-labs resultaten van AI-bedrijven zoals OpenAI gebruiken. Maar wanneer pleeg je dan juist plagiaat? Grote bedrijven zoals OpenAI investeren veel tijd en geld in het verbeteren van hun AI-modellen met menselijke feedback. Als andere bedrijven deze verbeterde output gebruiken om hun eigen modellen op te bouwen, krijgen ze een voorsprong zonder dezelfde inspanningen te leveren.

Pot vs. Ketel

Daar staat tegenover dat OpenAI de grootste roof van intellectuele eigendom uit de geschiedenis van de mensheid gepleegd heeft met de training van zijn GPT-modellen. Daarvoor verzamelde het bedrijf immers gegevens van over het hele internet, zonder rekening te houden met auteursrechtelijke bescherming. ChatGPT bestaat bij gratie van wat journalisten, onderzoekers, bloggers en gewoon actieve internetgebruikers doorheen de jaren op het web gepost hebben.

Als DeepSeek inderdaad getraind is met de hulp van een groter model, toont dat aan dat het nog steeds nodig is om dergelijke grote startmodellen te ontwikkelen. De totale kostprijs voor de ontwikkeling van Deepseek moet je in dat geval samentellen met de prijs van eerder ontwikkelde modellen. Kloppen de beschuldigingen van OpenAI, dan hoort er wel een flinke asterisk bij de claims van DeepSeek. OpenAI kan ook de kaart van de intellectuele eigendom en gebruiksvoorwaarden trekken, al klinkt dat toch een beetje als een pot die een ketel iets verwijt.

Meer openheid

Ondertussen wil de open-source site HuggingFace het R1-model reproduceren, met als doel een volledig open-source versie van het model beschikbaar te stellen aan de AI-community. Volgens HuggingFace is DeepSeek niet volledig open-source, omdat veel data en code niet openbaar beschikbaar zijn. Het model is wel vrij te gebruiken, maar niet helemaal open. Daarom willen het bedrijf een nog meer transparante en toegankelijke omgeving creëren.

Hoe dan ook heeft DeepSeek voor een aardverschuiving gezorgd in AI-land. Zelfs met de kanttekeningen bij de openheid van het model, en zelfs wanneer de claims van OpenAI kloppen, toont het Chinese AI-systeem dat de weg voorwaarts voor de ontwikkeling van AI-LLM’s efficiënter kan dan tot nu toe gedacht. Vandaag zet Scale AI die claim nog kracht bij met de lancering van Janus-Pro-7B. Dat model kan beelden genereren naar analogie met Dall-E en Stable Diffusion. Opnieuw lijkt het model niet onder te moeten doen voor de veel duurdere alternatieven.