Claude 3.5 Sonnet onttroont GPT-4 als best presterende LLM

.software
01.08.'24 15:35
3 min

Jens Jonkers

Claude 3.5 Sonnet komt als winnaar uit de bus van een vergelijkende test tussen LLM’s. Opensource modellen dichten de kloof met hun gesloten tegenhangers.

De vraag wat het beste LLM is, is niet zo eenvoudig te beantwoorden. LLM’s zijn immers in veel disciplines getraind, waardoor het ene model wat beter kan zijn in wiskunde, terwijl een ander model een beter taalbegrip heeft. De AI-startup zette de 22 meest geavanceerde LLM’s van het moment tegenover elkaar, en roept Anthropic’s Claude 3.5 Sonnet uit tot winnaar.

De resultaten worden uitvoerig beschreven in de LLM Hallucination Index. De opzet van het onderzoek is om de modellen op verschillende taken die relevant voor eindgebruikers zijn te testen. Er wordt daarbij gekeken naar taken met een kort contextvenster (minder dan 5.000 tokens), en taken die een middellang (5.000-25.000 tokens) en een lang contextvenster vereisen (tot 100.000 tokens).

OpenAI van de troon gestoten

Vorig jaar ging OpenAI met de prijzen lopen, maar dit jaar roept Galilei Anthropic tot de winnaar uit. Het Claude 3.5 Sonnet-model toonde zich zowel bij korte als langere contextvensters het best presterende model volgens de gebruikte benchmarks. Google Gemini 1.5 Flash krijgt een onderscheiding als model dat de beste prestaties in verhouding tot de kost levert.

Een honderd procent feilloze benchmarks bestaat niet om LLM’s met elkaar te vergelijken en er zullen ongetwijfeld tests zijn die GPT-4 als de beste uitroepen. De studie toont zeker wel dat de competitie op zijn scherpst staat. OpenAI werd in de beginfase van de GenAI-hype gezien als de referentie, maar de modellen van Anthropic en Google zijn op gelijke hoogte gekomen.

Een andere algemene vaststelling die de onderzoekers maken, is dat de lengte van het contextvenster maar weinig invloed lijkt te hebben op de accuraatheid. Dat betekent dat LLM’s steeds beter worden in het verwerken van grote bestanden. Je kan Claude 3.5 Sonnet of Google Gemini 1.5 Flash een boek laten doorspitten en het model zal daar zeer gedetailleerde informatie uit kunnen halen.

Opensource dicht de kloof

In de test van Galilei werden twaalf opensource modellen opgenomen. De onderzoekers concluderen dat opensource modellen stilaan op gelijke voet staan met hun gesloten tegenhangers. De winnaar in de opensource categorie zal je verbazen: niet Meta’s LLama 3 of Mistral, maar Alibaba’s Qwen2 (72B) wist de onderzoekers het meest te overtuigen.

Meta heeft ‘tienvoud aan rekenkracht’ nodig voor Llama 4

featured

IT-professional blijft Windows 10 trouw (maar betaalt daar liever niet voor)

.software
26.11.'25
3 min

recent in software

Google wijzigt limieten Gemini 3 Pro voor gratis gebruikers

.software
28.11.'25
2 min

‘Beperkte data-toegang remt productiviteit werknemers in Benelux’

.software
28.11.'25
2 min

PowerToys vereenvoudigt gebruik meerdere schermen in Windows

.software
28.11.'25
2 min

meer software

poll

"*" indicates required fields

ronde tafel

NIS2 2025

.beveiliging
06.10.'25
5 min

Cloud 2025

.cloud
07.07.'25
5 min

meer ronde tafels

events

Dell Technologies Forum

2/12/2025

ServiceNow World Forum

03/12/2025

HPE Discover Barcelona

03/12/2025
Barcelona

meer events

Itdaily - Claude 3.5 Sonnet onttroont GPT-4 als best presterende LLM

OpenAI van de troon gestoten

Opensource dicht de kloof

Meta heeft ‘tienvoud aan rekenkracht’ nodig voor Llama 4