Claude 3.5 Sonnet komt als winnaar uit de bus van een vergelijkende test tussen LLM’s. Opensource modellen dichten de kloof met hun gesloten tegenhangers.
De vraag wat het beste LLM is, is niet zo eenvoudig te beantwoorden. LLM’s zijn immers in veel disciplines getraind, waardoor het ene model wat beter kan zijn in wiskunde, terwijl een ander model een beter taalbegrip heeft. De AI-startup zette de 22 meest geavanceerde LLM’s van het moment tegenover elkaar, en roept Anthropic’s Claude 3.5 Sonnet uit tot winnaar.
De resultaten worden uitvoerig beschreven in de LLM Hallucination Index. De opzet van het onderzoek is om de modellen op verschillende taken die relevant voor eindgebruikers zijn te testen. Er wordt daarbij gekeken naar taken met een kort contextvenster (minder dan 5.000 tokens), en taken die een middellang (5.000-25.000 tokens) en een lang contextvenster vereisen (tot 100.000 tokens).
OpenAI van de troon gestoten
Vorig jaar ging OpenAI met de prijzen lopen, maar dit jaar roept Galilei Anthropic tot de winnaar uit. Het Claude 3.5 Sonnet-model toonde zich zowel bij korte als langere contextvensters het best presterende model volgens de gebruikte benchmarks. Google Gemini 1.5 Flash krijgt een onderscheiding als model dat de beste prestaties in verhouding tot de kost levert.
Een honderd procent feilloze benchmarks bestaat niet om LLM’s met elkaar te vergelijken en er zullen ongetwijfeld tests zijn die GPT-4 als de beste uitroepen. De studie toont zeker wel dat de competitie op zijn scherpst staat. OpenAI werd in de beginfase van de GenAI-hype gezien als de referentie, maar de modellen van Anthropic en Google zijn op gelijke hoogte gekomen.
Een andere algemene vaststelling die de onderzoekers maken, is dat de lengte van het contextvenster maar weinig invloed lijkt te hebben op de accuraatheid. Dat betekent dat LLM’s steeds beter worden in het verwerken van grote bestanden. Je kan Claude 3.5 Sonnet of Google Gemini 1.5 Flash een boek laten doorspitten en het model zal daar zeer gedetailleerde informatie uit kunnen halen.
Opensource dicht de kloof
In de test van Galilei werden twaalf opensource modellen opgenomen. De onderzoekers concluderen dat opensource modellen stilaan op gelijke voet staan met hun gesloten tegenhangers. De winnaar in de opensource categorie zal je verbazen: niet Meta’s LLama 3 of Mistral, maar Alibaba’s Qwen2 (72B) wist de onderzoekers het meest te overtuigen.
lees ook