Anthropic wil betrouwbaardere benchmarks voor LLM’s

Anthropic vindt dat het huidige ‘puntensysteem’ de capaciteiten van LLM’s onvoldoende reflecteren en start een initiatief voor betrouwbaardere benchmarks.

‘Een robuust ecosysteem van evaluaties door derden is essentieel voor het beoordelen van AI-systemen, maar het huidige landschap is beperkt.’ Met deze woorden kondigt Anthropic aan dat het wil investeren in de ontwikkeling van nieuwe benchmarks voor LLM’s. Het AI-bedrijf vindt dat de huidige tools onvoldoende betrouwbaar zijn.

Benchmarks kan je zien als een ‘rapport’ voor LLM’s. Men laat een LLM dan een specifieke taak uitvoeren en beoordeelt de score tegenover hoe andere LLM’s op die taak presteerden. Bij de aankondiging van nieuwe modellen wordt er lustig met die benchmarkscores gezwaaid om aan te tonen waarom dat model beter is, ook al strook dat misschien niet helemaal met de realiteit. Anthropic maakt zich daar evengoed schuldig aan.

Google Gemini niet zo goed in begrijpend lezen als Google beweert

Benchmarks op de schop

Anthropic staat zeker niet alleen in de kritiek op de huidige benchmarks. Een veel voorkomende kritiek is dat LLM’s testen en quoteren op één specifieke taak onvoldoende reflecteert hoe mensen dat systeem zullen gebruiken. De meerwaarde van een LLM zit net in het gegeven dat het goed is in verschillende taken te combineren.

Het bedrijf achter de Claude-modellen wil het benchmarksysteem zelfs volledig op de schop gooien. Anthropic pleit ervoor om benchmarks te ontwikkelen die zich meer toespitsen op bijvoorbeeld use cases die het potentieel van AI tonen bij wetenschappelijk onderzoek en het converseren in meerdere talen. Ook veiligheid en potentiële risico’s zouden meer aandacht moeten krijgen in de evaluatie van AI-systemen.

Wie denkt een goed idee te hebben, kan zich aanmelden bij Anthropic. De beste ideeën komen in aanmerking voor een financiële ondersteuning. De doelstellingen van Anthropic klinken nobel, al spelen er zeker ook commerciële belangen mee. Het bedrijf zal toch liefst zien dat zijn Claude-modellen goed scoren op de benchmarks.

Itdaily - Anthropic wil betrouwbaardere benchmarks voor LLM’s

Google Gemini niet zo goed in begrijpend lezen als Google beweert

Benchmarks op de schop