AI-bedrijven pronken graag met indrukwekkende benchmarkresultaten, maar hoe betrouwbaar zijn deze cijfers? Onderzoekers van de Europese Commissie hebben hierover een rapport opgesteld.
Onderzoekers van het Joint Research Center van de Europese Commissie stellen dat benchmarks net zo kritisch bekeken moeten worden als de modellen die ze evalueren. Ze ontdekten dat veel methoden gebreken vertonen en misleidend kunnen zijn.
Zo claimde OpenAI dat hun GPT-4o model 75,7 procent scoorde op de ARC-AGI test, een puzzelgerichte AI-intelligentiemeting. Google’s Gemini 2.0 Pro zou 79,1 procent gehaald hebben op MMLU-Pro, en Meta’s Llama-3 70B behaalde 82 procent op MMLU 5-shot. Hoe eerlijk zijn deze tests eigenlijk?
Europees onderzoek
De onderzoekers analyseerden 100 studies over benchmarkmethoden en haalden daar verschillende problemen uit: gebrek aan transparantie, datacontaminatie en tests die niet meten wat ze beloven. Een ander groot probleem is ‘sandbagging’, waarbij AI-modellen bewust onderpresteren op bepaalde tests om later ‘verbetering’ te laten zien.
Daarnaast weerspiegelen benchmarks vaak de belangen van AI-bedrijven in plaats van de effectieve capaciteit van AI-modellen. Toch worden deze scores steeds vaker gebruikt als basis voor regelgeving, zoals de AI Act.
De onderzoekers ontdekten dat benchmarks geen standaard hebben, maar toch een grote invloed hebben op het beleid en publieke perceptie van AI-modellen. Medewerkers uit verschillende vakgebieden, zoals cybersecurity, taalkunde, computerwetenschappen en sociologie, hebben al vaak kritiek geuit op de manier waarop benchmarks worden gebruikt en de invloed die ze hebben op AI-ontwikkeling.
lees ook
‘AI-investeringen in EMEA verdubbelen, maar uitdagingen blijven’
Uit de analyse kwamen negen grote problemen naar voren:
- Onduidelijkheid over hoe, wanneer en door wie benchmark-datasets zijn gemaakt.
- Niet meten wat er gemeten zou moeten worden.
- Testen die gemanipuleerd zijn om betere resultaten te krijgen.
- Testen die de sociale, economisch en culturele context waarin ze zijn afgenomen niet verduidelijken.
- Testen die ‘bepaalde methodes en onderzoeksdoelen versterken’ ten koste van anderen.
- Testen die niet zijn aangepast aan de snel veranderende technologie.
- Het beoordelen van modellen naarmate ze steeds ingewikkelder worden.
- Testen die zijn ontworpen om AI voor investeerders interessant te maken.
- Het niet testen op verschillende datasets.
Zonder verbeteringen blijven AI-benchmarkresultaten eerder een marketingtool dan een betrouwbare maatstaf voor AI-prestaties. “AI-benchmarks moeten onderworpen worden aan dezelfde eisen met betrekking tot transparantie, eerlijkheid en uitlegbaarheid als AI-modellen in het algemeen,” concluderen de onderzoekers.