Onderzoekers stellen vast dat het Gemini-model van Google over vrijwel de hele lijn bijna, maar niet helemaal, op niveau van het oude GPT-3.5 presteert. De betaalde versie van ChatGPT met GPT-4 is superieur.
Gemini, het nieuwe LLM van Google, presteert niet op hetzelfde niveau als de recentste modellen van OpenAI. Dat stellen onderzoekers vast in een paper, gepubliceerd op Arxiv.org. Het onderzoek in kwestie is uitgevoerd door de reputabele Carnegie Mellon University en start-up genaamd BerriAI, die het vooral mogelijk maakt om meerdere AI-modellen te benaderen met prompts. Het onderzoek in kwestie oogt grondig en betrouwbaar, maar is nog niet door peer review gepasseerd.
Grondige tests
De onderzoekers zetten Gemini Pro tegenover GPT-3.5 Turbo in een veelvoud aan tests over verschillende domeinen, waaronder kennis, redenering, wiskunde en vertaling. In alle gevallen deed Gemini het net slechter dan het oudere GPT 3.5 Turbo-model. GPT 4 Turbo deed het aanzienlijk beter dan de rest.
De onderzoekers doen hun testmethode uit de doeken in een begrijpelijke paper. Zo werd de kennis van beide modellen getest aan de hand van 57 meerkeuzevragen, waarbij de antwoorden van Gemini het minst accuraat waren. Voor algemeen redeneren kregen de modellen 27 taken voorgeschoteld, afkomstig van een eerder onderzoek. Ook hier deed Gemini het niet zo goed. Vooral in een vraagstuk waar een object gewisseld wordt tussen verschillende entiteiten (een verhaal waarin verschillende vrienden verschillende boeken kopen en die dan doorgeven), kan Gemini niet volgen.
Heeft Gemini dan wel een wiskundeknobbel? Ook niet, volgens de researchers. De LLM’s moesten vraagstukken van verschillende niveaus oplossen en opnieuw was Gemini het kneusje van de klas.
Talenknobbel
De sterkte van Gemini ligt in talen. De modellen kregen twintig vertaaltaken en alles samengenomen verloor het model van Google ook hier de wedstrijd, maar de uitkomst was nipt. In acht van de twintig gevallen deed Gemini het wel beter dan GPT 3.5 en zelfs GPT 4.
Het resultaat van het onderzoek is duidelijk: Gemini presteert niet op het niveau van OpenAI’s recentste model. Het verschil is significant. Google heeft op dit moment dus nog geen inhaalmanoeuvre uitgevoerd en OpenAI blijft kampioen. We denken niet dat de resultaten als een verrassing komen voor Google. Tijdens de introductie van het model, bleek de demo immers in scène te zijn gezet. Dat geeft toch niet meteen blijk van vertrouwen.
GPT-3.5 is gratis beschikbaar via ChatGPT en blijft het beste vrij toegankelijke model van het moment. GPT-4 is een stuk beter en kent op dit moment geen gelijke. Om daarmee aan de slag te gaan, heb je een betaald abonnement op ChatGPT nodig.