Twee wetenschappelijke experimenten namen het vermogen van Google Gemini om lange teksten en beelden te analyseren op de proef. Het LLM buisde op beide tests.
Google gaat er prat op dat het Gemini Pro-model tot twee miljoen tokens simultaan kan verwerken. Dat staat ongeveer gelijk aan 2 uur video, 22 uur audio, 60.000 lijnen code of 1,5 miljoen woorden. Google zet hard in op de hoge tokenlimiet van Gemini om het model te onderscheiden van OpenAI’s GPT-modellen.
Maar is Gemini wel zo goed in begrijpend lezen als Google claimt? Twee wetenschappelijke studies namen de proef op de som en kwamen tot een andere conclusie. Onderzoekers van het Allen Institute en Princeton University lieten de Gemini-modellen een boek van 260.000 woorden lezen en er vragen over beantwoorden.
Gemini gebuisd
Gemini Pro haalde een score van 46 procent op de test, Flash was met twintig procent zwaar gebuisd. De onderzoekers stelden vast dat Gemini vrij goed was in het halen van informatie in zeer specifieke zinnen, maar dat de accuraatheid van de antwoorden daalde wanneer de vraag het lezen van grotere stukken vereist.
In een ander experiment door een Amerikaanse universiteit werd het vermogen om beelden te analyseren getest. De onderzoekers creëerden een dataset van afbeeldingen en stelden de modellen vragen over objecten in de afbeelding. Om het uitdagender te maken, voegde de onderzoekers extra afleidingsbeelden toe aan de slideshow. Met name Gemini Flash, een model dat vooral moet uitblinken in snelheid, viel door de mand tijdens deze test en haalde bij de moeilijkste reeksen een score van dertig procent.
(Te) hoge beloftes
Het moet opgemerkt worden dat ook de modellen van OpenAI en Anthropic het niet veel beter deden dan Gemini. Ook GPT-4o haalde op de toets begrijpend lezen slechts een nipte voldoende. Echter moet Google uitkijken dat het niet te hoge beloftes maakt.
lees ook