Onderzoekers ondervinden dat GPT-4 dommer lijkt te worden. Ze komen tot die conclusie na verschillende tests.
Na vergelijkende research in twee verschillende maanden, hebben onderzoekers van de universiteiten van Berkeley en Stanford ondervonden dat GPT-4 dommer lijkt te worden. Ze publiceerden hun bevindingen in een recent verschenen rapport.
Vergelijkende tests
Drie onderzoekers van de Amerikaanse universiteiten UC Berkeley en Stanford hebben onderzoek gedaan naar de evolutie van de LLM-chatbots GPT-3.5 en GPT-4. Ze gaven de AI-modellen vier verschillende taken in maart en later in juni van dit jaar en vergeleken vervolgens de resultaten. De taken bestonden uit:
- Wiskundige problemen
- Gevoelige of “gevaarlijke” vragen
- Code genereren
- Visueel redeneren
Enkele resultaten waren best verrassend te noemen. Zo kon GPT-4 in maart priemgetallen herkennen met een erg hoge nauwkeurigheid, maar dat was twee maanden later met maar liefst 95 procent gezakt. Voor 3.5 waren die resultaten dan weer beter in juni. Verder was GPT-4 in juni een stuk minder gewillig om lastige, gevoelige vragen te beantwoorden.
Beide versies maakten in juni ook nog eens meer formateringsvergissingen bij het genereren van code. Enkel bij het visueel redeneren was er voor beide modellen een lichte vooruitgang van telkens twee procent.
Bevindingen
Een conclusie van de onderzoekers is dat het enorm opvalt hoe hard het gedrag van een Large Language Model kan fluctueren op een vrij korte periode. Ze merken dan ook op dat het constant monitoren van de technologie een must is.
De drie onderzoekers zien de ondoorzichtigheid van hoe en wanneer beide AI-modellen een update krijgen, als een reden voor de grilligheid. Ze staan dan ook twijfelachtig tegen het integreren van LLM’s in grotere workflows, door dat gebrek aan consistentie.
GPT-4 is sinds begin deze maand publiek beschikbaar. Eerder deze week berichtten we al over bepaalde visuele functies die OpenAI on hold heeft gezet voor de chatbot.