GPT-4 lijkt dommer te worden

.werkplek
20.07.'23 08:35
3 min

Jeroen Rottiers

Onderzoekers ondervinden dat GPT-4 dommer lijkt te worden. Ze komen tot die conclusie na verschillende tests.

Na vergelijkende research in twee verschillende maanden, hebben onderzoekers van de universiteiten van Berkeley en Stanford ondervonden dat GPT-4 dommer lijkt te worden. Ze publiceerden hun bevindingen in een recent verschenen rapport.

Vergelijkende tests

Drie onderzoekers van de Amerikaanse universiteiten UC Berkeley en Stanford hebben onderzoek gedaan naar de evolutie van de LLM-chatbots GPT-3.5 en GPT-4. Ze gaven de AI-modellen vier verschillende taken in maart en later in juni van dit jaar en vergeleken vervolgens de resultaten. De taken bestonden uit:

Wiskundige problemen
Gevoelige of “gevaarlijke” vragen
Code genereren
Visueel redeneren

Enkele resultaten waren best verrassend te noemen. Zo kon GPT-4 in maart priemgetallen herkennen met een erg hoge nauwkeurigheid, maar dat was twee maanden later met maar liefst 95 procent gezakt. Voor 3.5 waren die resultaten dan weer beter in juni. Verder was GPT-4 in juni een stuk minder gewillig om lastige, gevoelige vragen te beantwoorden.

Beide versies maakten in juni ook nog eens meer formateringsvergissingen bij het genereren van code. Enkel bij het visueel redeneren was er voor beide modellen een lichte vooruitgang van telkens twee procent.

OpenAI weerhoudt nog steeds training voor GPT 5

Bevindingen

Een conclusie van de onderzoekers is dat het enorm opvalt hoe hard het gedrag van een Large Language Model kan fluctueren op een vrij korte periode. Ze merken dan ook op dat het constant monitoren van de technologie een must is.

De drie onderzoekers zien de ondoorzichtigheid van hoe en wanneer beide AI-modellen een update krijgen, als een reden voor de grilligheid. Ze staan dan ook twijfelachtig tegen het integreren van LLM’s in grotere workflows, door dat gebrek aan consistentie.

GPT-4 is sinds begin deze maand publiek beschikbaar. Eerder deze week berichtten we al over bepaalde visuele functies die OpenAI on hold heeft gezet voor de chatbot.

featured

Wat moet je doen bij een datalek? 4 vragen beantwoord

.beveiliging
02.03.'26
8 min

recent in werkplek

Motorola lanceert edge 70 fusion met megabatterij

.werkplek
02.03.'26
3 min

Lenovo kondigt ThinkPad X13 Detachable en ThinkBook 14 2-in-1 Gen 6 aan

.werkplek
02.03.'26
2 min

Herstelbaarheid troef bij introductie nieuwe Lenovo ThinkPad T-reeks

.werkplek
02.03.'26
4 min

meer werkplek

poll

"*" indicates required fields

ronde tafel

Data 2025

16.12.'25
5 min

NIS2 2025

.beveiliging
06.10.'25
5 min

meer ronde tafels

events

CS4CA

10/03/2025

Embedded World

10/03/2026

Experience SAP S/4HANA in Action – Simulation Game

19/03/2026

meer events

Itdaily - GPT-4 lijkt dommer te worden

Vergelijkende tests

OpenAI weerhoudt nog steeds training voor GPT 5

Bevindingen