GPT-3 verslaat universiteitsstudenten

Onderzoekers aan de Amerikaanse universiteit UCLA onderwierpen de chatbot GPT-3 aan een aantal tests. De resultaten kwamen verrassend dicht bij hoe heel wat mensen het zouden doen.

Aan de Amerikaanse universiteit UCLA in Californië, hebben onderzoekers getest hoe chatbot GPT-3 het doet in een aantal analogietests die (potentiële) studenten ook moeten ondergaan. De resultaten waren verrassend menselijk.

Testing, testing

De opdrachten bestonden uit een aantal visuele en tekstuele vragen waarbij een vorm van logica nodig is om ze te beantwoorden, vergelijkbaar met de Amerikaanse SAT’s. Vroeger stond dat voor Scholastic Assessment Test, inmiddels is het geen acroniem meer, maar een woord op zich. Laatstejaars uit het middelbaar in de VS krijgen deze tests, om te bepalen of ze toegelaten worden tot een universiteit.

Mensen lossen veel nieuwe problemen en opdrachten op, al dan niet bewust, door analoog redeneren: de vergelijking maken met een eerder probleem en de oplossing daarvoor doortrekken naar het nieuwe. De onderzoeker aan UCLA wilden dus weten of een AI-model dit ook kan.

Het antwoord op die vraag is blijkbaar volmondig ‘ja’. GPT-3 deed het even goed als actieve universiteitsstudenten. Bij een test waarbij het volgende voorwerp in een raster met afbeeldingen moest worden beredeneerd, deed de AI het niet alleen even goed, het model maakte dezelfde fouten als de studenten. Deze technologie kan nog niet zien, dus de test was voor GPT-3 omgezet in tekst.

ChatGPT-app ook bij ons beschikbaar op Android

De menselijke kant

Een totaal van veertig UCLA-studenten kregen voor dit onderzoek dezelfde opdrachten als GPT-3. Het model deed het met tachtig procent juiste antwoorden beter dan de zestig procent van de gemiddelde persoon en scoorde zo in de hogere menselijke regionen.

De onderzoekers gaven GPT-3 ook een aantal SAT-vragen die nooit online zijn gepubliceerd, het systeem kon die in principe dus niet kennen. Bij vergelijking met echte SAT-scores, bleek de AI het beter te hebben gedaan dan de gemiddelde menselijke deelnemer.

Niet perfect

Er zijn wel de nodige kanttekeningen. Het AI-model was niet consistent: sommige opdrachten konden vlekkeloos worden opgelost, maar bij anderen faalde GPT-3 dan weer compleet. Analoog redeneren ging vlot, maar bij voorwerpen linken aan eenvoudige fysieke opdrachten, ging het systeem helemaal de mist in. Denk aan kindjes die een voorwerp in de correcte vorm moeten stoppen.

Wanneer GPT-3 werd gevraagd om analogieën oplossen aan de hand van kortverhalen, deed het systeem het eveneens minder goed dan zijn menselijke “concurrenten”. Opvolger GPT-4, die dan toch niet helemaal dommer is geworden, scoorde wel al beter dan zijn voorganger.

Een vraag die de onderzoekers zich nu vooral stellen, is of GPT-3 gewoon het menselijk redeneren kopieert of dat het systeem zelf een nieuw cognitief proces heeft ontwikkeld. Om dat te determineren, zouden ze dieper in de technologie van de chatbot moeten graven. Dat is iets dat OpenAI, het bedrijf achter ChatGPT, echter niet toelaat.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

GPT-3 verslaat universiteitsstudenten

Testing, testing

ChatGPT-app ook bij ons beschikbaar op Android

De menselijke kant

Niet perfect

gerelateerd nieuws

nieuwsbrief