Uit een onderzoek door internationale nieuwsmedia blijkt dat chatbots zoals ChatGPT en Gemini regelmatig de mist in gaan bij vragen over actuele nieuwsfeiten.
Chatbots zoals ChatGPT worden voor diverse doeleinden gebruikt. Uit onderzoek eerder dit jaar door Reuters en Oxford University blijkt dat voornamelijk jongere mensen deze tools ook inzetten om het nieuws te volgen. Maar AI-chatbots tonen zich allesbehalve een betrouwbare nieuwsbron.
Onder leiding van de Britse publieke omroep BBC en de Europese Radio-unie (EBU) peilden internationale nieuwsmedia naar de actuakennis van populaire chatbots. 19 nieuwsmedia uit Europa namen deel, waaronder VRTNWS en RTBF namens België, alsook twee Canadese en één Amerikaanse. De resultaten waren vrij verontrustend: op bijna de helft van de vragen gingen de vier ondervraagde chatbots wel ergens de mist in.
Gemini presteert het slechtst
4 veelgebruikte AI-chatbots werden op het rooster gelegd: ChatGPT, Gemini, Perplexity en Microsoft Copilot. In 45 procent van de antwoorden maakten de chatbots wel ergens een fout. De meest voorkomende fout was foutieve bronvermelding (31%), gevolgd door accuraatheid (20%) en onvoldoende context (14%). De chatbots gaven ofwel foute bronnen aan, of gaven geen correcte weergave van wat er in die bronnen te lezen stond.
Gemini is de negatieve uitschieter in het onderzoek, met een foutenpercentage van 76 procent. De drie andere chatbots zijn meer aan elkaar gewaagd, al maakt ook de ‘best presterende’ chatbot Perplexity in 31 procent van de gevallen een fout. Voor ChatGPT en Copilot bedraagt dat 36 en 37 procent. Aangezien beide chatbots op hetzelfde model gebouwd zijn, hoeft het niet te verbazen dat deze percentages quasi-identiek zijn.
Lopende feiten
Het onderzoek stelt vast dat chatbots sneller de mist ingaan wanneer het om nieuwsfeiten gaat die nog in volle ontwikkeling zijn, zoals oorlogen. Wanneer een nieuwsfeit ‘afgerond’ is, dan geven de chatbots over het algemeen correctere antwoorden. In vergelijking met een eerdere studie door BBC begin dit jaar scoorden de chatbots ook een tikkeltje beter, want toen bevatte nog meer dan de helft van de antwoorden fouten.
Actuele kennis was een groot manco in de eerste generaties van generatieve AI-chatbots, omdat ze getraind waren op datasets die enkele jaren achterliepen op de actualiteit. Dat hebben de bedrijven achter de chatbots proberen op te lossen door ze toegang te geven tot het internet. Toch blijkt er nog veel ruimte voor verbetering in het opzoeken en juist weergeven van actuele informatie. Je gaat dus best nog zelf op zoek naar nieuws dan hiervoor blind op ChatGPT te vertrouwen.
