Hoe fouten opsporen in LLM’s? Nog een LLM gebruiken

OpenAI lanceert een nieuw taalmodel dat menselijke AI-trainers helpt om fouten op te sporen.

Taalmodellen worden getraind door menselijke AI-trainers om zo de kwaliteit van de antwoorden op te krikken. Naarmate dergelijke taalmodellen capabeler worden, overstijgen ze de kennis van het menselijke brein en is het voor AI-trainers moeilijker om gebrekkige antwoorden te identificeren.

OpenAI trainde een nieuw model CriticGPT, gebaseerd op GPT-4, dat AI-trainers moet bijstaan in het opsporen van fouten bij ChatGPT. “We ontdekten dat wanneer mensen hulp krijgen van CriticGPT om ChatGPT-code te beoordelen, ze 60 procent van de tijd beter presteren dan mensen zonder hulp”, aldus de start-up.

Menselijke AI-trainers

OpenAI zet menselijke AI-trainers in om zijn taalmodellen te trainen en codefouten van ChatGPT op te sporen. Onder het motto “fouten maken is menselijk”, ontwikkelde OpenAI een nieuw AI-model CriticGPT, die de menselijke trainers moeten helpen voor het geval zij bepaalde fouten niet opmerken. OpenAI’s superlab, dat gesteund wordt door Microsoft, publiceerde donderdag een paper met de titel “LLM Critics Help Catch LLM Bugs” waarin de methode in detail staat uitgelegd.

Vuur met vuur

Generatieve AI-modellen zoals de recent gelanceerde GPT-4o worden getraind op grote hoeveelheden data en onderworpen aan een verfijningsproces dat Reinforcement Learning from Human Feedback (RLHF) wordt genoemd. Menselijke trainers gaan dan de interactie aan met LLM’s om hun antwoorden op verschillende vragen te annoteren. Het model moet zo leren welk antwoord de voorkeur geniet.

Aangezien de kennis van dergelijke taalmodellen soms de menselijke kennis overstijgt, vond OpenAI er niets beter op dan nog een taalmodel te ontwikkelen die het andere taalmodel gaat controleren. Dit CriticGPT-model zal de menselijke trainers bijstaan en de generatieve reacties van het taalmodel bekritiseren.

Hallucinaties

Uit het artikel blijkt dat “LLM’s aanzienlijk meer ingevoegde bugs opvangen dan gekwalificeerde mensen die voor codebeoordeling hebben betaald, en bovendien dat modelkritiek in meer dan 80 procent van de gevallen de voorkeur heeft boven menselijke kritiek.” Wanneer het gaat over hallucinaties, hebben menselijke trainers in samenwerking met CriticGPT een lager aantal hallucinaties dan alleen CriticGPT-reacties, al is dat foutenpercentage nog steeds hoger dan wanneer een menselijke trainer alleen had moeten reageren.

LLM’s zoeken hallucinaties in LLM’s: “vuur met vuur bestrijden”

“Helaas is het niet duidelijk wat de juiste afweging is tussen hallucinaties en bugdetectie voor een algeheel RLHF-systeem dat kritiek gebruikt om de prestaties van modellen te verbeteren”, geeft het artikel toe.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Hoe fouten opsporen in LLM’s? Nog een LLM gebruiken

Menselijke AI-trainers

Vuur met vuur

Hallucinaties

LLM’s zoeken hallucinaties in LLM’s: “vuur met vuur bestrijden”

gerelateerd nieuws

nieuwsbrief