OpenAI lanceert een nieuw taalmodel dat menselijke AI-trainers helpt om fouten op te sporen.
Taalmodellen worden getraind door menselijke AI-trainers om zo de kwaliteit van de antwoorden op te krikken. Naarmate dergelijke taalmodellen capabeler worden, overstijgen ze de kennis van het menselijke brein en is het voor AI-trainers moeilijker om gebrekkige antwoorden te identificeren.
OpenAI trainde een nieuw model CriticGPT, gebaseerd op GPT-4, dat AI-trainers moet bijstaan in het opsporen van fouten bij ChatGPT. “We ontdekten dat wanneer mensen hulp krijgen van CriticGPT om ChatGPT-code te beoordelen, ze 60 procent van de tijd beter presteren dan mensen zonder hulp”, aldus de start-up.
Menselijke AI-trainers
OpenAI zet menselijke AI-trainers in om zijn taalmodellen te trainen en codefouten van ChatGPT op te sporen. Onder het motto “fouten maken is menselijk”, ontwikkelde OpenAI een nieuw AI-model CriticGPT, die de menselijke trainers moeten helpen voor het geval zij bepaalde fouten niet opmerken. OpenAI’s superlab, dat gesteund wordt door Microsoft, publiceerde donderdag een paper met de titel “LLM Critics Help Catch LLM Bugs” waarin de methode in detail staat uitgelegd.
Vuur met vuur
Generatieve AI-modellen zoals de recent gelanceerde GPT-4o worden getraind op grote hoeveelheden data en onderworpen aan een verfijningsproces dat Reinforcement Learning from Human Feedback (RLHF) wordt genoemd. Menselijke trainers gaan dan de interactie aan met LLM’s om hun antwoorden op verschillende vragen te annoteren. Het model moet zo leren welk antwoord de voorkeur geniet.
Aangezien de kennis van dergelijke taalmodellen soms de menselijke kennis overstijgt, vond OpenAI er niets beter op dan nog een taalmodel te ontwikkelen die het andere taalmodel gaat controleren. Dit CriticGPT-model zal de menselijke trainers bijstaan en de generatieve reacties van het taalmodel bekritiseren.
Hallucinaties
Uit het artikel blijkt dat “LLM’s aanzienlijk meer ingevoegde bugs opvangen dan gekwalificeerde mensen die voor codebeoordeling hebben betaald, en bovendien dat modelkritiek in meer dan 80 procent van de gevallen de voorkeur heeft boven menselijke kritiek.” Wanneer het gaat over hallucinaties, hebben menselijke trainers in samenwerking met CriticGPT een lager aantal hallucinaties dan alleen CriticGPT-reacties, al is dat foutenpercentage nog steeds hoger dan wanneer een menselijke trainer alleen had moeten reageren.
“Helaas is het niet duidelijk wat de juiste afweging is tussen hallucinaties en bugdetectie voor een algeheel RLHF-systeem dat kritiek gebruikt om de prestaties van modellen te verbeteren”, geeft het artikel toe.