LLM’s zoeken hallucinaties in LLM’s: “vuur met vuur bestrijden” 

Britse onderzoekers vonden een methode om hallucinaties in LLM’s op te sporen, door andere LLM’s het werk te laten evalueren. 

Onderzoekers van de Oxford University publiceerde in het Britse wetenschappelijke tijdschrift Nature een mogelijke manier om hallucinaties bij LLM’s op te sporen. Hallucinaties zijn foute beweringen van een taalmodel, die correct lijken te zijn. Dit veelvoorkomende probleem zet AI-bedrijven in een moeilijk parket. De strijd om een zo accuraat en juist mogelijk LLM te creëren is hiermee geopend. De onderzoekers bedachten een methode om hallucinaties op te sporen op basis van andere LLM’s. 

Hallucinaties

Hallucinaties zijn legitiem lijkende beweringen van taalmodellen die in feite onwaar zijn. Dit is één van de grootste tekortkomingen waar LLM’s vandaag mee te kampen hebben, wat de betrouwbaarheid van de antwoorden sterk naar beneden haalt.  

Britse onderzoekers zochten naar een manier om hallucinaties op te sporen in LLM’s, met behulp van LLM’s. Ze vonden een methode om de mate van hallucinaties te kwantificeren die door een LLM wordt gegenereerd. Daarnaast laten ze ook zien hoe correct de gegenereerde inhoud zou kunnen zijn.  

“Vuur met vuur bestrijden”

 Deze nieuwe methode stelt wetenschappers in staat om de zogenoemde ‘confabulaties’ op te sporen, wanneer LLM’s onnauwkeurige en willekeurige tekst creëren. Dit wordt gedaan door een ander LLM te gebruiken die het werk van de oorspronkelijke LLM gaat controleren, en vervolgens een andere die dat werk evalueert.

Een externe onderzoeker beschreef deze methode als “vuur met vuur bestrijden”. LLM’s zouden dus een belangrijk onderdeel kunnen zijn in het beheersen van hun eigen antwoorden. Het werk richt zich op de betekenissen en niet de woorden zelf. De outputs die gecontroleerd moesten worden, werden in een ander systeem geplaatst om op zoek te gaan naar parafrases.

Uit de studie bleek dat een derde LLM dat de outputs evalueerde, ongeveer op hetzelfde resultaat kwam als iemand anders dit zou doen. Het onderzoek werd gepubliceerd als paper “Detecting hallucinations in large language models using semantic entropy”, in het Britse wetenschappelijke tijdschrift Nature.  

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.