AI-modellen die getraind worden op basis van door AI-gegenereerde content kunnen leiden tot modelinstorting, volgens een onderzoek van Oxford University. De opeenstapeling van fouten en misvattingen in de AI-gegenereerde content van eerdere generaties leidt tot onbruikbare outputs.
Grote AI-bedrijven kopen massaal door mensen gegenereerde data op om hun AI-modellen te trainen. Deze data zijn eindig en het web wordt stilaan overspoeld met door AI-gegenereerde content. Hoe moeten AI-modellen in de toekomst getraind worden, als het web gedomineerd wordt met door AI-gegenereerde data? Onderzoekers van de Oxford Universiteit publiceerde recent een onderzoeksartikel in Nature, die een antwoord tracht te geven op deze vraag.
Het onderzoek suggereert dat algoritmisch gegenereerde content kan leiden tot zogenaamde modelinstortingen, waarbij nieuwe AI-modellen geen bruikbare outputs meer kunnen genereren. Het onderzoek werd geleid door Ilia Shumailov, een computerwetenschapper aan de Universiteit van Oxford. Het project werd uitgevoerd in samenwerking met collega’s van andere academische instellingen.
AI gegenereerde trainingsdata
In het onderzoeksartikel met als titel ‘AI models collapse when trained on recursively generated data’, trachten onderzoekers na te gaan of de verspreiding van algoritmisch gegenereerde webinhoud grote taalmodellen minder bruikbaar kunnen maken.
lees ook
Hoe fouten opsporen in LLM’s? Nog een LLM gebruiken
Ontwikkelaars gebruiken doorgaans webpagina’s om hun Large Language Models (LLM) te trainen. In een wereld waarin AI-gegenereerde content stilaan de bovenhand neemt, staat het web vol met AI-gegenereerde informatie. Die content zal in de toekomst gebruikt moeten worden als trainingsdata voor LLM’s.
Modelinstorting
Het onderzoeksartikel suggereert dat een opstapeling van fouten en misvattingen door eerdere generaties van modellen, ertoe kan leiden dat nieuwe AI-modellen hun nauwkeurigheid verliezen, of zelfs ‘instorten’.
lees ook
LLM’s zoeken hallucinaties in LLM’s: “vuur met vuur bestrijden”
Technologiebedrijven hanteren reeds een techniek waarbij AI gegenereerde content een ‘watermerk’ krijgt, zodat deze uitgesloten kunnen worden van trainingsdatasets. De bijhorende coördinatie tussen de technologiebedrijven stelt deze oplossing voor grote uitdagingen, waardoor het waarschijnlijk commercieel niet haalbaar is. Volgens de conclusie van het onderzoek moeten er nieuwe stappen ondernomen worden om hoogwaardige content beschikbaar te houden voor AI-ontwikkelingsprojecten.