AI-modellen getraind met AI-gegenereerde content leveren onbruikbare output

AI-modellen die getraind worden op basis van door AI-gegenereerde content kunnen leiden tot modelinstorting, volgens een onderzoek van Oxford University. De opeenstapeling van fouten en misvattingen in de AI-gegenereerde content van eerdere generaties leidt tot onbruikbare outputs.

Grote AI-bedrijven kopen massaal door mensen gegenereerde data op om hun AI-modellen te trainen. Deze data zijn eindig en het web wordt stilaan overspoeld met door AI-gegenereerde content. Hoe moeten AI-modellen in de toekomst getraind worden, als het web gedomineerd wordt met door AI-gegenereerde data? Onderzoekers van de Oxford Universiteit publiceerde recent een onderzoeksartikel in Nature, die een antwoord tracht te geven op deze vraag.

Het onderzoek suggereert dat algoritmisch gegenereerde content kan leiden tot zogenaamde modelinstortingen, waarbij nieuwe AI-modellen geen bruikbare outputs meer kunnen genereren. Het onderzoek werd geleid door Ilia Shumailov, een computerwetenschapper aan de Universiteit van Oxford. Het project werd uitgevoerd in samenwerking met collega’s van andere academische instellingen.

AI gegenereerde trainingsdata

In het onderzoeksartikel met als titel ‘AI models collapse when trained on recursively generated data’, trachten onderzoekers na te gaan of de verspreiding van algoritmisch gegenereerde webinhoud grote taalmodellen minder bruikbaar kunnen maken.

Hoe fouten opsporen in LLM’s? Nog een LLM gebruiken

Ontwikkelaars gebruiken doorgaans webpagina’s om hun Large Language Models (LLM) te trainen. In een wereld waarin AI-gegenereerde content stilaan de bovenhand neemt, staat het web vol met AI-gegenereerde informatie. Die content zal in de toekomst gebruikt moeten worden als trainingsdata voor LLM’s.

Modelinstorting

Het onderzoeksartikel suggereert dat een opstapeling van fouten en misvattingen door eerdere generaties van modellen, ertoe kan leiden dat nieuwe AI-modellen hun nauwkeurigheid verliezen, of zelfs ‘instorten’.

LLM’s zoeken hallucinaties in LLM’s: “vuur met vuur bestrijden”

Technologiebedrijven hanteren reeds een techniek waarbij AI gegenereerde content een ‘watermerk’ krijgt, zodat deze uitgesloten kunnen worden van trainingsdatasets. De bijhorende coördinatie tussen de technologiebedrijven stelt deze oplossing voor grote uitdagingen, waardoor het waarschijnlijk commercieel niet haalbaar is. Volgens de conclusie van het onderzoek moeten er nieuwe stappen ondernomen worden om hoogwaardige content beschikbaar te houden voor AI-ontwikkelingsprojecten.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

AI-modellen getraind met AI-gegenereerde content leveren onbruikbare output

AI gegenereerde trainingsdata

Hoe fouten opsporen in LLM’s? Nog een LLM gebruiken

Modelinstorting

LLM’s zoeken hallucinaties in LLM’s: “vuur met vuur bestrijden”

gerelateerd nieuws

nieuwsbrief