AI-modellen leren het best van andere AI-modellen

Training van nieuwe AI-modellen verloopt nauwkeuriger wanneer de trainingsdata op zijn beurt gegenereerd is door een ander AI-model, in contrast met echte gegevens.

Een generatief AI-model trainen doe je best met data gegenereerd door een ander AI-model. Dat concludeerden onderzoekers van MIT en Google. Ze focusten zich op modellen die beelden kunnen genereren. Dergelijke modellen worden getraind aan de hand van enorme datasets met daarin gelabelde beelden. Enkel door veel prenten te bekijken waarop katten staan, leert een AI-model hoe een kat er uitziet. Traditioneel komt de trainingsdata uit het echte leven. Onderzoekers gaan met andere woorden aan de slag met echte foto’s.

Leren van een AI

De researchers ontdekten nu dat dat niet de beste methode is. Vandaag bestaan er al goede generatieve AI-modellen die prenten kunnen genereren. De output van die modellen blijkt beter geschikt om nieuwe AI-systemen te trainen. AI’s op de schoolbanken krijgen met andere woorden liefst les van andere, meer ervaren AI’s.

De onderzoekers trainden een model met twintig miljoen beelden gegenereerd door AI en zitten dat tegenover een ander model dat zijn kennis had vergaard aan de hand van vijftig miljoen echte prenten. Hoewel de dataset met synthetische beelden minder dan half zo groot was, presteerde het model na training beter.

Meer details

De synthetische dataset kan verschillende beelden bevatten die de uitkomst zijn van dezelfde prompt gegeven aan het bestaande AI-model. Zo ontstaan er verschillende correcte prenten die bij exact dezelfde omschrijving passen, wat er volgens de onderzoekers voor zorgt dat het lerende model meer inzicht kan verwerven.

De onderzoekers nuanceren hun bevindingen wel een beetje. Zo brengt training met enkel synthetische beelden z’n eigen uitdagingen met zich mee. Die hebben immers een lagere resolutie, en zijn gebonden door de beperkingen van het originele model. In de toekomst verwachten de wetenschappers van Google en MIT dat training door beide types van dataset de norm wordt.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.