Anthropic bereikt doorbraak in werking neurale netwerken

Het Amerikaanse AI-bedrijf Anthropic heeft aangekondigd dat het vorderingen heeft gemaakt in het begrijpen van artificiële neurale netwerken.

De AI-startup Anthropic heeft een doorbraak bereikt in zijn begrip over de werking van artificiële neurale netwerken. Dat kondigde het bedrijf aan met een uitgebreide blog.

De uitdaging

Zoals de meeste AI-modellen zijn neurale netwerken getraind met data. Omdat ze echter niet werden geprogrammeerd om bepaalde regels te volgen, kunnen zulke modellen zich op heel wat manieren gedragen. Anthropic begrijpt de berekeningen achter de training van de netwerken, maar niet hoe die de gedragingen beïnvloeden. Dit limiteert diagnoses, herstellingen en veiligheid.

lees ook

SAS Viya breidt uit met doe-het-zelfwerkbank voor AI-applicaties

Experimenten kunnen wel de activatie van elke neuron in een artificieel netwerk vastleggen. Zo kunnen onderzoekers die stimuleren of net stilleggen en het netwerk testen. Helaas hebben neuronen geen consistente invloed op het gedrag van netwerken. De activatie van een neuron kan per context iets heel anders betekenen.

Experiment

Anthropic bouwde machines om units (‘features’) te vinden die gelinkt zijn aan patronen van neuronactiveringen. Hiermee kunnen onderzoekers neurale netwerken opbreken in meer begrijpbare stukken. Ze bouwen er bovendien mee verder op eerder verkregen informatie.

Een laag met 512 neuronen is zo opgebroken in vierduizend units met verschillende betekenissen. Die zijn meestal onzichtbaar bij de individuele activering van neuronen. Dat gebeurde in een transformer language model.

De units bleken veel meer te interpreteren dan aparte neuronen.

Een LLM genereerde vervolgens omschrijvingen van de units. Die is vergeleken met de mogelijkheid van een ander model om met die omschrijving de activatie van een unit te voorspellen. Daarin deden aparte neuronen het opnieuw veel minder. Een unit artificieel activeren veranderde een model op voorspelbare wijze.

Een set van lerende units bleek veelal universeel tussen verschillende modellen, dus de onderzoekers durven ze nu te generaliseren.

De resultaten zijn nog meer goed nieuws voor Anthropic, na de verwachte miljardeninvestering van Google. Dat is dan nog nadat Amazon al een keer hetzelfde deed.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.
terug naar home