Deepmind heeft deze zomer in stilte een nieuwe mijlpaal in de ontwikkeling van AI bereikt. De zusteronderneming van Google heeft met de ontwikkeling van zijn Impala-architectuur een belangrijke stap gezet in de richting van een ‘algemene artificiële intelligentie’.
Artificiële intelligenties worden vandaag ontwikkeld met een specifieke taak voor ogen. Hoewel de onderliggende architectuur in principe voor verschillende doeleinden kan worden gebruikt, moet het algoritme telkens vanaf nul opnieuw door de mens worden getraind om een nieuwe taak te kunnen uitvoeren. Een algemene artificiële intelligentie, ofwel Artificial General Intelligence (AGI), is een algoritme dat zichzelf nieuwe taken kan aanleren, zonder tussenkomst van de mens.
Wat daarbij belangrijk is, is dat zo’n AGI bepaalde knowhow uit het leerproces van de ene taak kan generaliseren en toepassen op een nieuwe taak. Zo traint het algoritme zichzelf om sneller nieuwe vaardigheden aan te leren, net zoals de mens dat doet. Het wordt beschouwd als de heilige graal van AI en biedt potentieel voor de ontwikkeling van een technologische singulariteit.
Lees dit: Jonathan Berte: “Artificiële intelligentie is een storm die op ons afkomt”
Met Impala heeft Deepmind zijn grootste stap tot nog toe in die richting gezet. Impala is een enkel AI-algoritme dat dertig verschillende uitdagende taken kan leren, die verschillende aspecten van leren, geheugen en navigatie vereisen.
Reinforcement learning
Het algoritme maakt daarvoor gebruik van reinforcement learning. Dat is een leermethode die de manier nabootst waarop mensen intuïtieve vaardigheden aanleren zoals lopen of fietsen. De techniek werd onder meer al door Deepmind gebruikt voor het trainen van AlphaGo. Reinforcement learning alleen is evenwel niet genoeg om ervoor te zorgen dat het algoritme knowhow kan overdragen naar een nieuwe taak. Daarvoor moet een kritische actor worden toegevoegd.
In zogenaamd actor-critic reinforcement learning wordt het aanleren en uitvoeren van een taak aan twee verschillende neurale netwerken toegewezen. Het ene netwerk is daarbij de kritische actor die het andere netwerk evalueert. Deepmind verbeterde deze techniek door een nieuw off-policy correctie-algoritme met de naam V-trace toe te voegen, waardoor het leerproces efficiënter wordt en beter in staat is om knowhow tussen taken over te dragen.
“We geloven dat Impala een eenvoudig, maar toch schaalbaar en robuust kader biedt voor het bouwen van betere deep reinforcement learning agents en het potentieel heeft om onderzoek naar nieuwe uitdagingen mogelijk te maken”, besluiten de onderzoekers in hun paper.