Wetenschappers van Google Brain en DeepMind richten hun aandacht op het kaartspel Hanabi. Het open source framework ‘Hanabi Learning Environment’ is speciaal ontworpen om te testen hoe goed algoritmen kunnen samenwerken met andere AI’s, of met de mens.
Hanabi werd in 2013 nog uitgeroepen tot ‘Spiel des Jahres’, een prijs voor bord- en kaartspellen die uitmuntendheid in het spelontwerp beloont. Spelers krijgen in totaal vijf speelkaarten aangereikt, maar zien deze zelf niet. Wel weten ze welke kaarten hun tegenstanders hebben. Elke beurt moeten ze één van drie acties uitvoeren: Informatie geven over de kleur of het nummer van kaarten in de hand van een andere speler, een kaart weggooien of een kaart spelen die óf een ‘1’ is in een nog niet gespeelde kleur óf het volgende nummer is in een al gespeelde kleur.
Het doel is om samen de hoogste score te behalen op basis van de waarde van de hoogste kaarten in elke gespeelde reeks. Dat is uitdagender dan het klinkt. Spelers hebben acht informatietokens ter beschikking om informatie over kaarten te onthullen. Die kunnen alleen worden aangevuld door een kaart weg te gooien of met succes een ‘5’ te spelen in een willekeurige reeks. Een fout gespeelde kaart verbruikt één van de drie beschikbare lont-tokens, die de spelers onmiddellijk doen verliezen wanneer ze zijn opgebruikt.
‘Bedrieglijk ingewikkeld’
De wetenschappers noemen Hanabi dan ook ‘bedrieglijk ingewikkeld’. De deelname van twee tot vijf personen vereist niet alleen coöperatieve gameplay, maar ook het vermogen om te kunnen redeneren over de intenties van een tegenstander. Het is onmogelijk om de onzekerheid over een kaart volledig weg te werken, zonder impliciete informatie af te leiden uit de keuzes van andere spelers. Dat maakt het spel volgens de onderzoekers zo interessant om een artificiële intelligentie aan te toetsen.
“Wij geloven dat de ontwikkeling van nieuwe technieken die artificiële agents kunnen voorzien van het vermogen om zich in een ander te verplaatsen niet alleen van belang is voor het kaartspel Hanabi, maar ook in samenwerkingsinspanningen in het algemeen, en vooral dan met menselijke partners”, klinkt het in een onderzoekspaper die de wetenschappers recent publiceerden.
Bovendien verbindt deze uitdaging volgens de onderzoekers research uit verschillende domeinen, waaronder reinforcement learning, game theory en emergent communication.
Vanuit die gedachten werd de Hanabi Learning Environment beschikbaar gesteld, een Python- en C++-interface, die qua architectuur vergelijkbaar zou zijn met OpenAI’s gelijknamige OpenAI Gym. Het framework bevat twee uitdagingen. De eerste is self-play learning, dat gericht is op het behalen van een zo hoog mogelijke score zonder de hulp van andere AI-gestuurde spelers. Daarnaast zijn ad-hoc teams erop gericht om een AI te testen en trainen die in staat is om samen te spelen met andere AI- of menselijke spelers.
Nieuwe technieken
In experimenten met geavanceerde algoritmen die werden getraind op basis van reinforcement learning stelden de onderzoekers vast dat de meeste systemen er niet in slaagden om manueel gecodeerde bots in self-play te verslaan. Ze slaagden er ook niet in om samen te werken in de ad-hoc uitdaging. Er is dus nog heel wat ruimte voor verbetering in dit domein.
“Nieuwe technieken zijn vereist om de kloof te dichten. De ’theory of mind’ lijkt een belangrijke rol te spelen bij Hanabi én onze omgeving. Hopelijk gaan we de manier hoe agents zoiets kunnen ontwikkelen op den duur beter begrijpen”, belsuiten de onderzoekers in hun paper.