Google koppelt taalmodel aan robot met PaLM-E

.software
09.03.'23 09:51
2 min

Michaël Aussems

De robot-assistent komt weer een stukje dichterbij met PaLM-E: een AI-model dat taal interpreteert en omzet naar acties uitgevoerd in de fysieke wereld.

Geen apocalyptische robot-opstand zonder eerst robot slavernij, en Google zet met PaLM-E een belangrijke stap in die richting. De slimme robot-huishoudhulp komt dankzij dat AI-model dichterbij. PaLM-E is een complex model dat AI-computerzicht en taalbegrip combineert. In dit geval komt daar de controle over een robot-arm bij.

Van commando naar actie

Het model is in staat om een commando te vertalen naar concrete acties. Vraag je: “Haal de batterijen uit de schuif”, dan combineert PaLM-E die instructie met wat het in zijn omgeving ziet om zo tot een actieplan te komen. Een robot voert die actie vervolgens autonoom uit.

De robot in kwestie hoeft geen situatie-specifieke training te ondergaan. PaLM-E kijkt door de camera naar zijn omgeving en probeert op basis daarvan uit te werken wat er moet gebeuren. Er is dus geen voorafgaande menselijke tussenkomst nodig om de omgeving bijvoorbeeld te annoteren met spiekbriefjes.

Google geeft aan dat PaLM-E ook om kan met verandering. Haalt iemand de batterijen uit de schuif en komen die op de keukentafel terecht, dan kan het aangestuurde robotplatform ze daar gaan halen.

Redeneren

Het model is in staat om bescheiden redeneringen uit te voeren. Google geeft als voorbeeld iemand die zegt: “Ik heb mijn drankje gemorst, kan je me iets brengen om dat op te kuisen?” PaLM-E vertaalt dat in een sequentie van acties: zoek een spons, pak de spons, brengt de spons naar de gebruiker, leg de spons neer. Het model zou bovendien via positive transfer in staat zijn om bij te leren van vorige acties.

Google wil het model nu verder uitwerken en kijkt naar toepassingen binnen automatisering thuis, maar ook in de industrie.