DeepMind van Google ontwikkelde een AI-model dat aparte voorwerpen herkent en complexe taken kan uitvoeren.
RT-2 is de nieuwste vooruitgang op vlak van robotica bij Google DeepMind. Deze nieuwste creatie is een VLA-model, wat staat voor vision-language-action. Het systeem kan complexe taken uitvoeren en specifieke voorwerpen herkennen.
Nieuw model
Een VLA-model leert zowel van data die van het internet zijn geschraapt, als van roboticadata. Het zet die informatie om naar gerichte acties. Via VLM’s of vision-language models leert het systeem beelden en tekstprompts en dat combineert RT-2 met data van de minder complexe roboticasystemen van RT-1.
Op deze manier leert RT-2 om zelf instructies te begrijpen en laten uitvoeren door een robot, zonder dat het systeem daar specifiek voor is getraind. Het systeem behoudt bovendien de mogelijkheid om te blijven bijleren met online data.
Met al die informatie kan RT-2 nieuwe commando’s interpreteren en beantwoorden en tot op zekere hoogte redeneren, zoals beseffen in wat voor categorie een bepaald voorwerp thuishoort. Daar kan het systeem op verder bouwen, bijvoorbeeld om correct in te schatten waarvoor een specifiek voorwerp het best geschikt is.
Een praktische toepassing kan zijn dat het systeem traint om afval te herkennen en een robot dat te laten oppikken. Een robot die dat kan, het doet bij animatiefans ongetwijfeld een belletje rinkelen.
Praktisch
De roboticadata waarmee RT-2 is getraind, komt van anderhalf jaar aan demonstraties met zeventien RT-1-modellen. Dat systeem leerde om taken en objectherkenning te combineren. Bovendien bouwde DeepMind verder op eerdere AI-modellen als PaLI-X en PaLM-E om de capaciteiten van RT-2 te verbeteren.
Om het systeem te leren hoe een robot te controleren, worden acties ingevoerd als tokens, gelijkaardig aan taaltokens van LLM’s. Die tokens worden dan aan elkaar gelinkt en aan het systeem gevoed.
DeepMind voerde meer dan zesduizend tests uit met RT-2-modellen en zag drie maal zoveel succes als bij RT-1. Bij taken die volledig nieuw waren voor het systeem was er een succesratio van 62 procent.
Met RT-2 is het voor Google duidelijk dat een VLM kan transformeren in een VLA, met de nodige training en data. Het bedrijf ziet dit niet alleen als een verbetering van VLM’s, maar als een beloftevolle stap richting een fysieke robot die kan redeneren en verschillende taken uitvoeren. Intussen werkt DeepMind ook aan een meer geavanceerde chatbot, Gemini.