Google AI voorspelt voortaan het beste ML-model

Artificiële intelligentie (AI)-onderzoekers van Google hebben een AI ontworpen die voorspelt welke machine learning-modellen de beste resultaten opleveren. De off-policy classificatie (OPC) test de prestaties van AI-gedreven agents door evaluatie als een classificatieprobleem te beschouwen.

Dit maakten de onderzoekers bekend in de publicatie Off-Policy Evaluation via Off-Policy Classification. Het AI-onderzoeksteam benadrukt dat hun aanpak werkt met beeldinvoer en schaalt handig tot taken waaronder vision-based robotinteracties, aldus Venturebeat.

OPC is een variant van reinforcement learning, waarbij beloningen worden gebruikt om het softwarebeleid richting doelen te sturen.

Leren van oude data

“Volledig off-policy reinforcement learning is een variant waarbij een agent volledig leert van oude data, wat aantrekkelijk is omdat het model-iteratie mogelijk maakt zonder een fysieke robot. Met volledig off-policy RL kan men verschillende modellen trainen op dezelfde vaste dataset, zoals verzameld door eerdere agenten. Vervolgens kan het beste model worden geselecteerd”, legt Google software engineer, Alexa Irpan, uit.

Volgens de onderzoekers was het een uitdagende weg alvorens te komen tot de ontwikkelde OPC. Dit gezien het evalueren van een AI-modeltraining niet mogelijk zou zijn. Ook zou de zogeheten ground-truth-evaluatie over het algemeen te inefficiënt zijn bij methoden, die het evalueren van een groot aantal modellen vereist.

De onderzoekers hebben dit nu met behulp van OPC weten op te lossen. Ze veronderstellen dat taken weinig tot geen willekeur hebben in de manier waarop staten veranderen. Bovendien veronderstellen ze dat agents aan het einde van experimentele onderzoeken slagen of falen.

Q-learning-algoritme

Verder maakt OPC gebruik van een zogenaamde Q-functie om de toekomstige totale beloningen van acties te schatten. Iets dat is aangeleerd met een Q-learning-algoritme. Agenten kiezen acties met de grootste geprojecteerde beloningen, waarvan de prestaties worden gemeten aan de hand van hoe vaak de geselecteerde acties effectief zijn.

Iets wat weer afhankelijk is van hoe goed de Q-functie acties correct classificeert als zijnde effectief versus catastrofaal. De nauwkeurigheid van classificaties fungeert als een off-policy evaluatiescore.

SoftOP

Het team heeft de machines getraind middels simulatie met behulp van volledig off-policy reinforcement learning. Deze worden vervolgens geëvalueerd met behulp van de off-policy scores, die zijn getabelleerd uit eerdere real-world gegevens. Zo maakt het team onder meer melding van dat bij een robot grijptaak een variant van OPC, SoftOPC, het best presteerde in het voorspellen van het uiteindelijke slagingspercentage.

15 modellen van verschillende robuustheid, waarvan 7 geheel in simulatie zijn getraind, genereerden volgens het team SoftOPC-scores. Deze zouden nauw gecorreleerd zijn met echt succes en ‘significant betrouwbaarder’ zijn dan basis lijnmethoden.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Google AI voorspelt voortaan het beste ML-model

Leren van oude data

Q-learning-algoritme

SoftOP

gerelateerd nieuws

nieuwsbrief