Op de RSA-conferentie in 2018 sprak Maria-Irina Nicolae, onderzoeker op het gebied van machine learning bij IBM, met TechRepublic over de lancering van een nieuwe tool om bedrijven te helpen bij het testen en verbeteren van hun AI. Deze Adversarial Robustness Toolbox is bedoeld om ontwikkelaars en onderzoekers te helpen bij het werken aan contradictoire aanvallen tegen machine learning.
De Adversarial Robustness Toolbox bevat methoden om aanvallen tegen te gaan en verdedigingsmethoden, samen met enkele metrics voor het evalueren van de robuustheid van machine learning-modellen. “We hadden vandaag een demo die volledig afhankelijk is van functies die je kunt vinden in de Adversarial Robustness Toolbox,” vertelde Nicolae. “Wat we laten zien, is hoe een aanvaller kan knoeien met een invoer of met een afbeelding voor een machine learning-model. In dit geval waren we op zoek naar een visuele herkenningstaak.”
“Het machine learning-model probeert te detecteren wat de objecten in een afbeelding zijn. De aanvaller zal enkele zeer kleine ruisverstoringen introduceren in het beeld dat zelfs onzichtbaar is voor mensen. En door deze kleine verstoringen zal het machine learning-model zich op een onverwachte manier gedragen. In dit geval zal het wijzen naar het verkeerde object in de afbeelding.”
Volgens Nicolae is dit een belangrijk probleem voor elk systeem dat AI gebruikt om beslissingen te nemen omdat als iemand in staat is om te knoeien met de beslissing van het model dit een vervolgeffect zal hebben. “Dit soort aanvallen noemen we een evasion attack waarbij iemand de input van een AI die in productie is en al werkt, aantast,” vervolgde Nicolae.
“Stel dat de aanvaller bijvoorbeeld anoniem wil blijven en niet wil worden gedetecteerd, dan vormt dat het evasion deel. Andere soorten aanvallen tegen modellen voor machine learning omvatten het knoeien met de gegevens die zijn gebruikt om het model te trainen. Dus wanneer dit gebeurt, is de AI gecompromitteerd en dit is wat we een poisoning attack noemen.” De Adversarial Robustness Toolbox zal methoden bevatten om beide soorten aanvallen tegen te gaan.