Waarom privacy geen hinderpaal is voor innovatie

Op algemene aanvraag is het opmerkelijke programma van Jan Leyers op de Belgische tv-zender Canvas na tien jaar radiostilte naar het scherm teruggekeerd. Of eigenlijk televisiestilte om correct te zijn. Ik was vereerd om één van de eerste gasten te mogen zijn in de eerste aflevering, die het thema privacy behandelde. Maar zelfs in een programma met zo’n toegevoegde waarde is er geen tijd om diep genoeg op de kwestie in te gaan, opdat we deze volledig zouden begrijpen.

Ik heb op het einde van die aflevering zelf de harde wetten van televisie moeten ondervinden. Zo was ik aan het uitleggen dat er verschillende manieren zijn om de privacy te verzekeren zonder dat dit ten koste van innovatie hoeft te gaan. Helaas kregen we te horen dat er niet genoeg tijd was om dieper op dat idee in te gaan. Maar dat is wat ik zo leuk vind aan de variëteit in de hedendaagse media: ik kan deze opties hier vandaag met jullie delen.

De volgende zijn eigenlijk mijn drie favoriete methoden om privacy te combineren met innovatief gebruik van data.

1. Synthetisch genereren van data

Synthetische data zijn door computers gegenereerde gegevens die echte data nabootsen; met andere woorden, data die door computers zijn gemaakt, en niet door mensen. Ze zijn dus niet het resultaat van een reële rondvraag of experiment, en ze verwijzen ook niet naar bestaande individuen.

Aanvankelijk werden deze data ontwikkeld om algoritmes met betrekking tot Machine Learning te verbeteren. Tegenwoordig beginnen we te begrijpen dat hun doel veel verder kan reiken, meer bepaald om beveiligings- en privacyproblemen bij echte datasets te omzeilen, wanneer deze gegevens niet kunnen worden gebruikt of verworven voor leerdoeleinden. Typische voorbeelden zijn data uit de medische en militaire sector, die doorgaans heel gevoelig zijn. Als je hier nog dieper op wilt ingaan en meer details wilt, dan verwijs ik jou graag door naar deze pagina.

“Dit zijn mijn drie favoriete methoden om privacy te combineren met innovatief gebruik van data.”

Synthetische data hebben echter wel hun beperkingen. Terwijl synthetische data kunnen worden gebruikt om veel eigenschappen van authentieke data na te bootsen, kunnen ze de originele inhoud niet exact kopiëren. Modellen zoeken naar gemeenschappelijke trends in de originele data wanneer ze synthetische data vormen, en op hun beurt kunnen ze mogelijk niet de grensgevallen van die originele data dekken. In sommige situaties hoeft dit geen kritiek probleem te zijn. Maar in een aantal scenario’s van systeemtraining kan dit de mogelijkheden aanzienlijk beperken en een negatieve invloed op de accuraatheid van het resultaat hebben. Dat is iets waar we ons bewust van moeten zijn.

2. Federatief leren

Het lijdt geen twijfel dat zelfleren een krachtig hulpmiddel voor innovatie is. Maar wanneer een model training nodig heeft en met privégegevens wordt gevoed, kan datacentralisatie een serieus probleem worden. Beschermers van de privacy kunnen zich verzetten tegen het ideaal van het bundelen van gegevens die kunnen leiden tot het identificeren van individuen. Als die bundeling door één enkele partij gebeurt, moet iedereen deze datasets volledig aan deze partij toevertrouwen. Maar als de data niet worden gecentraliseerd, kunnen de leereffecten aanzienlijk worden beperkt.

Dat is waar federatief leren nuttig wordt. Federatief leren is oorspronkelijk door onderzoekers van Google voorgesteld in een paper uit 2016. Ze beschrijven federatief leren als een alternatief voor gecentraliseerde AI-training: een gedeeld globaal model wordt getraind onder de coördinatie van een centrale server en gebruikt gegevens van een federatie van deelnemende apparaten. In dat model kunnen de verschillende apparaten bijdragen aan de training en de kennis van het model, terwijl de meeste data in het toestel bewaard blijven.

Google beschrijft deze aanpak tot federatief leren in vier eenvoudige stappen:

Een subset van bestaande clients wordt op verschillende apparaten geselecteerd, waarbij elk het huidige model downloadt.
Elke client in de subset berekent een bijgewerkt model op basis van lokale data.
De modelupdates worden vanaf de clientapparaten naar de server verzonden.
De server verzamelt deze modellen (meestal door middeling) om een verbeterd globaal model te construeren.

Federatief leren combineert duidelijk het beste van beide werelden: het verdeelt de kwaliteit van kennis over een groot aantal apparaten en vermijdt zo de noodzaak om de gebruikte gegevens voor de optimalisatie en training van het model, te centraliseren. Het kan dus de kwaliteit van gecentraliseerde machine learning-modellen verbeteren, terwijl de privacy van de trainingsdatasets behouden blijft.

“Net als elke andere softwarearchitectuur brengt decentralisatie uitdagingen op het vlak van werkcoördinatie, beheer en opvolging met zich mee.”

Toch komt federatief leren niet zonder problemen. Net als elke andere softwarearchitectuur brengt decentralisatie uitdagingen op het vlak van werkcoördinatie, beheer en opvolging met zich mee. Federatief leren moet daarom beschouwd worden als een interessante aanvulling, eerder dan als een alternatief voor de traditionele gecentraliseerde leerarchitecturen.

3. Differentiële Privacy

Differentiële privacy kan problemen oplossen die optreden wanneer het gebruik van gevoelige data nodig is, en wanneer het niet volstaat om de data anoniem te maken. In 2007 bracht Netflix bijvoorbeeld een dataset van hun gebruikersbeoordelingen uit, als onderdeel van een wedstrijd om te zien of iemand hun collaboratief filteringsalgoritme kan overtreffen. De dataset bevatte geen persoonlijk identificeerbare informatie, maar de onderzoekers waren toch nog in staat om de privacy te schenden; ze hebben 99% van de persoonlijke informatie die uit de dataset was verwijderd, hersteld. In dit geval hebben de onderzoekers de privacy geschonden met behulp van aanvullende informatie.

Differentiële privacy biedt in deze context een oplossing. Differentieel private algoritmes zijn bestand tegen adaptieve aanvallen die gebruik maken van aanvullende informatie. Deze algoritmes zijn gebaseerd op het opnemen van willekeurige ruis in de mix, zodat alles wat een tegenstander ontvangt, luidruchtig en onnauwkeurig wordt, en het dus veel moeilijker is om de privacy te schenden (als het überhaupt mogelijk is). Deze techniek wordt onder andere bij Google en Apple gebruikt. Een differentiële privacy-methode verzekert de anonimiteit van ieder lid in de groep gedurende het gehele proces voor het ophalen van informatie.

“Differentieel private algoritmes zijn bestand tegen adaptieve aanvallen die gebruik maken van aanvullende informatie.”

De belangrijke opmerking bij deze aanpak is echter dat je nog steeds een afweging moet maken tussen het lekken van basisvoorzieningen en informatie. Hoe meer je individuele privacy beschermt, hoe minder nauwkeurig je samengevoegde statistieken over de verzameling kunt berekenen.

De conclusie is volgens mij dat alleen de zon voor niets opgaat. Ik hoop echter dat alle belanghebbenden die betrokken zijn bij AI-bedrijven hun inspanningen kunnen voortzetten om deze technische oplossingen te testen en misschien zelfs een andere oplossing ontwikkelen, waardoor innovatie en privacy hand in hand kunnen gaan.

Ik zou nog nog meer mechanismen kunnen beschrijven, zoals ‘eerlijke algoritmes’, die zullen bijdragen aan een omgeving die volledig nieuwe innovaties kan verkennen zonder afbreuk te doen aan de privacy van de betrokkenen.

Benieuwd naar meer? Dan heb je een reden gevonden om naar het Curiosity Forum te komen op 13 juni! Bekijk het programma en registreer nu.

Dit is een ingezonden bijdrage van Mieke De Ketelaere, externe AI experte voor SAS. Via deze link vind je meer informatie over de oplossingen van het bedrijf.