Hoe hou je je data vers? Kwaliteit heeft een houdbaarheidsdatum

Zonder data van goede kwaliteit, geen correcte inzichten of voorspellingen. Datakwaliteit onderhouden is nochtans een flinke klus, horen we bij Smals, waar extra aandacht wordt besteed aan de voortdurende kwaliteit van gegevens. Een database die vandaag klopt, is morgen misschien al gedateerd.

Data zijn de fundering voor inzichten, voorspellingen en vandaag zelfs kunstmatig intelligente assistenten en bots. Heeft de fundering niet de juiste kwaliteit, dan verzakt al wat je er bovenop bouwt. Data van een slechte kwaliteit kan leiden tot problemen en dat is geen nieuw fenomeen, legt professor Isabelle Boydens uit. Zij is experte in datakwaliteit, zowel aan de Université libre de Bruxelles als bij Smals, waar zij in het onderzoeksteam werkt.

Bombarderen zonder de laatste updates

Ze neemt ons mee naar Belgrado tijdens de Kosovo-oorlog op 7 mei 1999. Meer specifiek: naar de Chinese ambassade in de Servische hoofdstad. Daar sterven die dag drie journalisten van de Chinese staatsmedia door NAVO-bommen die verkeerdelijk het gebouw treffen. Het bombardement is nauwkeurig, maar het doel klopt niet. Het doelwit voor de bommen werd voor de aanval gecontroleerd tegenover een No Strike-database, met daarin locaties van ziekenhuizen, kernen en ambassades. “De kaart werd echter niet correct geüpdatet”, weet Boydens. “De Chinese ambassade was verhuisd, maar de databank bevatte nog het oude adres.”

De Chinese ambassade was verhuisd, maar de databank bevatte nog het oude adres.

Prof. Isabelle Boydens, Smals & ULB

De data van de No Strike-database waren van uitstekende kwaliteit, maar de gegevens erin werden op een cruciaal moment ingehaald door de realiteit, met alle gevolgen van dien. “Zodra we een databank hebben samengesteld, kan de realiteit die erin wordt voorgesteld verder evolueren”, weet ze.

“In veel projecten, zowel vroeger als vandaag, wordt er heel veel belang gehecht aan het technische aspect van data”, merkt Boydens op. “De techniek is natuurlijk fundamenteel, anders werkt er niets. Maar data staan in relatie met de realiteit en die evolueert. Dat moet je ook in rekening brengen.”

Hoe belangrijk vind jij kwaliteit?

Dat brengt de professor bij een tweede probleem, dat evenmin erg technisch is. Wie de data ingeeft, heeft niet altijd een groot belang bij de kwaliteit ervan. Vandy Berten, ICT-onderzoeker bij Smals, valt haar bij. “Vandaag moet je in de bouw aangeven wie aanwezig is op een werf. Die werf kan zich op de Turnhoutsebaan bevinden, maar bij het ingeven schrijft de verantwoordelijke misschien Turnhoutsestraat. Dat klopt niet, maar hij of zij ligt er niet wakker van. Achteraf is het heel moeilijk om vast te stellen dat de bouwvakkers actief aan de Turnhoutsebaan en de Turnhoutsestraat eigenlijk op dezelfde werf werken.”

De kwaliteit van de data hangt zo erg af van wie gegevens ingeeft en welk belang die persoon daar zelf bij heeft. Zo kom je bij databases die van nature een goede kwaliteit zullen hebben, en datasets die organisch toch iets problematischer zijn. In de bouwsector hechten mensen misschien iets minder belang aan de correctheid van administratieve gegevens dan in de financiële wereld.

Duidelijke en onduidelijke fouten

Voor je aan de slag kan met data, moet je de kwaliteit ervan beoordelen. “Er zijn verschillende types van fouten die zich kunnen voordoen”, weet Boydens. “Eerst zijn er zekere en formele fouten. Denk aan een leeg veld dat eigenlijk vol moet zijn. Zo’n fout is duidelijk.”

Vervolgens kan een database vermoedelijke fouten bevatten. Soms is het mogelijk deze te identificeren en te verhelpen. Boydens: “een vermoeden van anomalie kan duiden op een echte fout, of op een geldige waarde waarmee geen rekening is gehouden in het definitiedomein, omdat ze niet bekend was toen het model werd ontworpen.”

Boydens gaat verder: “Dergelijke gevallen komen vaak voor in alle sterk evoluerende domeinen: evolutie van de categorieën van activiteiten in de sociale zekerheid, mutaties van virussen in de geneeskunde, kenmerken van de opwarming van de aarde… In zo’n geval moet je de hulp inroepen van specialisten in het veld, om te kijken of het een fout is of een evolutie waarmee rekening moet worden gehouden in het schema van de databank en in de bijbehorende norm. Deze stap is erg belangrijk omdat het de opkomst van een nieuwe versie van het databankschema en de bijbehorende theorie kan inhouden.”

Bedrijven die failliet gaan, hebben wel wat anders aan hun hoofd dan dat correct door te geven.

Prof. Isabelle Boydens, Smals & ULB

Het derde type fout is een stuk problematischer. “Dat zijn fouten die je niet zomaar kan detecteren”, zegt Boydens. “Bedrijven die failliet gaan, hebben wel wat anders aan hun hoofd dan dat correct door te geven. Dergelijke fouten kan je niet detecteren aan de hand van de gegevens in de database alleen.”

Oplossen

Om problemen op te sporen, zowel in ingegeven data als op vlak van de kwaliteit van data over tijd, zijn er volgens Boydens twee grote plannen van aanpak. “Je kan curatief te werk gaan, bijvoorbeeld door een audit van de waardes uit te voeren. Of je kan een databank vergelijken met andere datasets om ongewenste verschillen te zoeken. Daartoe zijn er tools die helpen om miljoenen gegevens batchgewijs te verwerken of direct online te evalueren.

Curatieve benaderingen zijn zeer belangrijk, maar bieden niet noodzakelijkerwijs een definitieve oplossing. Even belangrijk is een preventieve aanpak. “Je kan het schema van de databank bijvoorbeeld aanpassen naar een geschikter model. Synergie tussen dataleveranciers en beheerders maakt het mogelijk om anomalieën en hun verwerking op te volgen om de oorzaken van fouten op te sporen en structureel aan de bron te verhelpen. Het kan bijvoorbeeld om interpretatiefouten gaan, of ontoereikende documentatie.”

“Curatieve en preventieve benaderingen maken het mogelijk om de kwaliteit van de informatie te verbeteren en in bepaalde gevallen een aanzienlijke ROI te bieden. Naarmate technologieën, waargenomen realiteit en standaarden evolueren, vereist datakwaliteit continue aandacht.

Hoe accuraat moeten data nu effectief zijn? Ook daarbij heeft Boydens enkele bedenkingen. “De gegevens moeten geschikt zijn voor gebruik. Voor een verschillend gebruik, zijn er verschillende noden.”

Zijn je data bevooroordeeld?

Dat geldt voor de nauwkeurigheid van datasets, maar ook voor andere problemen zoals vooroordelen. In dat geval kan een dataset wel nauwkeurig zijn, maar gekleurd zijn door de mensen die ze hebben opgesteld of door omstandigheden. Dat levert vooral problemen op wanneer data gebruikt worden voor geavanceerdere toepassingen zoals de training van algoritmes.

Een klassiek voorbeeld is een algoritme dat getraind is om honden van wolven te onderscheiden op basis van correcte sets van data. Aanvankelijk presteert het algoritme goed, tot het plots met veel overtuiging van een hond zegt dat het een wolf is. De oorzaak ligt hier bij de ongeschikte trainingsdata: foto’s van wolven hebben voornamelijk sneeuw op de achtergrond, die van honden niet. Hoewel de data correct was, zorgde sneeuw voor bias tijdens de training van het beeldherkenningsalgoritme, dat zo per ongeluk leerde om foto’s met sneeuw als foto’s van wolven te bestempelen, en foto’s zonder als foto’s van honden, zonder aandacht te besteden aan het dier zelf.

Soms heel belangrijk, soms minder

Erger wordt het wanneer dergelijke correcte datasets bijvoorbeeld vooral foto’s van blanke mannen bevatten, waardoor een algoritme niet goed in staat is om zwarte vrouwen te herkennen. Data die gebruikt worden om dergelijke algoritmes te trainen, moeten niet alleen feitelijk correct zijn maar ook representatief voor wat je wil bereiken. Dat betekent niet dat iedere dataset plots helemaal nauwkeurig en representatief moet zijn voor je die kan inzetten als trainingsdata.

lees ook

Smals wil in 2023 de helft meer werknemers aanwerven dan in 2022

Katy Fokou, onderzoekster bij Smals, illustreert. “Gebruik je data om algoritmes te bouwen die aankoopsuggesties geven in een webshop, dan is bias geen grote ramp. Wanneer het de bedoeling is om een algoritme te trainen dat door politie of justitie gebruikt wordt, is de ontoereikende data veel problematischer.” Bij Smals, dat de IT voor de overheidsinstellingen van de sociale zekerheid verzorgt, wordt er daarom veel intenser naar datakwaliteit gekeken dan bij veel (internationale) privéondernemingen.

Wat je plan ook is met data, alles begint bij de kwaliteit ervan. En een heel belangrijke les daarbij is dat die kwaliteit niet statisch is. De echte wereld evolueert, en je data zijn voorstellingen van die echte wereld. Logisch dus dat ze mee evolueren.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.