Hoe hou je je data vers? Kwaliteit heeft een houdbaarheidsdatum

Zonder data van goede kwaliteit, geen correcte inzichten of voorspellingen. Datakwaliteit onderhouden is nochtans een flinke klus, horen we bij Smals, waar extra aandacht wordt besteed aan de voortdurende kwaliteit van gegevens. Een database die vandaag klopt, is morgen misschien al gedateerd.

Data zijn de fundering voor inzichten, voorspellingen en vandaag zelfs kunstmatig intelligente assistenten en bots. Heeft de fundering niet de juiste kwaliteit, dan verzakt al wat je er bovenop bouwt. Data van een slechte kwaliteit kan leiden tot problemen en dat is geen nieuw fenomeen, legt professor Isabelle Boydens uit. Zij is experte in datakwaliteit, zowel aan de Université libre de Bruxelles als bij Smals, waar zij in het onderzoeksteam werkt.

Bombarderen zonder de laatste updates

Ze neemt ons mee naar Belgrado tijdens de Kosovo-oorlog op 7 mei 1999. Meer specifiek: naar de Chinese ambassade in de Servische hoofdstad. Daar sterven die dag drie journalisten van de Chinese staatsmedia door NAVO-bommen die verkeerdelijk het gebouw treffen. Het bombardement is nauwkeurig, maar het doel klopt niet. Het doelwit voor de bommen werd voor de aanval gecontroleerd tegenover een No Strike-database, met daarin locaties van ziekenhuizen, kernen en ambassades. “De kaart werd echter niet correct geüpdatet”, weet Boydens. “De Chinese ambassade was verhuisd, maar de databank bevatte nog het oude adres.”

De Chinese ambassade was verhuisd, maar de databank bevatte nog het oude adres.
Prof. Isabelle Boydens, Smals & ULB

De data van de No Strike-database waren van uitstekende kwaliteit, maar de gegevens erin werden op een cruciaal moment ingehaald door de realiteit, met alle gevolgen van dien. “Zodra we een databank hebben samengesteld, kan de realiteit die erin wordt voorgesteld verder evolueren”, weet ze.

“In veel projecten, zowel vroeger als vandaag, wordt er heel veel belang gehecht aan het technische aspect van data”, merkt Boydens op. “De techniek is natuurlijk fundamenteel, anders werkt er niets. Maar data staan in relatie met de realiteit en die evolueert. Dat moet je ook in rekening brengen.”

Hoe belangrijk vind jij kwaliteit?

Dat brengt de professor bij een tweede probleem, dat evenmin erg technisch is. Wie de data ingeeft, heeft niet altijd een groot belang bij de kwaliteit ervan. Vandy Berten, ICT-onderzoeker bij Smals, valt haar bij. “Vandaag moet je in de bouw aangeven wie aanwezig is op een werf. Die werf kan zich op de Turnhoutsebaan bevinden, maar bij het ingeven schrijft de verantwoordelijke misschien Turnhoutsestraat. Dat klopt niet, maar hij of zij ligt er niet wakker van. Achteraf is het heel moeilijk om vast te stellen dat de bouwvakkers actief aan de Turnhoutsebaan en de Turnhoutsestraat eigenlijk op dezelfde werf werken.”

De kwaliteit van de data hangt zo erg af van wie gegevens ingeeft en welk belang die persoon daar zelf bij heeft. Zo kom je bij databases die van nature een goede kwaliteit zullen hebben, en datasets die organisch toch iets problematischer zijn. In de bouwsector hechten mensen misschien iets minder belang aan de correctheid van administratieve gegevens dan in de financiële wereld.

Duidelijke en onduidelijke fouten

Voor je aan de slag kan met data, moet je de kwaliteit ervan beoordelen. “Er zijn verschillende types van fouten die zich kunnen voordoen”, weet Boydens. “Eerst zijn er zekere en formele fouten. Denk aan een leeg veld dat eigenlijk vol moet zijn. Zo’n fout is duidelijk.”

Vervolgens kan een database vermoedelijke fouten bevatten. Soms is het mogelijk deze te identificeren en te verhelpen. Boydens: “een vermoeden van anomalie kan duiden op een echte fout, of op een geldige waarde waarmee geen rekening is gehouden in het definitiedomein, omdat ze niet bekend was toen het model werd ontworpen.”

Boydens gaat verder: “Dergelijke gevallen komen vaak voor in alle sterk evoluerende domeinen: evolutie van de categorieën van activiteiten in de sociale zekerheid, mutaties van virussen in de geneeskunde, kenmerken van de opwarming van de aarde… In zo’n geval moet je de hulp inroepen van specialisten in het veld, om te kijken of het een fout is of een evolutie waarmee rekening moet worden gehouden in het schema van de databank en in de bijbehorende norm. Deze stap is erg belangrijk omdat het de opkomst van een nieuwe versie van het databankschema en de bijbehorende theorie kan inhouden.”

Bedrijven die failliet gaan, hebben wel wat anders aan hun hoofd dan dat correct door te geven.
Prof. Isabelle Boydens, Smals & ULB

Het derde type fout is een stuk problematischer. “Dat zijn fouten die je niet zomaar kan detecteren”, zegt Boydens. “Bedrijven die failliet gaan, hebben wel wat anders aan hun hoofd dan dat correct door te geven. Dergelijke fouten kan je niet detecteren aan de hand van de gegevens in de database alleen.”

Oplossen

Om problemen op te sporen, zowel in ingegeven data als op vlak van de kwaliteit van data over tijd, zijn er volgens Boydens twee grote plannen van aanpak. “Je kan curatief te werk gaan, bijvoorbeeld door een audit van de waardes uit te voeren. Of je kan een databank vergelijken met andere datasets om ongewenste verschillen te zoeken. Daartoe zijn er tools die helpen om miljoenen gegevens batchgewijs te verwerken of direct online te evalueren.

Curatieve benaderingen zijn zeer belangrijk, maar bieden niet noodzakelijkerwijs een definitieve oplossing. Even belangrijk is een preventieve aanpak. “Je kan het schema van de databank bijvoorbeeld aanpassen naar een geschikter model. Synergie tussen dataleveranciers en beheerders maakt het mogelijk om anomalieën en hun verwerking op te volgen om de oorzaken van fouten op te sporen en structureel aan de bron te verhelpen. Het kan bijvoorbeeld om interpretatiefouten gaan, of ontoereikende documentatie.”

“Curatieve en preventieve benaderingen maken het mogelijk om de kwaliteit van de informatie te verbeteren en in bepaalde gevallen een aanzienlijke ROI te bieden. Naarmate technologieën, waargenomen realiteit en standaarden evolueren, vereist datakwaliteit continue aandacht.

Hoe accuraat moeten data nu effectief zijn? Ook daarbij heeft Boydens enkele bedenkingen. “De gegevens moeten geschikt zijn voor gebruik. Voor een verschillend gebruik, zijn er verschillende noden.”

Zijn je data bevooroordeeld?

Dat geldt voor de nauwkeurigheid van datasets, maar ook voor andere problemen zoals vooroordelen. In dat geval kan een dataset wel nauwkeurig zijn, maar gekleurd zijn door de mensen die ze hebben opgesteld of door omstandigheden. Dat levert vooral problemen op wanneer data gebruikt worden voor geavanceerdere toepassingen zoals de training van algoritmes.

Een klassiek voorbeeld is een algoritme dat getraind is om honden van wolven te onderscheiden op basis van correcte sets van data. Aanvankelijk presteert het algoritme goed, tot het plots met veel overtuiging van een hond zegt dat het een wolf is. De oorzaak ligt hier bij de ongeschikte trainingsdata: foto’s van wolven hebben voornamelijk sneeuw op de achtergrond, die van honden niet. Hoewel de data correct was, zorgde sneeuw voor bias tijdens de training van het beeldherkenningsalgoritme, dat zo per ongeluk leerde om foto’s met sneeuw als foto’s van wolven te bestempelen, en foto’s zonder als foto’s van honden, zonder aandacht te besteden aan het dier zelf.

Soms heel belangrijk, soms minder

Erger wordt het wanneer dergelijke correcte datasets bijvoorbeeld vooral foto’s van blanke mannen bevatten, waardoor een algoritme niet goed in staat is om zwarte vrouwen te herkennen. Data die gebruikt worden om dergelijke algoritmes te trainen, moeten niet alleen feitelijk correct zijn maar ook representatief voor wat je wil bereiken. Dat betekent niet dat iedere dataset plots helemaal nauwkeurig en representatief moet zijn voor je die kan inzetten als trainingsdata.

Smals wil in 2023 de helft meer werknemers aanwerven dan in 2022

Katy Fokou, onderzoekster bij Smals, illustreert. “Gebruik je data om algoritmes te bouwen die aankoopsuggesties geven in een webshop, dan is bias geen grote ramp. Wanneer het de bedoeling is om een algoritme te trainen dat door politie of justitie gebruikt wordt, is de ontoereikende data veel problematischer.” Bij Smals, dat de IT voor de overheidsinstellingen van de sociale zekerheid verzorgt, wordt er daarom veel intenser naar datakwaliteit gekeken dan bij veel (internationale) privéondernemingen.

Wat je plan ook is met data, alles begint bij de kwaliteit ervan. En een heel belangrijke les daarbij is dat die kwaliteit niet statisch is. De echte wereld evolueert, en je data zijn voorstellingen van die echte wereld. Logisch dus dat ze mee evolueren.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.