Van selfservice tot dynamische architectuur: productief aan de slag met data

Data is in iedere moderne organisatie een cruciale bouwsteen. Zeker nu bedrijven de mogelijkheden van generatieve AI verkennen, is het belangrijk om dergelijke systemen kwalitatieve gegevens aan te bieden. Tenzij je modellen met accurate data voedt, kan je immers niet verwachten dat de resultaten betrouwbaar zijn. Wat is de beste strategie om data voor te bereiden? En waar bewaar je die data dan best? Een overzicht van een aantal trends in het opzetten van een effectieve data-architectuur.

Data analytics en AI staan in de meeste bedrijven bovenaan de agenda. Maar niet overal leveren ze al de gewenste resultaten en productiviteitswinst. In een vorig artikel kon je lezen wat de struikelblokken zijn en hoe je ze kunt omzeilen. De basis van elk succesvol analytics-project is de data waarmee we een model aan het werk zetten. Zonder goede en vlot toegankelijke data gaat het gegarandeerd mis.

Overal groeit het besef dat AI-technologie geen wonderdoos is die altijd goede resultaten tevoorschijn tovert. Als je data slechts voor 80% accuraat is, dan zal de output van een model wellicht ook in één op de vijf gevallen foutief zijn. Erger nog, als je modellen op historische data traint waarin een menselijke bias zit, gaat deze bias ook in je modellen een nieuw leven krijgen. Indien er bijvoorbeeld bij een bank ooit slechte kredietscores werden gegeven aan bepaalde bevolkingsgroepen of minderheden, dan gaan je modellen dat gedrag ook vertonen. In een volgend artikel gaan we hier dieper op en leggen we uit waarom trust zo belangrijk is in het gebruik van data.

Wat kan je dan doen om de kwaliteit van de data te verhogen?

Data opschonen versus alles bij elkaar gooien

In de praktijk zijn twee uitersten mogelijk. Enerzijds zouden we kunnen proberen om alle ruwe data op te schonen voor we er analytics op loslaten. Daarvoor nemen we de data weg uit de gekende silo’s om ze in een centraal datawarehouse te plaatsen. Door de kwantiteit en de vereiste kwaliteit en snelheid van data is deze aanpak tijdsintensief en haast onbegonnen werk. Tegenover het datawarehouse staat de optie van een data lake, waarbij we alle data – inclusief ruwe en ongestructureerde data – bij elkaar brengen en er niets mee doen tot we de gegevens effectief nodig hebben. Hoewel dit met de huidige capaciteit van schijven en cloud zeker niet onhaalbaar is, schuiven we de problematiek op deze manier alleen maar voor ons uit. Zoals wel vaker zit het antwoord dus ergens in het midden …

Silo’s zijn zo hardnekkig dat we moeten aanvaarden dat ze altijd zullen blijven bestaan. Wel kunnen we ze met de juiste data-architectuur onder controle houden. Daarom kijken bedrijven steeds meer naar een pragmatische manier om data aan te bieden door middel van diversificatie. Terwijl sommige data meteen klaar moet zijn voor consumptie, kunnen andere gegevens gerust nog wachten. We krijgen dus een dynamische mix van een datawarehouse-strategie en andere vormen van data-architectuur.

Data als product & selfservice

De architectuur die het beste van beide werelden wil combineren, is data mesh. Enkele pijlers van dit concept gaan zeker blijven. Zo vertrekt data mesh vanuit het idee dat data een product is. In plaats van alles centraal te willen plaatsen, blijft de verantwoordelijkheid bij de persoon die de data beheert. Net zoals een fysiek product heeft ook data een levenscyclus en een bepaalde kwaliteit die de waarde ervan bepaalt. En net zoals dat product kan je data aanbieden door alles in een catalogus te plaatsen.

Dat brengt ons bij een andere trend die de productiviteit in werken met data alleen maar zal vergroten: selfservice. In tegenstelling tot de klassieke Excelsheet, die eigenlijk ook een vorm van selfservice is, hebben we moderne tools nodig die de gebruiker zoveel mogelijk transparantie bieden. Waar komen gegevens vandaan? Hoe compleet en accuraat is de data? Het zijn allemaal indicatoren die inzicht bieden in een vaak complexe spaghetti en die de traceerbaarheid van data doen toenemen. De catalogus van SAS houdt hier rekening mee en automatiseert bovendien het proces door zichzelf aan te vullen naarmate de data gebruikt wordt. In combinatie met feedback van gebruikers zelf kan zo’n aanpak je datacataloog aanzienlijk verrijken, zodat iedereen de relevante gegevens gemakkelijk kan inzetten.

Cloud of geen cloud?

Al het bovenstaande maakt duidelijk dat het niet meer van belang hoeft te zijn waar je je data bewaart. Aangezien we data toch constant over en weer bewegen, moeten we platformen niet meer altijd zo dicht mogelijk bij het zwaartepunt van de data brengen. Dit laat bedrijven toe om alternatieven zoals de mogelijkheden van een multicloud aanpak te verkennen. Zo is er tegenwoordig een ruim aanbod cloud databases die kostefficiënte opslag aanbieden zonder gebruikers een architectuur op te leggen. Dergelijke platformen zijn heel open en zetten vooral in op prestaties, schaalbaarheid en security.

Een goed voorbeeld van zo’n snelgroeiend cloud-dataplatform is SAS-partner Snowflake. Omdat je als gebruiker niets zelf hoeft te bouwen, verlagen dit soort oplossingen de drempel om je data in de cloud te plaatsen. Snowflake gaat zelfs nog een stapje verder en biedt bedrijven de mogelijkheid om data, al dan niet tegen betaling, via een marktplaats aan externe gebruikers aan te bieden. Dat zou interessant kunnen zijn voor ontwikkelaars van apps. Denk bijvoorbeeld aan een slimme applicatie om productie, transport en consumptie van energie beter op elkaar af te stemmen. Daarvoor zouden we heel wat data nodig hebben die overal verspreid zit. Wat is de capaciteit aan zonnepalen? Wat voor weer mogen we verwachten? Wat zijn de huidige prijzen voor elektriciteit? Hoeveel wagens zijn er op dit moment aan het opladen? Via cloud-platformen kunnen organisaties elkaars data gebruiken en verrijken.

Voor wie public cloud toch niet ziet zitten, biedt de wereld van opensource interessante oplossingen om data te bewaren. Parquet en ORC zijn twee opslagformaten die door een brede community ondersteund worden. Beide zijn gemakkelijk op te starten en leveren uitstekende prestaties voor het gebruik van data. Ook vanuit het SAS-platform zijn deze tools heel eenvoudig te benaderen.

Stabiel en dynamisch

Al deze voorbeelden passen binnen de filosofie dat de gebruiker aan zoveel mogelijk data moet kunnen, ongeacht waar die precies zit opgeslagen. Niemand heeft z’n data immers op één plaats zitten. Zeker nu businessgebruikers vaker met data en analytics aan de slag gaan, moeten oplossingen stabiel, eenvoudig en dynamisch zijn. Enkel dan zal de productiviteit van je dataprojecten de hoogte inschieten.


Dit artikel is een ingezonden bijdrage van SAS. In een derde en laatste artikel van deze reeks rond productief werken met analytics focussen we op het belang van trust. Zonder vertrouwen in data, algoritmen en resultaten van modellen ontstaan er alleen maar discussies die de productiviteit van projecten op hun beurt onderuit halen.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.