Data lake en data warehouse: hoe organiseer je de dataopslag van je bedrijf?

big data analyse data lake data warehouse

Bedrijven die leren uit data spelen beter in op de behoeftes van de markt en de doelen van de organisatie. Alles begint bij het opslaan van de data. Hiervoor zijn er verschillende mogelijkheden, zoals een data lake of een data warehouse.

Data lakes en data warehouses worden allebei gebruikt om data op te slaan. Bedrijven kunnen perfect een data lake combineren met een data warehouse. De twee vormen worden namelijk voor andere datatoepassingen ingezet.

Het belangrijkste verschil zit in het type data dat de opslagplaats onderbrengt. Een data lake bevat ruwe data die nog geen eindbestemming of specifiek nut hebben. Een data warehouse daarentegen bevat gestructureerde en gefilterde data, waarbij de onderneming al weet wat het doel van de data is.

Hiernaast zijn er nog twee verschillen op te merken. Terwijl een data lake eerder bedoeld is voor onderzoekers en analisten, kan iedereen uit een onderneming onmiddellijk aan de slag met data uit een data warehouse. De gestructureerde data zijn namelijk gegoten in grafieken, tabellen en diagrammen.

Tot slot is de toegankelijkheid van data verschillend. Een data lake biedt hier de meeste voordelen, omdat ze makkelijk toegankelijk is om aanpassingen snel te maken. Een aanpassing in een gestructureerde data warehouse is eerder duurder. We zoomen verder in op de verschillen tussen een data lake en een data warehouse en wat ze precies te bieden hebben voor bedrijven. 

Data lake: de slimme werker

Onbewerkte, ruwe data worden eerst opgevangen in een data lake. Deze data zitten dus nog niet in een schema gegoten. Bestanden die wel in de dataopslag zitten verstopt maar nooit gebruikt worden, nemen bijgevolg geen verwerkingstijd in beslag. Het specifieke principe waarop het opslagsysteem werkt, wordt schema-on-read genoemd: enkel wanneer de data gelezen wordt, is het nodig data in een schema te gieten.

Door dit systeem werkt een data lake slim. Data lakes zijn heel nuttig voor bedrijven die voorspellingen willen maken op basis van de gegevens. Personen die over de nodige kennis of tools beschikken, kunnen sneller data analyseren en voorbereiden met een grotere accuraatheid.

Data lakes zijn heel nuttig voor bedrijven die voorspellingen willen maken op basis van de gegevens.

Alle onverwerkte data samenbrengen, vereist een enorme opslagcapaciteit en veel verwerkingstijd. Voor een data lake zijn er spelers op de markt die de ongestructureerde data vertalen, beheren en monitoren. Enkele aanbieders die oplossingen bieden in dit domein zijn Azure Data Lake Storage Gen2, AWS Lake Formation, Google Big Lake, Qubole, Cloudera en Snowflake.

lees ook

­­­Applicaties, ijsbergen en een beetje crack: hoe Snowflake het datalandschap door elkaar wil schudden

In bedrijfstoepassingen is een data lake handig voor machine learning, omdat de data flexibel is en snel geanalyseerd kan worden. In IoT-toepassingen kan zo bijvoorbeeld een enorme hoeveelheid sensorgegevens met ongelooflijke snelheden worden verwerkt. De detailhandel is in staat om een omnichannel-ervaring te bieden met behulp van een schat aan data die over de gebruiker is verzameld.

Data warehouse: de harde werker

Data die uit verschillende departementen in een bedrijf, uit systemen van andere bedrijven en uit gebruikersapplicaties komen, worden allemaal samen ondergebracht in een data warehouse. Die informatie wordt onmiddellijk geformatteerd en verwerkt zodat het aansluit bij data die al in de warehouse aanwezig is. Dit heet in vaktermen schema-on-write. Voor de onmiddellijke verwerking krijgt een data warehouse de titel van harde werker.

Doordat data in een data warehouse onmiddellijk toegankelijk is, kan het ondernemingen helpen bij het nemen van beslissingen. Het visualiseert bedrijfsinformatie en komt voornamelijk van pas in de financiële wereld waar bedrijven enorme hoeveelheden data binnenkrijgen.

Doordat data in een data warehouse onmiddellijk toegankelijk is, kan het ondernemingen helpen bij het nemen van beslissingen.

On-premises servers voor een data warehouse vormen, naast cloudopslag, ook een mogelijkheid. In het algemeen mik je best op een server die beschikt over minstens een 8-core CPU, een geheugen van minstens 32GB RAM en 200GB vrije opslag. Voor de software is het aangeraden Red Hat Enterpise Linux vanaf versie 7.3 (oudere versies krijgen geen ondersteuning meer), CentOS vanaf versie 7.2 of Oracle Enterprise Linux vanaf versie 7.5 te draaien.

Vermijd een data swamp

Om maximaal te profiteren van een data lake en data warehouse is het noodzakelijk te werken aan de datakwaliteit en de data ook te onderhouden. Anders loop je het risico dat je opslag verandert in een data swamp, een ongeorganiseerde wildgroei aan data. Met de volgende strategieën vermijd je dit:

  • Verzamel alleen nuttige data
  • Bepaal een strategie waarin je een duidelijk doel voor de data stelt
  • Zorg dat medewerkers altijd toegang hebben tot data die relevant is voor hun functie en departement
  • Combineer de juiste data

De investering in dataopslag en het uitwerken van een data-aanpak kan in de beginfase tijdrovend en duur zijn, maar op de lange termijn werpt het zijn vruchten af. Je verbetert namelijk de kwaliteit van data, waardoor je meer en nuttigere inzichten uit de gegevens haalt. Dit laat ook toe beter in te spelen op de bestaande behoeftes, wat een bedrijf aantrekkelijker maakt voor klanten en partners. Ook bespaart het tijd omdat het proces van beslissingen maken en knopen doorhakken wordt versneld.

lees ook

Wat is Zero-Copy, en wat kan je leren van de Canadese standaard voor data-integratie?

Tips voor een efficiënte dataopslag

Het opzetten van een dataopslagplaats kan een tijdrovende klus zijn. Daarom is het belangrijk dat op de lange termijn efficiënt en veilig met de opslagplaats kan worden gewerkt. Denk daarbij aan volgende punten:

  • Zet gegevensbeheer in

Met gegevensbeheer zorg je ervoor dat data werkelijk doen waarvoor het initieel bedoeld was. Daarbij verbetert het de kwaliteit en veiligheid van data. Vanaf de start moeten de standaarden, processen en statistieken juist opgezet worden om gegevensbeheer efficiënt te laten werken. Dit kan door bijvoorbeeld een maximum op de bestandsgrootte te leggen, waardoor data overzichtelijk blijft om mee te werken.

  • Creëer een datacatalogus

Een overzicht van de data die je data lake of data warehouse opslaat, vereenvoudigt het werken met data. In de catalogus kan je bijvoorbeeld opnemen welke connectoren nodig zijn om met de data te werken, waar en voor hoe lang data is opgeslagen en welke applicatie de data gebruikt. Deze vragen zijn aan te passen naargelang de behoeften van je organisatie.

  • Maak zoeken mogelijk

Naast een datacatalogus is het belangrijk dat de juiste personen kunnen zoeken in de data om er snel mee aan de slag te gaan. Zoeken kan bijvoorbeeld op grootte, datum en inhoud.

  • Maak het veilig

Gevoelige informatie is niet iets waar cybercriminelen zomaar in mogen kunnen vissen. Zorg ervoor dat je data veilig opgeslagen is. Beperk de toegang tot databronnen tot enkel de werknemers die die data ook effectief nodig hebben, en zorg ervoor dat hun toegang langs een beveiligd kanaal verloopt. Maak voldoende en regelmatige back-ups van je data zodat je deze bij eventueel dataverlies snel kan herstellen en hou databases niet langer bij dan noodzakelijk.


Dit artikel verscheen origineel op 16/09/2021. Laatst bijgewerkt op 03/03/2023 door Jens Jonkers.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.
terug naar home