Data lake en data warehouse: hoe organiseer je de dataopslag van je bedrijf?

big data analyse

Bedrijven die data analyseren, leren uit die data en spelen zo beter in op de behoeftes van de markt en de doelen van de organisatie. Kort gezegd hebben die bedrijven een streepje voor op hun concurrentie. Voor de dataopslag zijn er verschillende mogelijkheden, zoals een data lake of een data warehouse.


Dit stuk is een onderdeel van onze ‘IT uitgelegd‘-reeks, waarin we belangrijke begrippen en technologieën achter producten en innovaties vandaag op een begrijpelijke manier uitleggen.


Data lakes en data warehouses worden allebei gebruikt om big data op te slaan. Bedrijven kunnen perfect een data lake combineren met een data warehouse. De twee vormen worden namelijk voor andere datatoepassingen ingezet.  

Het belangrijkste verschil zit in het type data dat de opslagplaats onderbrengt. Een data lake bevat ruwe data die nog geen eindbestemming of specifiek nut heeft. Een data warehouse daarentegen bevat gestructureerde en gefilterde data, waarbij de onderneming al weet wat het doel van de data is.

Hiernaast zijn er nog twee verschillen op te merken. Terwijl een data lake eerder bedoeld is voor onderzoekers en analisten, kan iedereen uit een onderneming onmiddellijk aan de slag met data uit een data warehouse. De gestructureerde data zijn namelijk gegoten in grafieken, tabellen en diagrammen.

Tot slot is de toegankelijkheid van data verschillend. Een data lake biedt hier de meeste voordelen, omdat ze makkelijk toegankelijk is om aanpassingen snel te maken. Een aanpassing in een gestructureerde data warehouses is eerder duurder.

Hieronder zoomen we in op op de verschillen tussen een data lake en een data warehouse en wat ze precies te bieden hebben voor bedrijven. 

Data lake: de slimme werker

Big data in een onbewerkte indeling wordt opgevangen in een data lake. Data die bij een data lake binnenkomt, wordt dus niet onmiddellijk in een schema gegoten. Dit levert bijkomend op dat bestanden die in de dataopslag zitten verstopt maar nooit gebruikt worden, geen verwerkingstijd in beslag nemen.

Het specifieke principe waarop het opslagsysteem werkt, wordt schema-on-read genoemd. Door dit systeem werkt een data lake slim. Enkel wanneer de data gelezen wordt, is het nodig data in een schema te gieten.

Data lakes zijn heel nuttig voor bedrijven die voorspellingen willen maken op basis van de gegevens. Personen die over de nodige kennis of tools beschikken, kunnen sneller data analyseren en voorbereiden met een grotere accuraatheid.

Data lakes zijn heel nuttig voor bedrijven die voorspellingen willen maken op basis van de gegevens.

Alle onverwerkte data samenbrengen, vereist een enorme opslagcapaciteit en veel verwerkingstijd. Voor een data lake zijn er spelers op de markt die de ongestructureerde data vertalen, beheren en monitoren. Enkele aanbieders die oplossingen bieden in dit domein zijn Azure Data Lake Storage, AWS Lake Formation, Qubole, Infor Data Lake en Intelligent Data Lake.

In bedrijfstoepassingen is een data lake handig voor machine learning, omdat de data flexibel is en snel geanalyseerd kan worden. In IoT-toepassingen kan zo bijvoorbeeld een enorme hoeveelheid sensorgegevens met ongelooflijke snelheden worden verwerkt. De detailhandel is in staat om een omnichannel-ervaring te bieden met behulp van een schat aan data die over de gebruiker is verzameld.

lees ook

AI, machine learning en deep learning: wat is het verschil?

Data warehouse: de harde werker

Data die uit verschillende departementen in een bedrijf, uit systemen van andere bedrijven en uit gebruikersapplicaties komen, worden allemaal samen ondergebracht in een data warehouse.

Eens in een periode verwerkt een data warehouse de informatie. Die wordt onmiddellijk geformatteerd en verwerkt zodat het aansluit bij data die al in de warehouse aanwezig is. Hier wordt ook naar verwezen met de term schema-on-write. Voor de onmiddellijke verwerking krijgt een data warehouse de titel van harde werker.

Doordat data in een data warehouse onmiddellijk toegankelijk is, kan het ondernemingen helpen bij het nemen van beslissingen. Het visualiseert bedrijfsinformatie en komt voornamelijk van pas in de financiële wereld waar bedrijven enorme hoeveelheden data binnenkrijgen.

Doordat data in een data warehouse onmiddellijk toegankelijk is, kan het ondernemingen helpen bij het nemen van beslissingen.

On-premises servers voor een data warehouse vormen, naast cloudopslag, ook een mogelijkheid. In het algemeen mik je best op een server die beschikt over minstens een 8-core CPU, een geheugen van minstens 32GB RAM en 200GB vrije opslag.

Voor de software is het aangeraden Red Hat Enterpise Linux vanaf versie 7.3, CentOS vanaf versie 7.2 of Oracle Enterprise Linux vanaf versie 7.5 te draaien.

Vermijd een data swamp

Om maximaal te profiteren van een data lake en data warehouse is het noodzakelijk te werken aan de datakwaliteit en de data te onderhouden. Anders loop je het risico dat de dataopslag verandert in een data swamp, een ongeorganiseerde blok aan opgeslagen data. Met de volgende strategieën vermijd je dit:

  • Verzamel alleen nuttige data
  • Bepaal een strategie waarin je een doel voor de data duidelijk stelt
  • Zorg dat medewerkers altijd toegang hebben tot data die relevant is voor hun functie en departement
  • Combineer de juiste data

De investering een dataopslag en het uitwerken van een data-aanpak kan in de beginfase tijdrovend en duur zijn, maar op de lange termijn werpt het zijn vruchten af.

De investering verbetert namelijk de kwaliteit van data, waardoor meer en nuttigere inzichten uit de gegevens worden gehaald. Dit laat ook toe beter in te spelen op de bestaande behoeftes, wat een bedrijf aantrekkelijker maakt voor klanten en partners. Ook bespaart het tijd omdat het proces van beslissingen maken en knopen doorhakken wordt versneld.

Tips

Het opzetten van een data-opslagplaats kan een tijdrovende klus worden. Daarom is het belangrijk dat op de lange termijn efficiënt en veilig met de opslagplaats kan worden gewerkt. Denk daarbij aan volgende punten:

  • Zet gegevensbeheer in

Met gegevensbeheer zorg je ervoor dat data werkelijk kan doen waarvoor het initieel bedoeld was. Daarbij verbetert het de kwaliteit en veiligheid van data. Vanaf de start moeten de standaarden, processen en statistieken juist opgezet worden om gegevensbeheer efficiënt te laten werken. Dit kan bijvoorbeeld door een maximum op de bestandgrootte te leggen, waardoor data overzichtelijk blijft om mee te werken.

  • Creëer een datacatalogus

Een overzicht van de data die je data lake of data warehouse opslaat, vereenvoudigt het werken met data. In de catalogus kan je bijvoorbeeld opnemen welke connectoren nodig zijn om met de data te werken, waar en voor hoe lang data is opgeslagen en welke applicatie de data gebruikt. Deze vragen zijn aan te passen naargelang de behoeften van je organisatie.

  • Maak zoeken mogelijk

Naast een datacatalogus is het belangrijk dat de juiste personen kunnen zoeken in de data om er snel mee aan de slag te gaan. Zoeken kan bijvoorbeeld op grootte, datum en inhoud.

  • Maak het veilig

Gevoelige informatie is niet iets waar cybercriminelen zomaar in moeten kunnen vissen. Verstreng daarom bijvoorbeeld de toegangscontrole.

lees ook

Van VPN naar zero trust: het verschil en de voordelen

nieuwsbrief

Abonneer je gratis op ITdaily !
  • This field is for validation purposes and should be left unchanged.
terug naar home