Data lake en data warehouse: hoe organiseer je de dataopslag van je bedrijf?

.software
03.03.'23 11:36
8 min

Laura Herijgers

big data analyse data lake data warehouse

Bedrijven die leren uit data spelen beter in op de behoeftes van de markt en de doelen van de organisatie. Alles begint bij het opslaan van de data. Hiervoor zijn er verschillende mogelijkheden, zoals een data lake of een data warehouse.

Data lakes en data warehouses worden allebei gebruikt om data op te slaan. Bedrijven kunnen perfect een data lake combineren met een data warehouse. De twee vormen worden namelijk voor andere datatoepassingen ingezet.

Het belangrijkste verschil zit in het type data dat de opslagplaats onderbrengt. Een data lake bevat ruwe data die nog geen eindbestemming of specifiek nut hebben. Een data warehouse daarentegen bevat gestructureerde en gefilterde data, waarbij de onderneming al weet wat het doel van de data is.

Hiernaast zijn er nog twee verschillen op te merken. Terwijl een data lake eerder bedoeld is voor onderzoekers en analisten, kan iedereen uit een onderneming onmiddellijk aan de slag met data uit een data warehouse. De gestructureerde data zijn namelijk gegoten in grafieken, tabellen en diagrammen.

Tot slot is de toegankelijkheid van data verschillend. Een data lake biedt hier de meeste voordelen, omdat ze makkelijk toegankelijk is om aanpassingen snel te maken. Een aanpassing in een gestructureerde data warehouse is eerder duurder. We zoomen verder in op de verschillen tussen een data lake en een data warehouse en wat ze precies te bieden hebben voor bedrijven.

Data lake: de slimme werker

Onbewerkte, ruwe data worden eerst opgevangen in een data lake. Deze data zitten dus nog niet in een schema gegoten. Bestanden die wel in de dataopslag zitten verstopt maar nooit gebruikt worden, nemen bijgevolg geen verwerkingstijd in beslag. Het specifieke principe waarop het opslagsysteem werkt, wordt schema-on-read genoemd: enkel wanneer de data gelezen wordt, is het nodig data in een schema te gieten.

Door dit systeem werkt een data lake slim. Data lakes zijn heel nuttig voor bedrijven die voorspellingen willen maken op basis van de gegevens. Personen die over de nodige kennis of tools beschikken, kunnen sneller data analyseren en voorbereiden met een grotere accuraatheid.

Data lakes zijn heel nuttig voor bedrijven die voorspellingen willen maken op basis van de gegevens.

Alle onverwerkte data samenbrengen, vereist een enorme opslagcapaciteit en veel verwerkingstijd. Voor een data lake zijn er spelers op de markt die de ongestructureerde data vertalen, beheren en monitoren. Enkele aanbieders die oplossingen bieden in dit domein zijn Azure Data Lake Storage Gen2, AWS Lake Formation, Google Big Lake, Qubole, Cloudera en Snowflake.

Applicaties, ijsbergen en een beetje crack: hoe Snowflake het datalandschap door elkaar wil schudden

In bedrijfstoepassingen is een data lake handig voor machine learning, omdat de data flexibel is en snel geanalyseerd kan worden. In IoT-toepassingen kan zo bijvoorbeeld een enorme hoeveelheid sensorgegevens met ongelooflijke snelheden worden verwerkt. De detailhandel is in staat om een omnichannel-ervaring te bieden met behulp van een schat aan data die over de gebruiker is verzameld.

Data warehouse: de harde werker

Data die uit verschillende departementen in een bedrijf, uit systemen van andere bedrijven en uit gebruikersapplicaties komen, worden allemaal samen ondergebracht in een data warehouse. Die informatie wordt onmiddellijk geformatteerd en verwerkt zodat het aansluit bij data die al in de warehouse aanwezig is. Dit heet in vaktermen schema-on-write. Voor de onmiddellijke verwerking krijgt een data warehouse de titel van harde werker.

Doordat data in een data warehouse onmiddellijk toegankelijk is, kan het ondernemingen helpen bij het nemen van beslissingen. Het visualiseert bedrijfsinformatie en komt voornamelijk van pas in de financiële wereld waar bedrijven enorme hoeveelheden data binnenkrijgen.

Doordat data in een data warehouse onmiddellijk toegankelijk is, kan het ondernemingen helpen bij het nemen van beslissingen.

On-premises servers voor een data warehouse vormen, naast cloudopslag, ook een mogelijkheid. In het algemeen mik je best op een server die beschikt over minstens een 8-core CPU, een geheugen van minstens 32GB RAM en 200GB vrije opslag. Voor de software is het aangeraden Red Hat Enterpise Linux vanaf versie 7.3 (oudere versies krijgen geen ondersteuning meer), CentOS vanaf versie 7.2 of Oracle Enterprise Linux vanaf versie 7.5 te draaien.

Vermijd een data swamp

Om maximaal te profiteren van een data lake en data warehouse is het noodzakelijk te werken aan de datakwaliteit en de data ook te onderhouden. Anders loop je het risico dat je opslag verandert in een data swamp, een ongeorganiseerde wildgroei aan data. Met de volgende strategieën vermijd je dit:

Verzamel alleen nuttige data
Bepaal een strategie waarin je een duidelijk doel voor de data stelt
Zorg dat medewerkers altijd toegang hebben tot data die relevant is voor hun functie en departement
Combineer de juiste data

De investering in dataopslag en het uitwerken van een data-aanpak kan in de beginfase tijdrovend en duur zijn, maar op de lange termijn werpt het zijn vruchten af. Je verbetert namelijk de kwaliteit van data, waardoor je meer en nuttigere inzichten uit de gegevens haalt. Dit laat ook toe beter in te spelen op de bestaande behoeftes, wat een bedrijf aantrekkelijker maakt voor klanten en partners. Ook bespaart het tijd omdat het proces van beslissingen maken en knopen doorhakken wordt versneld.

Wat is Zero-Copy, en wat kan je leren van de Canadese standaard voor data-integratie?

Tips voor een efficiënte dataopslag

Het opzetten van een dataopslagplaats kan een tijdrovende klus zijn. Daarom is het belangrijk dat op de lange termijn efficiënt en veilig met de opslagplaats kan worden gewerkt. Denk daarbij aan volgende punten:

Zet gegevensbeheer in

Met gegevensbeheer zorg je ervoor dat data werkelijk doen waarvoor het initieel bedoeld was. Daarbij verbetert het de kwaliteit en veiligheid van data. Vanaf de start moeten de standaarden, processen en statistieken juist opgezet worden om gegevensbeheer efficiënt te laten werken. Dit kan door bijvoorbeeld een maximum op de bestandsgrootte te leggen, waardoor data overzichtelijk blijft om mee te werken.

Creëer een datacatalogus

Een overzicht van de data die je data lake of data warehouse opslaat, vereenvoudigt het werken met data. In de catalogus kan je bijvoorbeeld opnemen welke connectoren nodig zijn om met de data te werken, waar en voor hoe lang data is opgeslagen en welke applicatie de data gebruikt. Deze vragen zijn aan te passen naargelang de behoeften van je organisatie.

Maak zoeken mogelijk

Naast een datacatalogus is het belangrijk dat de juiste personen kunnen zoeken in de data om er snel mee aan de slag te gaan. Zoeken kan bijvoorbeeld op grootte, datum en inhoud.

Maak het veilig

Gevoelige informatie is niet iets waar cybercriminelen zomaar in mogen kunnen vissen. Zorg ervoor dat je data veilig opgeslagen is. Beperk de toegang tot databronnen tot enkel de werknemers die die data ook effectief nodig hebben, en zorg ervoor dat hun toegang langs een beveiligd kanaal verloopt. Maak voldoende en regelmatige back-ups van je data zodat je deze bij eventueel dataverlies snel kan herstellen en hou databases niet langer bij dan noodzakelijk.

Dit artikel verscheen origineel op 16/09/2021. Laatst bijgewerkt op 03/03/2023 door Jens Jonkers.

featured

België pionier in NIS2-regelgeving: Hoe komt dat?

.beveiliging
28.10.'24
7 min

recent in IT uitgelegd

On-premises, publieke of private cloud: wat is het verschil?

.datacenter
28.08.'24
11 min

NAS of cloud: de gids voor de kleine onderneming

.werkplek
01.08.'24
9 min

ARM, x86 en RISC-V: het verschil uitgelegd

.werkplek
30.07.'24
18 min

meer IT uitgelegd

poll

"*" indicates required fields

ronde tafel

NIS2: belangrijk voor iedereen, maar waar staan we?

.beveiliging
28.10.'24
5 min

Hybride werken: hoe pak je dat aan?

.werkplek
30.09.'24
5 min

meer ronde tafels

events

Dell Technologies Forum 2024

21/11/2024
Brussels

LANcompact events in Utrecht en Brussel

20/11-21/11
Brussel

Easi Behind Closed Doors

06/12/2024
Gent

meer events

vacatures

Azure Engineer

Brussel
Smals

Functional Analyst

Brussel
Smals

Scrum Master

Brussel
Smals

Test Coordinator

Brussel
Smals

meer vacatures

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.