Optimaliseer Data Science in de cloud met deze 6 tips

De cloud heeft data science getransformeerd. Datateams hebben nu toegang tot een enorme bron van elastische rekenkracht, talloze data en beheerde clouddiensten die het bouwen, trainen en implementeren van machine learning en deep learning-modellen op grote schaal makkelijker maakt.

Datateams lopen echter tegen uitdagingen aan wanneer ze met een cloudgebaseerd model gaan werken. Zo leren datawetenschappers, -engineers en ontwikkelaars vaak pas gaandeweg de nieuwe omgeving te gebruiken en is er een ecosysteem aan tools en frameworks dat steeds groter wordt en zich steeds sneller ontwikkelt . Daarnaast zorgen de vele mogelijkheden in de cloud ook voor veel potentiële valkuilen.

Met de volgende zes tips kunnen datateams beter profiteren van de voordelen van de cloud, terwijl ze op een veilige, efficiënte en effectieve manier werken.

1. Maak governance een topprioriteit

Het is belangrijk om iteratie en onderzoek mogelijk te maken zonder de governance en security in gevaar te brengen. Veel datawetenschappers willen bijvoorbeeld intuïtief een dataset kopiëren voordat ze ermee aan de slag gaan. Maar het is te gemakkelijk om een kopie te maken, verder te werken en te vergeten dat de kopie bestaat, met compliance-, security- en privacyproblemen tot gevolg. Een dataplatform moet je helpen om aan virtuele kopieën te werken, zonder dat je datasets hoeft te dupliceren, terwijl je de controle houdt over welke gebruikers toegang hebben tot bepaalde applicaties. Creëer daarom processen die kopieën minimaliseren en opschonen.

2. Laat je vooroordelen buiten de deur

Als je altijd hebt gewerkt in een on-premise-wereld, heb je bepaalde opvattingen en vooroordelen over de infrastructuur die niet van toepassing zijn op cloudplatforms. Ik heb datawetenschappers vaak horen zeggen dat ze hun model meerdere keren per dag willen trainen, maar dat dit te langzaam gaat en andere processen vertraagt. Maar dat is geen probleem met een elastische infrastructuur. Begin met wat je wilt bereiken, niet wat je denkt dat mogelijk is, en ga van daaruit verder.

3. Voorkom datasilo’s 2.0

Voorkom het realiseren van datasilo’s die we kennen uit de on-premise-wereld. De hoeveelheid tools, platforms en leveranciers, kan leiden tot overtollige, inconsistente data op meerdere locaties. Een andere oorzaak van fragmentatie is het opslaan van gestructureerde data in bijvoorbeeld een datawarehouse, terwijl semi-gestructureerde data in een datameer terechtkomt. Dit is niet alleen lastig qua governance en security, maar staat ook betere voorspellingen of classificaties in de weg. Datasilo’s voorkom je met een cloudplatform dat een geconsolideerd dataoverzicht biedt. Daarmee kun je namelijk gestructureerde, semi-gestructureerde en ongestructureerde data naast elkaar accommoderen en heb je een enkele instantie voor meerdere cloudproviders en tools.

4. Houd alle opties open

Het is heel goed dat frameworks en tools zich in een hoog tempo ontwikkelen, maar zorg dat je niet vast komt te zitten in een benadering die je opties beperkt wanneer technologieën komen en gaan. Spark ML was vroeger bijvoorbeeld hét antwoord op de meeste grootschalige trainingsproblemen, maar nu trekken TensorFlow en PyTorch de meeste aandacht. Je weet nooit wat er volgend jaar of volgende week gebeurt. Kies een dataplatform met een uitbreidbare architectuur die nieuwe tools en technologieën kan integreren en je niet dwingt te werken met één framework of één proces.

5. Maak gebruik van databronnen van derde partijen

De cloud maakt het eenvoudiger om externe data van partners en dataserviceproviders op te nemen in je modellen. Dit was met name het afgelopen jaar belangrijk, omdat bedrijven probeerden te begrijpen hoe de impact van COVID-19, schommelingen in de economie en daaropvolgende veranderingen in consumentengedrag hun bedrijf zouden beïnvloeden. Organisaties gebruikten bijvoorbeeld data over lokale infectiepercentages, bezoekersaantallen in winkels en signalen van sociale media om kooppatronen en voorraadbehoeften te voorspellen. Verken externe databronnen en bepaal welke bronnen helpen bij het beantwoorden van je vragen.

6. Minimaliseer complexiteit

Machine learning en deep learning zijn erg waardevol, maar zijn niet geschikt voor elk probleem. Begin altijd met de eenvoudigste optie en verhoog zo nodig de complexiteit. Probeer een eenvoudige lineaire regressie, of kijk naar gemiddelden en medianen. Hoe nauwkeurig zijn de voorspellingen en zorgt een complexere aandacht voor een significant betere ROI? Soms is dat het geval, maar kies niet altijd op basis van je eerste instinct een complexere optie.

Geavanceerde data-analyses zijn nog nooit zo toegankelijk geweest. Datawetenschappers, data-engineers en ontwikkelaars behoren nu tot de belangrijkste medewerkers van elke organisatie. De cloud is een eenvoudige, krachtige en dynamische plek voor data-analyses. De bijbehorende uitdagingen zijn niet moeilijk aan te pakken als je weet dat ze er zijn en je de juiste beslissingen neemt over technologie en tools. Maar zorg wel dat je met de juiste intenties de data induikt.

Dit is een aangeleverde bijdrage van Coen Bos, VP Benelux & Nordics bij Snowflake. Voor meer informatie rond de oplossingen van het bedrijf kan je hier terecht.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.