Naar inhoud gaan
Foto van een meer

Wat is een datalake?

In wezen is een datalake een opslagplaats van informatie. Datalakes worden vaak verward met datawarehouses, maar ze dienen voor verschillende zakelijke behoeften en hebben verschillende architecturen. Met name een clouddatalake is een essentieel onderdeel van een moderne datamanagementstrategie, nu data van sociale media en IoT-machines (Internet of Things) en transactionele data steeds sneller toenemen. De mogelijkheid om elk datatype op te slaan, te transformeren en te analyseren effent de weg voor nieuwe zakelijke kansen en digitale transformatie: hierin ligt de rol van een datalake.

90

%

van de financiële instellingen denkt dat bigdata-initiatieven bepalend zijn voor toekomstig succes

64,2

zettabytes digitale data gecreëerd in 2020

17,6

miljard dollar bedraagt de datalakemarkt naar schatting in 2026

Definitie van datalake

Een datalake is een centrale datarepository die gebruikt kan worden om problemen met datasilo's aan te pakken. Belangrijk is dat een datalake enorme hoeveelheden onbewerkte data opslaat in het oorspronkelijke, of native, formaat. Dit formaat kan gestructureerd, ongestructureerd of semigestructureerd zijn. Datalakes, vooral in de cloud, zijn goedkoop en gemakkelijk schaalbaar, en worden vaak gebruikt met toegepaste machinelearninganalyses.

Datalake versus datawarehouse

In tegenstelling tot een datalake biedt een datawarehouse ook functies voor datamanagement. Een datawarehouse slaat ook verwerkte en gefilterde data op die al zijn verwerkt voor vooraf gedefinieerde bedrijfsvragen of use cases.

Datalake versus datawarehouse

Schematische vergelijking van een datawarehouse met een datalake.

Datawarehouses en datalakes vullen elkaar vaak aan. Wanneer bijvoorbeeld onbewerkte data die zijn opgeslagen in een datalake nodig zijn om een bedrijfsvraag te beantwoorden, kunnen ze worden geëxtraheerd, opgeschoond, getransformeerd en gebruikt voor verdere analyse in een datawarehouse.

 

Een 'datalakehouse' is een nieuw concept dat nog niet is uitgekristalliseerd. Het voegt mogelijkheden voor datamanagement toe aan een traditionele datalake. In wezen is een datalakehouse een combinatie van een datalake en een datawarehouse. 

 

Naast het type data en de hierboven genoemde verschillen in het proces, zijn er nog enkele detailverschillen tussen een datalake en een datawarehouseoplossing. Hierna volgt een overzicht.

Edit Table Feature Comparison Component

Uiteindelijk zullen het datavolume, de databaseprestaties en de opslagprijzen een belangrijke rol spelen bij de keuze van een opslagoplossing.

Belangrijkste elementen van een datalakeoplossing

  • Beweging van data: met datalakes kunnen alle soorten data uit meerdere bronnen in het eigen format worden geïmporteerd. Zo kunnen bedrijven naar behoefte en datagrootte schalen zonder daarvoor datastructuren, schema's en transformaties te hoeven definiëren: dit kan leiden tot lagere overheadkosten.
  • Data veilig opslaan en catalogiseren: een datalake slaat gestructureerde, semigestructureerde en ongestructureerde data op uit verschillende bronnen. Denk aan bedrijfsdata uit CRM- of ERP-software en data van IoT-apparaten, sociale media of zelfs historische data van bestaande systemen. Bovendien bieden datalakes de mogelijkheid om batch- en streamingdata vast te leggen, terwijl governance, beveiliging en controle worden toegepast. Je kunt query's direct op de data uitvoeren of de data met de juiste tools opnemen in een datawarehouse.
  • Analytics en machine learning: met datalakes is het mogelijk analytics en machinelearninganalyses uit te voeren met rollengebaseerde toegang tot de informatie. Data hoeft daarvoor niet eerst naar een aparte analysedatabase te worden verplaatst. Bovendien kunnen in datalakes historische data met realtime data worden gecombineerd om modellen voor machine learning of predictive analytics te verfijnen en zo betere en/of nieuwe resultaten te bieden.

Hoe datalakes werken

Een moderne datalake heeft drie hoofdfuncties:

  1. Een landingszone voor je onbewerkte data
  2. Een stagingzone waarin data worden getransformeerd met het oog op analyses
  3. Een dataverkenningszone waarin data worden gebruikt voor analyses, applicaties en als materiaal voor modellen voor machine learning

De informatie wordt vanuit de datalake ingevoerd in verschillende bronnen, zoals analytics of andere bedrijfsapplicaties, of naar tools voor machine learning voor verdere analyse.

 

Use case voor een datalake

Hier volgen twee voorbeelden van een use case voor een datalake in retail.

 

Verkoopdata voor de lange termijn worden in een datalake opgeslagen naast ongestructureerde data zoals clickstreams van de website, weerinformatie, nieuws en micro-/macro-economische data. Als deze data samen zijn opgeslagen en toegankelijk zijn, kan een datawetenschapper deze verschillende informatiebronnen gemakkelijker combineren in een model waarmee de vraag naar een specifiek product of bepaalde productlijn kan worden voorspeld. Deze informatie wordt vervolgens gebruikt als invoer in het ERP-systeem van de winkel om de productieplannen naar boven of beneden bij te stellen. 

 

Tegelijkertijd kan een marketingexpert naar dezelfde datalake gaan en kijken naar een sentimentanalyse van de website en de betrokkenheid op sociale media met nieuws-, macro-economische en verkoopgeschiedenisdata om te bepalen op welke producten je je het best kunt richten en hoe je verkoop, winst en/of acceptatie het beste kunt maximaliseren.

Soorten datalakes

Datalakes kunnen zich on-premise, in de cloud of beide (hybride) bevinden. Of ze zijn verspreid over meerdere cloudhyperscalers, zoals Amazon Web Services (AWS), Microsoft Azure of Google Cloud.

 

Verreweg het populairste type datalake is een clouddatalake. Een clouddatalake biedt alle gebruikelijke datalakefuncties, maar in een volledig beheerde cloudservice.

  • On-premise datalake: met een on-premise datalake beheren interne technische IT-medewerkers de hardware, software en processen. Deze aanpak vraagt een grotere investering (CAPEX) en de data zijn doorgaans geïsoleerd.
  • Clouddatalake: in een clouddatalake wordt de on-premise infrastructuur uitbesteed. Er zijn hogere operationele uitgaven (OPEX) aan verbonden, maar met deze aanpak kunnen bedrijven gemakkelijker schalen en profiteren van tal van andere voordelen (zie hieronder).
  • Hybride datalake: soms kiezen bedrijven ervoor om datalakes gelijktijdig zowel on-premise als in de cloud te onderhouden. Dit is een vrij zeldzame situatie, die meestal wordt gezien tijdens migratiescenario's van on-premise naar de cloud.
  • Multiclouddatalake: in een multiclouddatalake worden twee of meer cloudoplossingen gecombineerd. Een bedrijf kan bijvoorbeeld zowel AWS als Azure gebruiken om clouddatalakes te beheren en onderhouden. Dit vereist meer deskundigheid omdat ervoor moet worden gezorgd dat deze verschillende platforms met elkaar communiceren.

Zes belangrijkste voordelen van een clouddatalake

Waarom zou je een clouddatalake kiezen? Wanneer je je data omzet in een waardevol bedrijfsmiddel, bevorder je daarmee de digitale transformatie. Dit is te danken aan de sterke punten van de cloud in combinatie met een datalake. Een clouddatalake stelt bedrijven in staat om analytics toe te passen op historische data en nieuwe databronnen om daar bruikbare inzichten uit te halen. Denk aan logbestanden, clickstreams, sociale media, met internet verbonden apparaten en meer.

 

Hier volgen enkele van de belangrijkste voordelen die je kunt verwachten:

  1. Kostenefficiëntie: aanbieders van cloudopslag bieden veel opslag- en prijsopties.
  2. Automatisch schalen: cloudservices zijn ontworpen om schaalfuncties te bieden waarmee bedrijven op aanvraag opslagcapaciteit kunnen berekenen en gebruiken.
  3. Centrale datarepository: een clouddatalake brengt informatie samen die fungeert als één bron van de waarheid met beheerde datatoegang, zodat er meer procesefficiëntie tussen teams ontstaat.
  4. Databeveiliging: aanbieders van cloudopslag garanderen de beveiliging van data via een model met gedeelde verantwoordelijkheid.
  5. Tools: aanbieders van cloudopslag en andere leveranciers bieden ETL-tools die data verzamelen, een datacatalogus bouwen, data voorbereiden en transformeren, en data opnemen om dataquery's mogelijk te maken.
  6. Verbeterde analytics voor nieuwe inzichten en betere bedrijfsresultaten: een clouddatalake kan data op nieuwe manieren combineren. CRM-data en socialmedia-analyses kunnen bijvoorbeeld nieuwe inzichten bieden in de oorzaken van klantverloop of laten zien welke promotieacties de klantloyaliteit vergroten. Ook de operationele efficiëntie kan worden verbeterd door de analyse van IoT-data.  

Aan de slag met datalakeoplossingen

Verken de mogelijkheden van een datalake in SAP HANA Cloud.

Meer in deze serie

Veelgestelde vragen over datalakes

Bekijk een aantal van onze veelgestelde vragen over datalakes en zie onze verklarende woordenlijst voor datamanagement voor nog meer definities.

De term 'datalake' is ontstaan als representatie van het concept van een vloeiende, grotere opslag van data, tegenover de meer gecompartimenteerde, goed gedefinieerde en gestructureerde datamart.

 

Meer dan tien jaar geleden, met het groeien van de databronnen, veranderden de datalakes om tegemoet te komen aan de behoefte om petabytes van ongedefinieerde data op te slaan voor latere analyses. De eerste datalakes waren gebaseerd op het Hadoop-bestandssysteem (HDFS) en de commodityhardware in on-premise datacenters. De uitdagingen die samenhangen met een gedistribueerde architectuur en de behoefte aan aangepaste datatransformatie en -analyse droegen echter bij tot de suboptimale prestaties van op Hadoop gebaseerde systemen.

 

Technologieën voor cloudcomputing en dataopslag vormen nu de belangrijkste basis voor de moderne datastack en voor clouddatalakes.

Een datawarehouse (DW) is een digitaal opslagsysteem dat grote hoeveelheden gestructureerde en opgemaakte data uit verschillende bronnen met elkaar verbindt en harmoniseert. Een datalake daarentegen slaat gegevens op in de oorspronkelijke vorm en is niet gestructureerd of opgemaakt.

Datamanagement is het proces van het verzamelen, ordenen en openen van data om productiviteit, efficiëntie en besluitvorming te ondersteunen.

Een datalakehouse biedt naast de mogelijkheden van een traditionele datalake ook datamanagement- en warehousefuncties. Dit is een nieuw gebied dat zich snel ontwikkelt en verandert. 

Multicloud is het gebruik van meerdere cloudcomputing- en opslagdiensten in één heterogene architectuur. Dit heeft betrekking op de verdeling van cloudassets, software en applicaties, bijvoorbeeld over verschillende cloudhostingomgevingen.

Bestandsopslag ordent en presenteert data als een hiërarchie van bestanden in mappen; blokopslag verdeelt data in willekeurig geordende blokken van gelijke grootte; objectopslag beheert data en koppelt deze aan gerelateerde metadata. Met systemen voor objectopslag kunnen enorme hoeveelheden ongestructureerde data worden bewaard.

SAP Insights nieuwsbrief

Meld je vandaag nog aan

Meld je aan voor onze nieuwsbrief en krijg belangrijke inzichten.

Meer lezen

Terug naar boven