media-blend
text-black

Zakenmensen die grafieken bestuderen op een interactief scherm in een zakelijke vergadering

Datalake versus datawarehouse

Datalakes slaan onbewerkte data op in hun eigen formaat, ongeacht hoe het aankomt. In datawarehouses worden gegevens opgeslagen die op een vooraf gedefinieerde manier zijn opgeschoond en gestructureerd.

default

{}

default

{}

primary

default

{}

secondary

Inleiding tot datalakes en datawarehouses

Datalakes en datawarehouses zijn systemen die grote hoeveelheden digitale data opslaan, beheren en ophalen. Bedrijven verzamelen data om inzicht te krijgen in hun activiteiten, klanten, markten en supply chains, zodat ze strategischer kunnen reageren.

Datawarehouses ontstonden als een oplossing om datasilo's af te breken en de uitdaging aan te gaan van bedrijfsdata die verspreid zijn over meerdere systemen, indelingen en afdelingen.

De inconsistentie maakte het voor gebruikers moeilijk om deze data te openen, te integreren en te analyseren om patronen te ontdekken, de vraag te voorspellen of bedrijfsprestaties te evalueren. Datawarehouses zijn ontwikkeld om deze gegevens te consolideren in een gecentraliseerde repository, waar data kan worden geïntegreerd, opgeschoond en gestructureerd voor analyse. Deze aanpak zorgde voor één versie van de waarheid ter ondersteuning van compliance-, prestatiemonitoring en Business Intelligence-processen.

Datalakes ontstonden op hun beurt als een oplossing voor de beperkingen van datawarehouses, die de explosie van ongestructureerde en semigestructureerde data die zijn gegenereerd uit nieuwe bronnen zoals sociale media, IoT-apparaten, sensoren, mobiele apps en meer niet adequaat konden verwerken. Het opslaan en verwerken van enorme hoeveelheden uiteenlopende gegevens, zoals afbeeldingen, video en tekst, bleek te duur en inefficiënt, omdat traditionele datawarehouses in eerste instantie moesten worden opgeschoond en verwerkt vóór opslag.

Bedrijven hadden een flexibelere, goedkopere manier nodig om data op te slaan in het ruwe, originele formaat en datalakes werden gecreëerd als oplossing.

Tegenwoordig hanteren veel moderne bedrijven een hybride aanpak waarbij zowel datawarehouses als datalakes betrokken zijn: het data lakehouse. Deze architectuur biedt zowel de snelle, gestructureerde rapportagemogelijkheden van het eerste en het potentieel voor AI en machine learning applicaties van de laatste.

Datalakes versus datawarehouses: belangrijke verschillen

Het belangrijkste verschil tussen datalakes en datawarehouses is het type data dat ze opslaan en hoe ze die data opslaan, die beide een belangrijke rol spelen in de datastrategievan een organisatie.

In datawarehouses wordt gestructureerde data opgeslagen die is opgeschoond en verwerkt volgens een vooraf gedefinieerde structuur of een vooraf gedefinieerd schema. Omdat het schema wordt toegepast voordat de gegevens worden opgeslagen, wordt de benadering schema-on-writing genoemd.

Een schema kan bijvoorbeeld voorschrijven dat klant-ID-gegevens een geheel getal moeten zijn, orderdatumgegevens de notatie JJJJ-MM-DD moeten hebben en dat gegevens van totale verkoopbedragen in decimale notatie moeten zijn. Omdat alle gegevens aan deze regels voldoen, kunnen gebruikers snel en betrouwbaar vragen stellen als "vind de totale verkoop per klant in april 2025". Deze snelheid en nauwkeurigheid maken datawarehouses ideaal voor rapportages, dashboards en use cases voor business intelligence.

Datalakes daarentegen kunnen onbewerkte data in hun oorspronkelijke formaat opslaan, ongeacht hoe het is gestructureerd. Vooraf is geen vooraf gedefinieerd schema vereist.

Het schema wordt alleen gedefinieerd wanneer de gegevens worden opgevraagd, dus de benadering staat bekend als schema-on-read. Alleen dan wordt de onbewerkte data geparseerd, gestructureerd en geïnterpreteerd volgens de query.

Samengevat passen datawarehouses een schema toe voordat gegevens worden opgeslagen om ervoor te zorgen dat alle gegevens zijn gestructureerd en opgeschoond voor gebruik. Datalakes passen schema's toe wanneer de gegevens worden opgevraagd en kunnen al dan niet gestructureerde gegevens vanaf het begin opslaan.

Verschillen tussen datalakes en datawarehouses

Datalakes
Datawarehouses
Datatype
Slaat gestructureerde, semigestructureerde en ongestructureerde gegevens op (bijv. logs, video's, tekst).
Slaat alleen gestructureerde data op (bijv. verkooptransacties, financiële gegevens).
Schema
Schema-on-read: schema wordt toegepast wanneer de gegevens worden opgevraagd.
Schema voor schrijven: schema wordt toegepast voordat gegevens worden opgeslagen.
Gebruikers
Datawetenschappers, ingenieurs en analisten die patronen, trainingsmodellen of workflows voor machine learning verkennen.
Bedrijfsanalisten, leidinggevenden en operationele teams die rapporten en KPI's genereren.
Missie
Flexibele opslag voor grote hoeveelheden ruwe, diverse data die wordt gebruikt voor dataverkenning, AI en machine learning.
Gecentraliseerde gegevensopslagruimte voor gestructureerde, verwerkte gegevens die worden gebruikt voor rapportage, dashboards en business intelligence.
Kosten
Opslag van lagekostenobjecten
Hogere opslag- en verwerkingskosten door voorbewerking en optimalisatie.

Kiezen tussen datalakes en datawarehouses

Omdat datalakes onbewerkte data in elk formaat kunnen opslaan, zijn ze ideaal voor bedrijven die flexibiliteit nodig hebben. Retailers bijvoorbeeld verzamelen enorme bedragen uit meerdere bronnen, zoals websites, mobiele apps, sociale media, point-of-salesystemen en andere. Omdat de gegevens die ze verzamelen niet hoeven te worden opgeschoond, getransformeerd of gestructureerd, kunnen ze kosteneffectievere opslagsystemen gebruiken die gemakkelijk kunnen worden opgeschaald. De kosten van het verwerken van onbewerkte gegevens bij query's kunnen echter hoger zijn dan de geoptimaliseerde query's van een datawarehouse.

Ter vergelijking: de kosten zullen hoger zijn bij datawarehouses. Voor het reinigen, transformeren en structureren van processen vóór het laden, evenals indexering en partitionering na het laden, zijn extra resources en opslag nodig om te werken. Deze optimalisatie resulteert echter in gebruiksklare gegevens voor business intelligence, rapportage en operationele analyses. Met datawarehouses kunnen analisten en leidinggevenden rapporten genereren, KPI's bewaken en snel en eenvoudig onderbouwde beslissingen nemen.

Er zij op gewezen dat datalakes nieuwe kansen ontsluiten voor AI-applicaties en applicaties voor machine learning. De uitgebreide en gevarieerde datasets die ze opslaan, stellen dataspecialisten in staat om trends te vinden, voorspellende modellen te bouwen en applicaties voor machine learning uit te voeren. Dit resulteert bijvoorbeeld in aanbevelingssystemen die producten voorstellen aan gebruikers op basis van interacties uit het verleden of natuurlijke taalverwerkingstools die sentimentanalyse uitvoeren op klantbeoordelingen of opmerkingen op sociale media.

Tegenwoordig draaien veel moderne bedrijven data-architecturen die in wezen combinaties van beide zijn. Deze datalakehouses willen de flexibiliteit van een datalake bieden met het beheer en de prestaties van een datawarehouse. Terwijl de acceptatie snel toeneemt, vertrouwen veel bedrijven nog steeds op traditionele magazijnen voor kritische rapportage.

Voorbeelden en use cases over de hele wereld

Hier volgen voorbeelden van hoe verschillende branches datalakes, datawarehouses of een combinatie van elementen uit beide gebruiken om aan hun unieke behoeften te voldoen.

Gezondheidszorg: ziekenhuizen gebruiken vaak een datalake-architectuur om de enorme hoeveelheden en verschillende soorten data die hun activiteiten genereren op te slaan, te beheren en te analyseren. Dit omvat ongestructureerde draagbare data en medische beelden, semi-gestructureerde HL7-patiëntgegevens en gestructureerde laboratoriumtestresultaten. Door het allemaal te consolideren in een centrale repository, kunnen ze geavanceerde analytics en AI toepassen op de onbewerkte data, bijvoorbeeld om risicopatiënten te identificeren of genomica te analyseren om behandelingsplannen te personaliseren. Met patiënten die nu zijn uitgerust met “slimme” draagbare apparaten die data over vitale functies streamen, kunnen zorgaanbieders zelfs vroegtijdige waarschuwingssignalen detecteren en sneller ingrijpen.

Financiën: Banken en andere financiële instellingen moeten zich houden aan de AML-regels en strenge regels voor financiële verslaglegging (zoals Sarbanes-Oxley in de VS of Bazel III internationaal). Door datawarehouses te gebruiken om gestructureerde financiële gegevens uit meerdere systemen op te slaan, waaronder transactierecords, rekeningsaldi en handelsgegevens, kunnen ze wettelijke rapporten genereren die voldoen aan governance- en beveiligingsvereisten. Naast compliance gebruiken financiële instellingen ook datawarehouses om hun business intelligence van stroom te voorzien, risico's te beheren en fraude op te sporen door complexe query's uit te voeren in historische en huidige datasets.

Media: videostreamingservices gebruiken een datalakehouse-benadering om gebruikersgegevens te verzamelen, op te slaan en te analyseren om gepersonaliseerde ervaringen te leveren. Ze nemen verschillende soorten data uit meerdere bronnen, zoals streaminglogs en social media feedback, en slaan ze op in een centrale repository. Deze gegevens kunnen vervolgens worden gebruikt om modellen voor automatisch leren te bouwen die de meest relevante content aanbevelen. Dezelfde gegevens kunnen ook worden gecureerd en gestructureerd in subsets voor analyse- of rapportagebehoeften, waardoor dashboards over bewaarpercentages kunnen worden gegenereerd of beslissingen over contentacquisities kunnen worden geïnformeerd.

Data lakehouses worden snel de voorkeursoptie voor bedrijven die de waarde van hun data willen maximaliseren. Ze kunnen zowel use cases voor business intelligence als AI en machine learning op één platform ondersteunen. Er moet echter worden opgemerkt dat ze zich nog steeds ontwikkelen en dat sommige bedrijven blijven vertrouwen op traditionele datawarehouses voor bedrijfskritische rapportage.

Het potentieel van AI als drijvende kracht achter productiviteit en efficiëntie heeft vooral invloed gehad op data-architecturen, met enkele opkomende datalake- en data lakehouse-platforms die nu zijn geïntegreerd met LLM's. Dit stelt niet-technische gebruikers in staat om gegevens te verkennen en te analyseren door query's in gewone taal te vragen. Een gebruiker kan bijvoorbeeld de vraag "toon mij verkooptrends in Q2" vragen en de LLM kan SQL genereren die het systeem kan begrijpen. Dit democratiseert de toegang tot datagedreven inzichten.

Serverloze architecturen ontstaan ook als een strategie, waarbij bedrijven een cloudprovider inhuren om hun data-infrastructuur te beheren. In deze regeling betaalt een bedrijf voor toegang tot een dataplatform in plaats van het opzetten en beheren van hun eigen platform. De voordelen hiervan zijn eenvoudigere schaalbaarheid en kostenefficiëntie. De cloudprovider biedt flexibiliteit in bandbreedte in het geval van pieken in gegevensvolume of het laden van query's, en het bedrijf betaalt alleen voor wat ze gebruiken. Op deze manier kunnen ontwikkelaars sneller inzetten, omdat ze niet hoeven te worstelen met infrastructuuroverwegingen.

Sommige bedrijven kiezen zelfs voor een multicloudstrategie en distribueren hun datalakes en magazijnen over verschillende cloudservices. Het belangrijkste voordeel is veerkracht in redundantie. Als de ene cloud offline gaat, kan het bedrijf op een andere blijven draaien. Ze kunnen ook specifieke workflows op bepaalde wolken optimaliseren, bijvoorbeeld als één service gespecialiseerd is in machine learning. In sommige branches of landen moeten gevoelige gegevens worden opgeslagen in een regio of cloudprovider die voldoet aan lokale conformiteitsvereisten.

Om data te verbinden, beheren en beheren in meerdere cloudomgevingen, kunnen bedrijven data fabric-architecturen implementeren. Ze bieden realtime toegang tot data in afzonderlijke maar gesynchroniseerde systemen en applicaties, waardoor een uniforme weergave in het hele landschap ontstaat.

Om gevoelige gegevens zoals medische dossiers, BSN-nummers en broncodes te beschermen, passen organisaties ook beleid toe zoals zero-trust toegangscontroles in hun dataplatforms. Deze controles vereisen dat alle gebruikers hun identiteit verifiëren om toegang te krijgen tot de gegevens die ze nodig hebben.

Veelgestelde vragen

Wat is een datalake?
Een datalake is een opslagsysteem dat is ontworpen om grote hoeveelheden onbewerkte data in de oorspronkelijke indeling op te slaan, zoals cijfers, tekst, afbeeldingen, video's of logs. Zie het als een gigantisch “digitaal reservoir” waar allerlei informatie kan binnenstromen zonder direct georganiseerd te worden.

Datalakes zijn nuttig voor dataspecialisten die modellen voor machine learning willen trainen die aanbevelingssystemen voor content mogelijk maken.
Wat is een datawarehouse?

Een datawarehouse is een opslagsysteem dat primair is ontworpen om grote hoeveelheden gestructureerde gegevens op te slaan. Gestructureerde data wordt op een bepaalde manier opgeschoond, georganiseerd en opgemaakt. (Denk hierbij aan de gedefinieerde rijen en kolommen van een spreadsheet). Meer moderne magazijnen kunnen ook omgaan met bepaalde semi-gestructureerde indelingen zoals JSON of XML.

Bedrijven gebruiken datawarehouses om snel vragen te beantwoorden, rapporten te genereren en belangrijke prestatiecijfers bij te houden. Deze functies worden gecategoriseerd als business intelligence.

Wat is een datalakehouse?
Een datalakehouse is een modern dataplatform dat het beste van datalakes en datawarehouses combineert. Het kan alle soorten gegevens opslaan (ruw, ongestructureerd of semi-gestructureerd) zonder dat deze eerst hoeven te worden georganiseerd. Het maakt snelle, gestructureerde analyse en rapportage mogelijk wanneer dat nodig is.
Wat is een schema? Wat is het verschil tussen schema-on-read versus schema-on-writing?

Schema's zijn regels voor de manier waarop gegevens worden georganiseerd, zoals wat voor soort gegevens kunnen worden opgeslagen (getallen, datums), hoe de gegevens zijn gerangschikt (tabellen en kolommen) en hoe de informatie zich tot elkaar verhoudt.

Schema-on-writing betekent dat de gegevens in een vooraf gedefinieerde structuur (schema) moeten passen voordat ze worden opgeslagen. Zo werken datawarehouses. Ze zorgen ervoor dat de gegevens vooraf schoon en klaar zijn voor analyse.

Schema-on-read betekent dat de structuur alleen wordt toegepast als iemand de data wil gebruiken of analyseren. Zo werken datalakes. Ze maken meer flexibiliteit mogelijk omdat de data eerst in elke vorm kan worden opgeslagen, en je hoeft het niet onmiddellijk te organiseren. De afwegingen van deze aanpak omvatten echter tragere querytijden en mogelijke inconsistenties, aangezien verschillende gebruikers dezelfde onbewerkte data mogelijk anders interpreteren.

Schema-on-writing daarentegen dwingt consistentie vooraf af, maar vermindert de flexibiliteit.

Wat is het verschil tussen gestructureerde, ongestructureerde en semigestructureerde gegevens?

Gestructureerde data is zeer georganiseerd, gemakkelijk te zoeken en kan meestal worden opgeslagen in tabellen, zoals klantnamen, verkoopnummers en datums.

Ongestructureerde data heeft geen vast formaat en is moeilijker te organiseren, zoals video's, afbeeldingen, audiobestanden en social media posts.

Semi-gestructureerde data zit ergens tussenin. Het heeft een organisatie maar niet zo streng als tabellen. Denk aan JSON-bestanden, XML-documenten en e-mails.

SAP logo

Haal maximale waarde uit je data

Breng alles samen met SAP Business Data Cloud.

Meer informatie