Wat is een datawarehouse?
Een datawarehouse (DW) is een digitaal opslagsysteem dat grote hoeveelheden data uit veel verschillende bronnen met elkaar verbindt en harmoniseert.
default
{}
default
{}
primary
default
{}
secondary
Overzicht datawarehouse
Een datawarehouse (DW) is een gecentraliseerde repository die grote hoeveelheden huidige en historische gegevens uit meerdere bronnen verzamelt, integreert en opslaat. Het ondersteunt business intelligence (BI), rapportage en geavanceerde analyses door één consistente bron van waarheid te bieden. Door data te consolideren en te standaardiseren, kunnen organisaties betrouwbare inzichten genereren, voldoen aan wettelijke vereisten en weloverwogen, datagedreven beslissingen nemen.
Data stromen meestal uit in een datawarehouse vanuit operationele systemen (zoals ERP en CRM), interne databases en externe bronnen zoals partnerplatforms, IoT-apparaten, weerfeeds en sociale media. Terwijl cloud computing is gerijpt, is dataopslag verschoven van traditionele on-premise omgevingen naar flexibele multicloud- en hybride cloudarchitecturen.
Moderne datawarehouses zijn gebouwd om zowel gestructureerde als ongestructureerde data te beheren, zoals video's, afbeeldingen en sensorstromen. Velen beschikken over geïntegreerde analytics en in-memory verwerking voor snellere query's, realtime gegevenstoegang en efficiëntere rapportage- en BI-workflows. Zonder datawarehouse hebben organisaties moeite om heterogene databronnen te combineren, data op de juiste manier voor te bereiden op analytics en zichtbaarheid van datasets te behouden.
Afbeelding 1: Overzicht van een datawarehouse
Voordelen van datawarehousing
Een goed ontworpen datawarehouse is de ruggengraat van succesvolle business intelligence, rapportage en analytics. Door data te consolideren in één versie van de waarheid, versnelt het inzichten voor betere, betrouwbaardere besluitvorming in het hele bedrijf. De belangrijkste voordelen zijn:
- Betere bedrijfsanalyses: een datawarehouse brengt data uit meerdere systemen samen in één consistente weergave van het bedrijf, zodat leiders trends eenvoudiger kunnen analyseren en slimmere, datagedreven beslissingen kunnen nemen.
- Snellere query's en inzichten: omdat datawarehouses zijn geoptimaliseerd voor analyses, niet voor transacties, kunnen gebruikers complexe query's in grote datasets veel sneller uitvoeren, wat de rapportagecycli versnelt en de afhankelijkheid van IT vermindert.
- Verbeterde datakwaliteit en consistentie: data worden opgeschoond, gevalideerd en gestandaardiseerd voordat ze het magazijn binnenkomen, zodat analyses zijn gebaseerd op betrouwbare informatie van hoge kwaliteit. Betere datakwaliteit leidt direct tot betere beslissingen.
- Dieper historisch inzicht: een datawarehouse bewaart rijke historische data, waardoor het gemakkelijker wordt om langetermijnpatronen te herkennen, prestaties te beoordelen en nauwkeurigere prognoses te maken die de strategische planning versterken.
Afbeelding 2: Screenshot van datawarehouse waarop de herkomst van data wordt weergegeven
Welke soorten data kan een datawarehouse opslaan?
Toen datawarehouses aan het eind van de jaren tachtig voor het eerst verschenen, werden ze gebouwd om gestructureerde data op te slaan, zoals klantgegevens, productlijsten en transactierecords. Naarmate de bedrijfsbehoeften werden uitgebreid, wilden bedrijven ook werken met ongestructureerde data, zoals documenten, afbeeldingen, video's, e-mails, berichten op sociale media en sensoruitvoer van machines en IoT-apparaten.
Moderne datawarehouses kunnen zowel gestructureerde als ongestructureerde data verwerken en samenbrengen om bedrijven een completer, geïntegreerd beeld te geven voor sterkere inzichten.
Belangrijkste concepten en vergelijkingen
Er is veel te leren in de wereld van datawarehousing. Hier zijn enkele van de belangrijkste concepten. Verken aanvullende definities en veelgestelde vragen in onze glossary.
Datawarehouse vs. database
Databases en datawarehouses slaan beide gegevens op, maar ze hebben verschillende rollen. Een database beheert realtime informatie voor een specifiek bedrijfsgebied, terwijl een datawarehouse huidige en historische data uit de hele organisatie combineert om rapportage en analyses te ondersteunen. Hoewel het draait op databasetechnologie, voegt een datawarehouse tools toe voor het integreren, modelleren en beheren van data in de loop der tijd.
Databases houden dagelijkse bewerkingen actief door transacties te verwerken en records snel bij te werken. Datawarehouses ondersteunen analytics, zodat teams trends kunnen opsporen, prestaties kunnen vergelijken en strategische beslissingen kunnen nemen.
Datawarehouse vs. datalake
Datawarehouses en datalakes slaan beide grote hoeveelheden data op, maar hebben verschillende doeleinden. Een datawarehouse bevat gestructureerde, voorbereide gegevens voor rapportage en analyse, terwijl een datalake onbewerkte, onverwerkte gegevens opslaat die later kunnen worden gebruikt. Ze werken vaak samen: ruwe data bevindt zich in het meer en wordt getransformeerd en verplaatst naar het magazijn wanneer dat nodig is voor analyse.
Gebruik een datalake voor flexibele, goedkope opslag van onbewerkte data. Gebruik een datawarehouse voor snelle, betrouwbare analyses van gestructureerde data. De meeste organisaties profiteren van beide; het meer vangt alles op, en het magazijn verandert het in inzicht.
Figuur 3: Vergelijking van een datawarehouse en een datalake
Datawarehouse vs. datamart
Een datamart is een subsectie van een datawarehouse, specifiek gepartitioneerd voor een afdeling of branche zoals verkoop, marketing of finance. Een verkoopdatamart kan zich bijvoorbeeld richten op leads, pijplijnactiviteit en gesloten gewonnen deals, terwijl een financiële datamart zou focussen op budgetten, prognoses en opbrengstmeetwaarden.
Sommige datamarts worden ook voor zelfstandige operationele doeleinden gemaakt. Terwijl een datawarehouse fungeert als de centrale gegevensopslag voor een heel bedrijf, bedient een datamart relevante gegevens voor een bepaalde groep gebruikers. Dit vereenvoudigt de toegang tot gegevens, versnelt de analyse en geeft ze controle over hun eigen gegevens. In een datawarehouse worden vaak meerdere datamarts ingezet.
Figuur 4: Diagram dat laat zien hoe een datamart werkt
Belangrijkste componenten van een datawarehouse
Een modern datawarehouse omvat vier belangrijke componenten: een centrale database, tools voor data-integratie en opname, metagegevens en toegangstools. Samen bieden ze snelle, betrouwbare analyses op schaal.
Figuur 5: Diagram met de componenten van een datawarehouse
- Centrale database: De core storage engine voor het magazijn, traditioneel een relationele database, maar steeds meer een in-memory of cloud-native systeem voor betere prestaties.
- Data-integratie en -opname: data wordt ingevoerd vanuit bronsystemen met behulp van batchmethoden zoals ETL en ELT, samen met realtime opties zoals replicatie van wijzigingsgegevensvastlegging en streamingpijplijnen. Deze processen behandelen ook transformatie, kwaliteitscontroles en verrijking.
- Metagegevens: informatie die de oorsprong, structuur, betekenis en manier van gebruik van de gegevens beschrijft, zowel binnen de zakelijke als technische context.
- Toegang tot tools: tools waarmee gebruikers magazijndata kunnen opvragen, analyseren en gebruiken, inclusief rapportagetools, dashboards, analyseplatforms en tools voor applicatieontwikkeling.
Architectuur van datawarehouses
Historisch gezien werden datawarehouses ingedeeld in lagen die waren afgestemd op hoe gegevens zich door het systeem verplaatsten. Een typisch datawarehouse bestaat uit drie lagen. Moderne platforms vereenvoudigen de architectuur om snellere databeweging en analytics te ondersteunen.
Figuur 6: Diagram van datawarehouse-architectuur
- Datalaag: gegevens worden opgehaald uit bronsystemen en vervolgens getransformeerd en in het magazijn geladen met behulp van een opnamemethode zoals ETL. Deze laag omvat de kerndatabase, datamarts en datalakes, samen met metagegevens- en integratietools die gegevens standaardiseren en voorbereiden.
- Semantieklaag: deze laag organiseert en modelleert data, zodat het eenvoudig is om gegevens op te vragen en te analyseren, met samengestelde views en bedrijfsdefinities die snelle, consistente analyses ondersteunen.
- Analyselaag: de bovenste laag biedt de tools waarmee gebruikers werken: dashboards, rapporten, KPI-bewaking, geavanceerde analyses en sandboxruimten voor het verkennen van gegevens en het bouwen van nieuwe modellen.
Datawarehouses werden van oudsher gebouwd en beheerd door IT-teams, maar moderne platforms stellen zakelijke gebruikers in toenemende mate in staat om rechtstreeks met data te werken. Deze verschuiving wordt aangedreven door de volgende belangrijke mogelijkheden:
- Een bedrijfsvriendelijke semantische laag die natuurlijke taal gebruikt, relaties verduidelijkt en gebruikers in staat stelt om gegevens te verrijken met nieuwe context.
- Virtuele werkruimten die datamodellen, logica en samenwerking in één beheerde omgeving brengen.
- Cloudgebaseerde tools die het voor werknemers eenvoudiger maken om nieuwe databronnen te verbinden, analyses uit te voeren en inzichten op te bouwen met veel minder afhankelijkheid van IT.
Hoe werkt een datawarehouse?
Een datawarehouse organiseert informatie uit jouw hele bedrijf, zodat deze gemakkelijk kan worden verkend, vertrouwd en geanalyseerd. Het proces volgt meestal vier eenvoudige stappen:
- Extraheren: gegevens worden opgehaald uit bronsystemen zoals applicaties, databases en cloudservices. In dit stadium worden de gegevens verzameld zoals ze zijn.
- Transformeren: de data wordt opgeschoond, gestandaardiseerd en vormgegeven, zodat ze consistent en gebruiksklaar zijn. Het kan hierbij gaan om het verwijderen van fouten, het afstemmen van indelingen of het toepassen van bedrijfsregels.
- Laden: de voorbereide gegevens worden in het magazijn opgeslagen in een gestructureerde indeling die is geoptimaliseerd voor snelle rapportage en analyses.
- Analyseren: zodra de gegevens zijn geladen, kunnen teams deze verkennen met behulp van dashboards, rapporten en geavanceerde analyses om weloverwogen beslissingen te nemen.
ETL vs. ELT: Wat is het verschil?
ETL (Extract → Transform → Load): gegevens worden getransformeerd voordat ze het magazijn binnenkomen. Deze aanpak komt veel voor bij traditionele datawarehouses die beperkte verwerkingskracht hebben.
ELT (Extract → Load → Transform): ruwe gegevens worden eerst in het magazijn geladen en binnen het magazijn getransformeerd. Moderne cloudplatforms zijn voorstander van deze methode omdat ze grootschalige transformaties efficiënt kunnen verwerken.
Wat zijn de vier belangrijkste kenmerken van een datawarehouse?
Een datawarehouse is gebouwd op een paar kernprincipes die ervoor zorgen dat het betrouwbare, consistente en analyseerbare informatie levert in het hele bedrijf. De vier belangrijkste kenmerken zijn:
- Onderwerpgericht: georganiseerd rond kernbedrijfsonderwerpen – zoals klanten of sales – ter ondersteuning van analyses.
- Geïntegreerd: data van verschillende systemen, zoals ERP en CRM, worden gereinigd en gestandaardiseerd, zodat ze consistent in elkaar passen.
- Tijdvariant: slaat historische gegevens op over lange perioden, waardoor trend- en prestatieanalyses mogelijk zijn.
- Niet-vluchtig: data is stabiel zodra geladen, leesbaar, maar niet bijgewerkt of verwijderd, wat zorgt voor een betrouwbare bron van waarheid.
Voordelen van datawarehouse in de cloud
Datawarehouses in de cloud worden steeds populairder omdat ze aanzienlijke voordelen bieden ten opzichte van traditionele on-premise systemen. Hier volgen de zeven belangrijkste voordelen van het verplaatsen van jouw datawarehouse naar de cloud:
- Snel te implementeren: spin up opslag, berekening en nieuwe omgevingen zoals datamarts of sandboxen in enkele minuten, overal.
- Lagere TCO: betaal alleen voor de resources die je gebruikt. Vermijd hardware, faciliteiten en onderhoudskosten en verlaag uitgaven door opslag te scheiden en te berekenen.
- Elasticiteit: Schaal direct omhoog of omlaag om veranderende werkbelastingen en grote datavolumes zonder handmatige inspanning te verwerken.
- Beveiliging en herstel bij calamiteiten: cloudplatforms bieden vaak sterkere beveiligingscontroles, encryptie en automatische back-ups om te beschermen tegen gegevensverlies.
- Realtime prestaties: in-memory en cloud-native engines bieden snelle verwerkingssnelheden voor realtime inzichten.
- Toegang tot nieuwe technologieën: integreer eenvoudig mogelijkheden zoals machine learning, geautomatiseerde inzichten en geavanceerde analytics.
- Geef zakelijke gebruikers meer mogelijkheden: geeft teams een uniform overzicht van data en intuïtieve tools om informatie te analyseren en nieuwe bronnen te verbinden zonder grote IT-betrokkenheid.
Afbeelding 7: datawarehousing ondersteunt uitgebreide onkostenanalyses
Best practices voor datawarehouse
Wanneer je een nieuw datawarehouse bouwt of een bestaand magazijn uitbreidt, helpt het volgen van beproefde praktijken je om jouw doelen te bereiken en tegelijkertijd tijd en kosten te besparen. Sommige praktijken richten zich op bedrijfsbehoeften, terwijl andere onder bredere IT-begeleiding vallen. De onderstaande lijst is een solide uitgangspunt, en je zult het verfijnen terwijl je met jouw technologie- en servicepartners werkt.
Best practices voor bedrijven
- Definieer de informatie die je nodig hebt. Begin met het identificeren van de vragen die je wilt beantwoorden en de beslissingen die je wilt ondersteunen. Bepaal van daaruit welke gegevensbronnen vereist zijn. Branchegroepen, klanten en leveranciers kunnen ook advies bieden over nuttige gegevens.
- Documenteer de status van jouw huidige gegevens. Leg vast waar jouw data zich bevinden, hoe ze zijn gestructureerd en hoe de kwaliteit ervan is om hiaten, noodzakelijke transformaties en de bedrijfsregels te identificeren waarop jouw magazijn zal vertrouwen.
- Stel het juiste team samen. Neem ook executive sponsors, bedrijfsmanagers en eindgebruikers op die op de inzichten zullen vertrouwen. Krijg inzicht in de standaardrapporten, KPI's en meetwaarden die ze nodig hebben om succesvol te zijn.
- Prioriteit toekennen aan jouw eerste projecten. Begin met een of twee pilots die duidelijke bedrijfswaarde en beheersbare scope bieden. Vroege overwinningen helpen het momentum op te bouwen.
- Kies een sterke technologiepartner. Selecteer een leverancier met bewezen ervaring, implementatieondersteuning en een platform dat is afgestemd op jouw implementatiebehoeften.
- Creëer een realistisch projectplan. Werk samen met jouw team om een duidelijke roadmap en tijdlijn op te stellen. Regelmatige communicatie en statusupdates houden iedereen op één lijn.
Best practices voor IT
- Bewaak prestaties, toegang en beveiliging. Een magazijn moet zowel snel als beschermd zijn. Houd systeemgebruik, beveiligingsgebeurtenissen en toegangspatronen bij om ervoor te zorgen dat gegevens veilig blijven en voor geautoriseerde gebruikers gemakkelijk bereikbaar blijven.
- Onderhoud datakwaliteit, metadata, structuur en governance. Nieuwe gegevens die het magazijn invoeren, moeten consistente regels volgen. Standaardiseer opschoning, transformatie, metagegevensdefinities en datagovernance, zodat gebruikers de resultaten kunnen vertrouwen.
- Zorg voor een flexibele architectuur. Naarmate het bedrijf groeit, hebben teams nieuwe datamarts, modellen en workloads nodig. Een schaalbare, modulaire architectuur ondersteunt deze behoeften beter dan stijve of nauw gekoppelde systemen.
- Automatiseer onderhoud en activiteiten. Gebruik automatisering en machine learning om taken zoals indexering, bewaking, optimalisatie en updates te stroomlijnen. Dit verbetert de prestaties en verlaagt de operationele kosten.
- Gebruik de cloud strategisch. Verschillende teams hebben verschillende eisen. Houd indien nodig bepaalde workloads op locatie en gebruik datawarehouses in de cloud voor schaalbaarheid, lagere kosten en eenvoudigere toegang op verschillende apparaten.
Samenvatting
Moderne datawarehouses, vooral datawarehouses in de cloud, spelen een centrale rol in digitale transformatie door data uit interne en externe bronnen te verenigen voor een volledig, tijdig beeld van het bedrijf. Ze ondersteunen dashboards, KPI's, waarschuwingen en rapporten in de hele organisatie en ondersteunen snelle, complexe analyses zonder dat dit gevolgen heeft voor operationele systemen.
Omdat ze eenvoudig klein en schaalbaar kunnen beginnen, helpen ze zowel bedrijfsteams als bedrijfseenheden om betere beslissingen te nemen en prestaties te verbeteren.
Veelgestelde vragen
- Enterprise Data Warehouse: een EDW is een centraal, bedrijfsbreed datawarehouse dat alle actuele en historische data op één plek opslaat. Het biedt één consistente versie van de waarheid voor analytics, rapportage en KPI's in de hele organisatie. De meeste moderne EDW's zijn cloudgebaseerd voor schaalbaarheid en eenvoudigere toegang.
- Operationele dataopslag: een ODS is een bijna realtime gegevensopslag die wordt gebruikt voor operationele rapportage en dagelijkse activiteiten. Het zit tussen transactionele systemen en de EDW, waarbij gegevens uit meerdere bronnen in een meer actuele, maar niet volledig historische vorm worden gecombineerd. Het is handig wanneer gegevens regelmatig moeten worden vernieuwd voor snelle operationele beslissingen.
- Datamart: een datamart is een kleiner, onderwerpspecifiek segment van een datawarehouse, ontworpen voor een bepaald team of een bepaalde bedrijfseenheid, zoals finance, sales of marketing.Het biedt snelle toegang tot de data die het belangrijkst zijn voor die groep zonder het hele magazijn bloot te leggen.
- Centrale database: De primaire opslaglaag waar gestructureerde, opgeschoonde en geïntegreerde gegevens zijn ondergebracht. Dit is meestal een relationele, kolom- of cloud-native database die is geoptimaliseerd voor analytics.
- Tools voor data-integratie/-opname: tools en processen, zoals ETL (extraheren, transformeren, laden), ELT (extraheren, laden, transformeren), batchbelastingen en realtimereplicatie, die data uit bronsystemen naar het magazijn brengen en voorbereiden op gebruik.
- Metadata: Informatie die de gegevens beschrijft: waar ze vandaan komen, hoe ze zijn gestructureerd, wat het betekent en hoe ze moeten worden gebruikt. Metagegevens helpen gebruikers de gegevens te begrijpen en te vertrouwen.
- Toegangstools: De applicaties en interfaces waarmee gebruikers de gegevens kunnen opvragen, visualiseren, verkennen en analyseren, zoals rapportagetools, dashboards, analyseplatforms en SQL-querytools.
SAP products
SAP Business Data Cloud
Vergroot de waarde van AI met jouw krachtigste data.