flex-height
text-black

Serverruimte in een datacenter

Wat is een datawarehouse?

Een datawarehouse (DW) is een digitaal opslagsysteem dat grote hoeveelheden data uit veel verschillende bronnen met elkaar verbindt en harmoniseert.

default

{}

default

{}

primary

default

{}

secondary

Overzicht datawarehouse

Een datawarehouse (DW) is een gecentraliseerde repository die grote hoeveelheden huidige en historische gegevens uit meerdere bronnen verzamelt, integreert en opslaat. Het ondersteunt business intelligence (BI), rapportage en geavanceerde analyses door één consistente bron van waarheid te bieden. Door data te consolideren en te standaardiseren, kunnen organisaties betrouwbare inzichten genereren, voldoen aan wettelijke vereisten en weloverwogen, datagedreven beslissingen nemen.

Data stromen meestal uit in een datawarehouse vanuit operationele systemen (zoals ERP en CRM), interne databases en externe bronnen zoals partnerplatforms, IoT-apparaten, weerfeeds en sociale media. Terwijl cloud computing is gerijpt, is dataopslag verschoven van traditionele on-premise omgevingen naar flexibele multicloud- en hybride cloudarchitecturen.

Moderne datawarehouses zijn gebouwd om zowel gestructureerde als ongestructureerde data te beheren, zoals video's, afbeeldingen en sensorstromen. Velen beschikken over geïntegreerde analytics en in-memory verwerking voor snellere query's, realtime gegevenstoegang en efficiëntere rapportage- en BI-workflows. Zonder datawarehouse hebben organisaties moeite om heterogene databronnen te combineren, data op de juiste manier voor te bereiden op analytics en zichtbaarheid van datasets te behouden.

Voordelen van datawarehousing

Een goed ontworpen datawarehouse is de ruggengraat van succesvolle business intelligence, rapportage en analytics. Door data te consolideren in één versie van de waarheid, versnelt het inzichten voor betere, betrouwbaardere besluitvorming in het hele bedrijf. De belangrijkste voordelen zijn:

Welke soorten data kan een datawarehouse opslaan?

Toen datawarehouses aan het eind van de jaren tachtig voor het eerst verschenen, werden ze gebouwd om gestructureerde data op te slaan, zoals klantgegevens, productlijsten en transactierecords. Naarmate de bedrijfsbehoeften werden uitgebreid, wilden bedrijven ook werken met ongestructureerde data, zoals documenten, afbeeldingen, video's, e-mails, berichten op sociale media en sensoruitvoer van machines en IoT-apparaten.

Moderne datawarehouses kunnen zowel gestructureerde als ongestructureerde data verwerken en samenbrengen om bedrijven een completer, geïntegreerd beeld te geven voor sterkere inzichten.

Belangrijkste concepten en vergelijkingen

Er is veel te leren in de wereld van datawarehousing. Hier zijn enkele van de belangrijkste concepten. Verken aanvullende definities en veelgestelde vragen in onze glossary.

Datawarehouse vs. database

Databases en datawarehouses slaan beide gegevens op, maar ze hebben verschillende rollen. Een database beheert realtime informatie voor een specifiek bedrijfsgebied, terwijl een datawarehouse huidige en historische data uit de hele organisatie combineert om rapportage en analyses te ondersteunen. Hoewel het draait op databasetechnologie, voegt een datawarehouse tools toe voor het integreren, modelleren en beheren van data in de loop der tijd.

Databases houden dagelijkse bewerkingen actief door transacties te verwerken en records snel bij te werken. Datawarehouses ondersteunen analytics, zodat teams trends kunnen opsporen, prestaties kunnen vergelijken en strategische beslissingen kunnen nemen.

Datawarehouse vs. datalake

Datawarehouses en datalakes slaan beide grote hoeveelheden data op, maar hebben verschillende doeleinden. Een datawarehouse bevat gestructureerde, voorbereide gegevens voor rapportage en analyse, terwijl een datalake onbewerkte, onverwerkte gegevens opslaat die later kunnen worden gebruikt. Ze werken vaak samen: ruwe data bevindt zich in het meer en wordt getransformeerd en verplaatst naar het magazijn wanneer dat nodig is voor analyse.

Gebruik een datalake voor flexibele, goedkope opslag van onbewerkte data. Gebruik een datawarehouse voor snelle, betrouwbare analyses van gestructureerde data. De meeste organisaties profiteren van beide; het meer vangt alles op, en het magazijn verandert het in inzicht.

Datawarehouse vs. datamart

Een datamart is een subsectie van een datawarehouse, specifiek gepartitioneerd voor een afdeling of branche zoals verkoop, marketing of finance. Een verkoopdatamart kan zich bijvoorbeeld richten op leads, pijplijnactiviteit en gesloten gewonnen deals, terwijl een financiële datamart zou focussen op budgetten, prognoses en opbrengstmeetwaarden.

Sommige datamarts worden ook voor zelfstandige operationele doeleinden gemaakt. Terwijl een datawarehouse fungeert als de centrale gegevensopslag voor een heel bedrijf, bedient een datamart relevante gegevens voor een bepaalde groep gebruikers. Dit vereenvoudigt de toegang tot gegevens, versnelt de analyse en geeft ze controle over hun eigen gegevens. In een datawarehouse worden vaak meerdere datamarts ingezet.

Belangrijkste componenten van een datawarehouse

Een modern datawarehouse omvat vier belangrijke componenten: een centrale database, tools voor data-integratie en opname, metagegevens en toegangstools. Samen bieden ze snelle, betrouwbare analyses op schaal.

  1. Centrale database: De core storage engine voor het magazijn, traditioneel een relationele database, maar steeds meer een in-memory of cloud-native systeem voor betere prestaties.
  2. Data-integratie en -opname: data wordt ingevoerd vanuit bronsystemen met behulp van batchmethoden zoals ETL en ELT, samen met realtime opties zoals replicatie van wijzigingsgegevensvastlegging en streamingpijplijnen. Deze processen behandelen ook transformatie, kwaliteitscontroles en verrijking.
  3. Metagegevens: informatie die de oorsprong, structuur, betekenis en manier van gebruik van de gegevens beschrijft, zowel binnen de zakelijke als technische context.
  4. Toegang tot tools: tools waarmee gebruikers magazijndata kunnen opvragen, analyseren en gebruiken, inclusief rapportagetools, dashboards, analyseplatforms en tools voor applicatieontwikkeling.

Architectuur van datawarehouses

Historisch gezien werden datawarehouses ingedeeld in lagen die waren afgestemd op hoe gegevens zich door het systeem verplaatsten. Een typisch datawarehouse bestaat uit drie lagen. Moderne platforms vereenvoudigen de architectuur om snellere databeweging en analytics te ondersteunen.

Datawarehouses werden van oudsher gebouwd en beheerd door IT-teams, maar moderne platforms stellen zakelijke gebruikers in toenemende mate in staat om rechtstreeks met data te werken. Deze verschuiving wordt aangedreven door de volgende belangrijke mogelijkheden:

Hoe werkt een datawarehouse?

Een datawarehouse organiseert informatie uit jouw hele bedrijf, zodat deze gemakkelijk kan worden verkend, vertrouwd en geanalyseerd. Het proces volgt meestal vier eenvoudige stappen:

  1. Extraheren: gegevens worden opgehaald uit bronsystemen zoals applicaties, databases en cloudservices. In dit stadium worden de gegevens verzameld zoals ze zijn.
  2. Transformeren: de data wordt opgeschoond, gestandaardiseerd en vormgegeven, zodat ze consistent en gebruiksklaar zijn. Het kan hierbij gaan om het verwijderen van fouten, het afstemmen van indelingen of het toepassen van bedrijfsregels.
  3. Laden: de voorbereide gegevens worden in het magazijn opgeslagen in een gestructureerde indeling die is geoptimaliseerd voor snelle rapportage en analyses.
  4. Analyseren: zodra de gegevens zijn geladen, kunnen teams deze verkennen met behulp van dashboards, rapporten en geavanceerde analyses om weloverwogen beslissingen te nemen.

ETL vs. ELT: Wat is het verschil?

ETL (Extract → Transform → Load): gegevens worden getransformeerd voordat ze het magazijn binnenkomen. Deze aanpak komt veel voor bij traditionele datawarehouses die beperkte verwerkingskracht hebben.

ELT (Extract → Load → Transform): ruwe gegevens worden eerst in het magazijn geladen en binnen het magazijn getransformeerd. Moderne cloudplatforms zijn voorstander van deze methode omdat ze grootschalige transformaties efficiënt kunnen verwerken.

Wat zijn de vier belangrijkste kenmerken van een datawarehouse?

Een datawarehouse is gebouwd op een paar kernprincipes die ervoor zorgen dat het betrouwbare, consistente en analyseerbare informatie levert in het hele bedrijf. De vier belangrijkste kenmerken zijn:

  1. Onderwerpgericht: georganiseerd rond kernbedrijfsonderwerpen – zoals klanten of sales – ter ondersteuning van analyses.
  2. Geïntegreerd: data van verschillende systemen, zoals ERP en CRM, worden gereinigd en gestandaardiseerd, zodat ze consistent in elkaar passen.
  3. Tijdvariant: slaat historische gegevens op over lange perioden, waardoor trend- en prestatieanalyses mogelijk zijn.
  4. Niet-vluchtig: data is stabiel zodra geladen, leesbaar, maar niet bijgewerkt of verwijderd, wat zorgt voor een betrouwbare bron van waarheid.

Voordelen van datawarehouse in de cloud

Datawarehouses in de cloud worden steeds populairder omdat ze aanzienlijke voordelen bieden ten opzichte van traditionele on-premise systemen. Hier volgen de zeven belangrijkste voordelen van het verplaatsen van jouw datawarehouse naar de cloud:

  1. Snel te implementeren: spin up opslag, berekening en nieuwe omgevingen zoals datamarts of sandboxen in enkele minuten, overal.
  2. Lagere TCO: betaal alleen voor de resources die je gebruikt. Vermijd hardware, faciliteiten en onderhoudskosten en verlaag uitgaven door opslag te scheiden en te berekenen.
  3. Elasticiteit: Schaal direct omhoog of omlaag om veranderende werkbelastingen en grote datavolumes zonder handmatige inspanning te verwerken.
  4. Beveiliging en herstel bij calamiteiten: cloudplatforms bieden vaak sterkere beveiligingscontroles, encryptie en automatische back-ups om te beschermen tegen gegevensverlies.
  5. Realtime prestaties: in-memory en cloud-native engines bieden snelle verwerkingssnelheden voor realtime inzichten.
  6. Toegang tot nieuwe technologieën: integreer eenvoudig mogelijkheden zoals machine learning, geautomatiseerde inzichten en geavanceerde analytics.
  7. Geef zakelijke gebruikers meer mogelijkheden: geeft teams een uniform overzicht van data en intuïtieve tools om informatie te analyseren en nieuwe bronnen te verbinden zonder grote IT-betrokkenheid.

Best practices voor datawarehouse

Wanneer je een nieuw datawarehouse bouwt of een bestaand magazijn uitbreidt, helpt het volgen van beproefde praktijken je om jouw doelen te bereiken en tegelijkertijd tijd en kosten te besparen. Sommige praktijken richten zich op bedrijfsbehoeften, terwijl andere onder bredere IT-begeleiding vallen. De onderstaande lijst is een solide uitgangspunt, en je zult het verfijnen terwijl je met jouw technologie- en servicepartners werkt.

Best practices voor bedrijven

Best practices voor IT

Samenvatting

Moderne datawarehouses, vooral datawarehouses in de cloud, spelen een centrale rol in digitale transformatie door data uit interne en externe bronnen te verenigen voor een volledig, tijdig beeld van het bedrijf. Ze ondersteunen dashboards, KPI's, waarschuwingen en rapporten in de hele organisatie en ondersteunen snelle, complexe analyses zonder dat dit gevolgen heeft voor operationele systemen.

Omdat ze eenvoudig klein en schaalbaar kunnen beginnen, helpen ze zowel bedrijfsteams als bedrijfseenheden om betere beslissingen te nemen en prestaties te verbeteren.

Veelgestelde vragen

Wat is een datalake?
Een datalake is een plek om allerlei soorten big data op te slaan, of het nu gaat om gestructureerde data uit bedrijfsapplicaties of ongestructureerde data van mobiele apps, sociale media of IoT-apparaten (Internet of Things). Omdat gegevens worden opgeslagen in een natuurlijk formaat, kunnen ongestructureerde, semi-gestructureerde of binaire conversie, normalisatie of andere verwerking nodig zijn om analyses voor meerdere gegevenstypen mogelijk te maken. De meeste datalakes zijn cloudgebaseerd vanwege de grote hoeveelheden data die ze opslaan, de behoefte aan snelle verbindingen met gedistribueerde bronnen en de behoefte aan schaalbaarheid. Hun vermogen om enorme hoeveelheden ruwe data op te slaan maakt ze een flexibele, goedkope aanvulling op een datawarehouse.
Wat is ETL en ELT?
ETL staat voor “extraheren, transformeren en laden”. Het verwijst naar het proces van het nemen van gegevens uit een bronsysteem, het opschonen en vormgeven ervan in een bruikbaar formaat, en vervolgens laden in een datawarehouse of een andere gegevensopslag. Veel moderne systemen gebruiken ook ELT – “extraheren, laden en transformeren” – waarbij de gegevens eerst worden geladen en daarna worden getransformeerd. Beide benaderingen helpen om ruwe data om te zetten in iets dat kan worden geanalyseerd, of het nu uit transactionele systemen of complexere, ongestructureerde bronnen komt.
Wat is een datamart?
Een datamart is een specifiek segment van een datawarehouse dat is ontworpen voor een specifiek bedrijfsgebied of team, zoals finance of marketing. Het geeft die groep snel toegang tot de gegevens die het meest relevant zijn voor zijn werk en stelt de groep in staat om zijn eigen samengestelde dataset binnen het grotere magazijn te beheren. Een financiële datamart kan bijvoorbeeld budgetten, prognoses en opbrengstgegevens bevatten die zijn afgestemd op de rapportagebehoeften van het financiële team.
Wat is datamodellering?
Datamodellering is het proces waarbij wordt gedefinieerd hoe gegevens worden georganiseerd en verbonden, zodat ze effectief kunnen worden opgeslagen en gebruikt. Een datamodel schetst wat de gegevens vertegenwoordigen en hoe verschillende stukken zich tot elkaar verhouden, waardoor er een blauwdruk ontstaat voor een consistente structuur tussen systemen. Een verkoopgegevensmodel kan bijvoorbeeld laten zien hoe klanten, orders en producten samenwerken om rapportage en analyse te ondersteunen.
Wat is een Enterprise Data Warehouse (EDW)?
Een Enterprise Data Warehouse (EDW) is een gecentraliseerd systeem dat alle huidige en historische gegevens van een bedrijf op één plek opslaat. Het biedt één consistente informatiebron voor analyses, rapportage en bedrijfsbrede KPI's. Veel EDW's draaien in de cloud voor eenvoudigere toegang, schaalbaarheid en beheer.
Wat zijn de drie typen datawarehouses?
  1. Enterprise Data Warehouse: een EDW is een centraal, bedrijfsbreed datawarehouse dat alle actuele en historische data op één plek opslaat. Het biedt één consistente versie van de waarheid voor analytics, rapportage en KPI's in de hele organisatie. De meeste moderne EDW's zijn cloudgebaseerd voor schaalbaarheid en eenvoudigere toegang.
  2. Operationele dataopslag: een ODS is een bijna realtime gegevensopslag die wordt gebruikt voor operationele rapportage en dagelijkse activiteiten. Het zit tussen transactionele systemen en de EDW, waarbij gegevens uit meerdere bronnen in een meer actuele, maar niet volledig historische vorm worden gecombineerd. Het is handig wanneer gegevens regelmatig moeten worden vernieuwd voor snelle operationele beslissingen.
  3. Datamart: een datamart is een kleiner, onderwerpspecifiek segment van een datawarehouse, ontworpen voor een bepaald team of een bepaalde bedrijfseenheid, zoals finance, sales of marketing.Het biedt snelle toegang tot de data die het belangrijkst zijn voor die groep zonder het hele magazijn bloot te leggen.
Wat zijn de vier componenten van een datawarehouse?
  1. Centrale database: De primaire opslaglaag waar gestructureerde, opgeschoonde en geïntegreerde gegevens zijn ondergebracht. Dit is meestal een relationele, kolom- of cloud-native database die is geoptimaliseerd voor analytics.
  2. Tools voor data-integratie/-opname: tools en processen, zoals ETL (extraheren, transformeren, laden), ELT (extraheren, laden, transformeren), batchbelastingen en realtimereplicatie, die data uit bronsystemen naar het magazijn brengen en voorbereiden op gebruik.
  3. Metadata: Informatie die de gegevens beschrijft: waar ze vandaan komen, hoe ze zijn gestructureerd, wat het betekent en hoe ze moeten worden gebruikt. Metagegevens helpen gebruikers de gegevens te begrijpen en te vertrouwen.
  4. Toegangstools: De applicaties en interfaces waarmee gebruikers de gegevens kunnen opvragen, visualiseren, verkennen en analyseren, zoals rapportagetools, dashboards, analyseplatforms en SQL-querytools.
Is SQL een datawarehouse?
Nee. SQL is een taal die wordt gebruikt om gegevens op te vragen en te beheren, terwijl een datawarehouse een systeem is dat grote hoeveelheden data opslaat, organiseert en verwerkt voor analyse. SQL is gewoon een van de belangrijkste tools die worden gebruikt om met data binnen een datawarehouse te werken.