Wat is een datawarehouse?
Een datawarehouse (DW) is een digitaal opslagsysteem dat grote hoeveelheden data uit veel verschillende bronnen verbindt en harmoniseert.
Datawarehouse-overzicht
Een datawarehouse (DW) is een digitaal opslagsysteem dat grote hoeveelheden data uit veel verschillende bronnen verbindt en harmoniseert. Het doel is om business intelligence (BI), rapportage en analytics te voorzien en wettelijke vereisten te ondersteunen, zodat bedrijven hun data kunnen omzetten in inzichten en slimme, datagedreven beslissingen kunnen nemen. Data warehouses slaan actuele en historische data op één plek op en fungeren als de enige bron van waarheid voor een organisatie.
Datastromen naar een datawarehouse van operationele systemen (zoals ERP en CRM), databases en externe bronnen zoals partnersystemen, IoT-apparaten (Internet of Things), weerapps en sociale media, meestal op regelmatige tijdstippen. De opkomst van cloud computing heeft een verschuiving in het landschap veroorzaakt. De afgelopen jaren zijn gegevensopslaglocaties verschoven van de traditionele on-premise infrastructuur naar meerdere locaties, waaronder on-premise, private cloud en public cloud.
Moderne datawarehouses zijn ontworpen om zowel gestructureerde als ongestructureerde data te verwerken, zoals video's, afbeeldingsbestanden en sensordata. Sommige maken gebruik van geïntegreerde analyses en in-memory databasetechnologie (waarbij de dataset in het computergeheugen wordt bewaard in plaats van in de schijfopslag) om realtime toegang te bieden tot betrouwbare data en goed onderbouwde besluitvorming mogelijk te maken. Zonder datawarehousing is het erg moeilijk om data uit heterogene bronnen te combineren, ervoor te zorgen dat ze de juiste indeling hebben voor analyses en om zowel een actueel als een langetermijnbeeld van data te krijgen.
Wat is een datawarehouse?
Voordelen van datawarehousing
Een goed ontworpen datawarehouse vormt de basis voor een succesvol BI- of analyseprogramma. De belangrijkste taak is het bieden van krachtige rapporten, dashboards en analytische tools die inmiddels onmisbaar zijn geworden voor bedrijven. Een datawarehouse biedt de informatie voor uw datagedreven beslissingen en helpt u op alle vlakken de juiste keuze te maken, van de ontwikkeling van nieuwe producten tot voorraadniveaus. Een datawarehouse heeft veel voordelen. Hieronder vindt u er een paar:
Betere bedrijfsanalyses: met datawarehousing hebben besluitvormers toegang tot data uit meerdere bronnen en hoeven ze geen beslissingen meer te nemen op basis van onvolledige informatie.
Sneller data opvragen: datawarehouses worden specifiek gebouwd voor het snel ophalen en analyseren van gegevens. Met een DW kunt u razendsnel grote hoeveelheden geconsolideerde data opvragen, zonder ondersteuning van IT.
Verbeterde datakwaliteit: voordat gegevens in het DW worden geladen, worden er dataopschoningen door het systeem gecreëerd en in een werkvoorraad ingevoerd voor verdere verwerking. Zo worden data omgezet in een consistente indeling om analyses en beslissingen te ondersteunen op basis van hoogwaardige, accurate gegevens.
Historisch inzicht: door uitgebreide historische data op te slaan, kunnen besluitvormers in een datawarehouse leren van eerdere trends en uitdagingen, voorspellingen doen en streven naar continue verbeteringen van de bedrijfsvoering.
Screenshot van datawarehouse waarin de herkomst van data wordt belicht.
Wat kan een datawarehouse opslaan?
Toen datawarehouses eind jaren tachtig voor het eerst populair werden, werden ze ontworpen om informatie over mensen, producten en transacties op te slaan. Deze data, ook wel gestructureerde data genoemd, waren netjes georganiseerd en eenvoudig toegankelijk. Bedrijven wilden echter al snel ongestructureerde data opslaan, ophalen en analyseren, zoals documenten, afbeeldingen, video's, e-mails, socialmediaberichten en ruwe data van machinesensoren.
Een modern datawarehouse kan zowel gestructureerde als ongestructureerde data verwerken. Door deze datatypen samen te voegen en silo's tussen deze groepen af te breken, kunnen bedrijven een compleet beeld krijgen van de meest waardevolle inzichten.
Belangrijke begrippen
Er zijn veel termen om te begrijpen in de wereld van DW. Hier zijn enkele van de belangrijkste. Bekijk enkele andere termen en veelgestelde vragen in onze woordenlijst.
Datawarehouse vs. database
Databases en datawarehouses zijn beide gegevensopslagsystemen; ze dienen echter verschillende doeleinden. In een database worden gegevens meestal voor een bepaald bedrijfsgebied opgeslagen. Een datawarehouse slaat actuele en historische gegevens voor het hele bedrijf op en voedt BI en analytics. Datawarehouses gebruiken een databaseserver om gegevens uit de databases van een organisatie op te halen en hebben aanvullende functies voor datamodellering, levenscyclusbeheer, gegevensbronintegratie en meer.
Datawarehouse vs. datalake
Zowel datawarehouses als datalakes worden gebruikt voor het opslaan van Big Data, maar het zijn zeer verschillende opslagsystemen. Een datawarehouse slaat gegevens op die zijn opgemaakt voor een specifiek doel, terwijl een datalake gegevens opslaat in de ruwe, onverwerkte status, waarvan het doel nog niet is gedefinieerd. Datawarehouses en -lakes vullen elkaar vaak aan. Als bijvoorbeeld onbewerkte gegevens die in een lake zijn opgeslagen, nodig zijn om een bedrijfsvraag te beantwoorden, kunnen deze worden geëxtraheerd, opgeschoond, getransformeerd en gebruikt in een datawarehouse voor analyse. De hoeveelheid gegevens, databaseprestaties en opslagprijzen spelen een belangrijke rol bij het kiezen van de juiste opslagoplossing.
Schematische vergelijking van een datawarehouse met een datalake.
Datawarehouse versus datamart
Een datamart is een subsectie van een datawarehouse, die specifiek wordt verdeeld voor een afdeling of productgroep, zoals verkoop, marketing of financiën. Sommige datamarts worden ook gecreëerd voor standalone operationele doeleinden. Terwijl een datawarehouse dient als centrale gegevensopslag voor een heel bedrijf, dient een datamart relevante gegevens voor een geselecteerde groep gebruikers. Dit vereenvoudigt de gegevenstoegang, versnelt de analyse en geeft hen controle over hun eigen gegevens. Er worden vaak meerdere datamarts ingezet binnen een datawarehouse.
Diagram van een datamart en hoe deze werkt.
Wat zijn de belangrijkste componenten van een datawarehouse?
Een typisch datawarehouse heeft vier hoofdcomponenten: een centrale database, ETL-tools (extraheren, transformeren, laden), metadata en toegangstools. Al deze componenten zijn ontworpen voor snelheid, zodat u direct resultaten kunt zien en data in een handomdraai kunt analyseren.
Diagram met de componenten van een datawarehouse.
- Centrale database: een database dient als basis voor je datawarehouse. Traditioneel waren dit standaard relationele databases die on-premise of in de cloud worden uitgevoerd. Maar vanwege Big Data, de behoefte aan echte, realtime prestaties en een drastische verlaging van de kosten van RAM, winnen in-memory databases snel aan populariteit.
- Data-integratie: gegevens worden opgehaald uit bronsystemen en aangepast om de informatie voor snel analytisch gebruik af te stemmen met behulp van verschillende benaderingen voor data-integratie, zoals ETL (extraheren, transformeren, laden) en ELT, evenals realtime datareplicatie, bulk-loadverwerking, gegevenstransformatie en gegevenskwaliteit en verrijkingsservices.
- Metadata: Metadata is data over jouw data. Het specificeert de bron, het gebruik, de waarden en andere functies van de gegevenssets in je datawarehouse. Er zijn bedrijfsmetagegevens, die context toevoegen aan je gegevens, en technische metagegevens, waarin wordt beschreven hoe je toegang krijgt tot gegevens, inclusief waar ze zich bevinden en hoe ze zijn gestructureerd.
- Toegangstools voor datawarehouse: met toegangstools kunnen gebruikers communiceren met de gegevens in je datawarehouse. Voorbeelden van toegangstools zijn: query- en rapportagetools, hulpprogramma's voor toepassingsontwikkeling, hulpprogramma's voor datamining en OLAP-hulpprogramma's.
Architectuur van datawarehouses
In het verleden werden datawarehouses beheerd in lagen die overeenkwamen met de stroom van de bedrijfsdata.
Diagram van de architectuur van het datawarehouse. Een typisch datawarehouse omvat de drie afzonderlijke bovenstaande lagen. Tegenwoordig combineren moderne datawarehouses OLTP en OLAP in één systeem.
Gegevenslaag: gegevens worden geëxtraheerd uit je bronnen en vervolgens getransformeerd en geladen in de onderste laag met behulp van ETL-tools. De onderste laag bestaat uit je databaseserver, data marts en datalakes. Metagegevens worden in deze laag gemaakt en gegevensintegratietools, zoals gegevensvirtualisatie, worden gebruikt om gegevens naadloos te combineren en te aggregeren.
Semantieklaag: in de middelste laag worden de gegevens geherstructureerd voor snelle, complexe query's en analyses door OLTP-servers (Online Analytical Processing) en Online Transactional Processing (OLTP).
Analyselaag: de bovenste laag is de front-end clientlaag. Het bevat de toegangstools voor datawarehouse waarmee gebruikers met gegevens kunnen communiceren, dashboards en rapporten kunnen maken, KPI's kunnen bewaken, gegevens kunnen minen en analyseren, apps kunnen bouwen en meer. Deze laag bevat vaak een workbench- of sandboxgebied voor gegevensverkenning en ontwikkeling van nieuwe gegevensmodellen.
Datawarehouses zijn ontworpen ter ondersteuning van de besluitvorming en werden oorspronkelijk gebouwd en onderhouden door IT-teams. In de afgelopen jaren zijn ze echter steeds meer toegespitst op zakelijke gebruikers, waardoor zij minder afhankelijk zijn van IT om toegang te krijgen tot de data en bruikbare inzichten te verkrijgen. Enkele belangrijke functies voor datawarehousing voor zakelijke gebruikers op een rij:
- De semantische of bedrijfslaag die tekst in natuurlijke taal biedt en iedereen in staat stelt data direct te begrijpen, relaties tussen elementen in het datamodel te definiëren en datavelden te verrijken met nieuwe bedrijfsinformatie.
- Met virtuele werkruimten kunnen teams datamodellen en verbindingen op één beveiligde en beheerde plaats onderbrengen. Dit om een betere samenwerking met collega's te ondersteunen via één gemeenschappelijke ruimte en één gemeenschappelijke dataset.
- De cloud heeft de besluitvorming verder verbeterd door werknemers wereldwijd te voorzien van een uitgebreide set tools en functies om data-analysetaken eenvoudig uit te voeren. Ze kunnen nieuwe apps en databronnen verbinden met minimale IT-ondersteuning.
Zeven grootste voordelen van een datawarehouse in de cloud
Cloudgebaseerde datawarehouses worden steeds populairder, om een goede reden. Deze moderne magazijnen bieden verschillende voordelen ten opzichte van traditionele on-premise versies. Dit zijn de zeven grootste voordelen van een datawarehouse in de cloud:
- Snel te implementeren: met datawarehousing in de cloud kun je in slechts een paar klikken bijna onbeperkt rekenkracht en dataopslag aanschaffen. En je bouwt binnen enkele minuten je eigen datawarehouse, data marts en sandboxen.
- Lage totale exploitatiekosten (TCO): prijsmodellen voor data warehouse-as-a-service (DWaaS) worden ingesteld, zodat je alleen betaalt voor de resources die je nodig hebt, wanneer je ze nodig hebt. Je hoeft jouw langetermijnbehoeften niet te voorspellen of het hele jaar door voor meer rekenkracht te betalen dan nodig is. Je kunt ook kosten vooraf vermijden, zoals dure hardware, serverruimten en onderhoudspersoneel. Door de opslagprijzen te scheiden van de rekenprijzen kun je ook de kosten verlagen.
- Elasticiteit: met een datawarehouse in de cloud kun je waar nodig dynamisch opschalen. Cloud geeft ons een gevirtualiseerde, sterk gedistribueerde omgeving die enorme hoeveelheden data kan beheren die op en neer kunnen schalen.
- Beveiliging en herstel bij calamiteiten: in veel gevallen bieden datawarehouses in de cloud daadwerkelijk een sterkere gegevensbeveiliging en -encryptie dan on-premise DW's. Gegevens worden ook automatisch gedupliceerd en opgeslagen, zodat je het risico op verloren gegevens kunt minimaliseren.
- Realtime technologieën: clouddatawarehouses die zijn gebouwd op in-memory databasetechnologie kunnen extreem snelle gegevensverwerkingssnelheden bieden om realtime data te leveren voor direct situationeel bewustzijn.
- Nieuwe technologieën: met datawarehouses in de cloud kun je eenvoudig nieuwe technologieën integreren, zoals machine learning, die zakelijke gebruikers een geleide ervaring en ondersteuning bij beslissingen kunnen bieden in de vorm van aanbevolen vragen die je kunt stellen.
- Vergroot de slagkracht van zakelijke gebruikers: clouddatawarehouses bieden werknemers gelijke en wereldwijde mogelijkheden met één enkel overzicht van data uit verschillende bronnen en een uitgebreide set tools en functies om eenvoudig data-analysetaken uit te voeren. Ze kunnen nieuwe apps en gegevensbronnen verbinden zonder IT.
Datawarehousing ondersteunt uitgebreide analyses van bedrijfskosten per afdeling, leverancier, regio en status, om er maar een paar te noemen.
Best practices voor datawarehousing
Als u een nieuw datawarehouse bouwt of nieuwe applicaties toevoegt aan een bestaand warehouse, zijn er handige stappen die u kunt volgen om uw doelen te bereiken én tegelijk tijd en geld te besparen. Sommige zijn gericht op uw zakelijke gebruik en andere maken deel uit van uw algemene IT-programma. De volgende lijst is een goed uitgangspunt en u zult aanvullende best practices ontdekken wanneer u samenwerkt met uw technologie- en servicepartners.
Best practices voor het bedrijf
Definieer de informatie die je nodig hebt. Zodra je een goed inzicht hebt in jouw initiële behoeften, kun je de gegevensbronnen vinden om deze te ondersteunen. Vaak hebben handelsgroepen, klanten en leveranciers gegevensaanbevelingen voor jou.
Documenteer de locatie, structuur en kwaliteit van je huidige gegevens. Vervolgens kun je gegevenshiaten en bedrijfsregels identificeren voor het transformeren van de gegevens om aan je magazijnbehoeften te voldoen.
Stel een team samen. Dit omvat sponsors, managers en medewerkers die de informatie zullen gebruiken en verstrekken. Identificeer bijvoorbeeld de standaardrapportage en KPI's die ze nodig hebben om hun werk te doen.
Geef prioriteit aan je datawarehouse-applicaties. Kies een of twee proefprojecten met redelijke eisen en goede bedrijfswaarde.
Kies een sterke technologiepartner voor datawarehouse. Zij moeten beschikken over de implementatieservices en ervaring die nodig zijn voor je projecten. Zorg ervoor dat deze voldoen aan je implementatiebehoeften, inclusief cloudservices en on-premise opties.
Ontwikkel een goed projectplan. Werk samen met jouw team aan een realistische blauwdruk en planning die communicatie en statusrapportage ondersteunt.
Best practices voor IT
Houd de prestaties en beveiliging in de gaten. De informatie in je datawarehouse is waardevol, maar moet gemakkelijk toegankelijk zijn om waarde te bieden aan de organisatie. Controleer het systeemgebruik zorgvuldig om ervoor te zorgen dat de prestaties hoog zijn.
Onderhoud datakwaliteitsnormen, metagegevens, structuur en governance. Nieuwe bronnen van waardevolle data komen routinematig beschikbaar, maar ze vereisen een consistent beheer als onderdeel van een datawarehouse. Volg procedures voor het opschonen van gegevens, het definiëren van metagegevens en het voldoen aan governancenormen.
Bied een flexibele architectuur. Naarmate je bedrijfs- en bedrijfseenheidgebruik toeneemt, ontdek je een breed scala aan datamart- en warehousebehoeften. Een flexibel platform zal hen veel beter ondersteunen dan een beperkt, restrictief product.
Automatiseer processen zoals onderhoud. Machine learning voegt niet alleen waarde toe aan business intelligence, maar kan ook technische beheerfuncties voor datawarehouse automatiseren om de snelheid te behouden en de operationele kosten te verlagen.
Gebruik de cloud strategisch. Bedrijfseenheden en afdelingen hebben verschillende implementatiebehoeften. Gebruik on-premise systemen indien nodig en profiteer van datawarehouses in de cloud voor schaalbaarheid, lagere kosten en toegang tot telefoon en tablet.
Samenvatting
Moderne datawarehouses, en steeds vaker datawarehouses in de cloud, zullen een belangrijk onderdeel vormen van elk initiatief voor digitale transformatie voor moederbedrijven en hun bedrijfseenheden. Ze profiteren van de huidige bedrijfssystemen, vooral wanneer je gegevens uit meerdere interne systemen combineert met nieuwe, belangrijke informatie van externe organisaties.
Dashboards, KPI's, waarschuwingen en rapportage ondersteunen directie-, management- en personeelsvereisten, evenals belangrijke klant- en leveranciersbehoeften. Datawarehouses bieden ook snelle, complexe datamining en analytics, en ze verstoren de prestaties van andere bedrijfssystemen niet.
Gezien de flexibiliteit om klein te beginnen en indien nodig uit te breiden, kunnen zowel bedrijfskantoren als bedrijfseenheden de besluitvorming en bottom-line prestaties verbeteren met moderne datawarehousetechnologie.
Veelgestelde vragen over datawarehouse
Maak kennis met moderne datawarehousetools
SAP Datasphere is de volgende generatie van SAP Data Warehouse Cloud.
Ideeën die u nergens anders zult vinden
Meld u aan voor een dosis business intelligence die rechtstreeks in uw inbox wordt bezorgd.