Naar inhoud gaan
Mensen die aan een datawarehouseflow werken

Wat is datamodellering?

Onder datamodellering wordt het ontleden van datastromen verstaan. Bij het ontwikkelen van een nieuwe of andere databasestructuur maakt de ontwerper eerst een diagram van hoe data in en uit de database zullen stromen. Dit stroomdiagram wordt gebruikt om de kenmerken van de data-indelingen, structuren en databaseverwerkingsfuncties te definiëren om op efficiënte wijze de vereisten voor datastromen te ondersteunen. Nadat de database is gebouwd en geïmplementeerd, vormt het datamodel de documentatie en rechtvaardiging voor de reden dat de database bestaat en de manier waarop de datastromen waren ontworpen.

 

Het datamodel dat hieruit voortkomt, toont de relaties tussen data-elementen in een database en biedt een handleiding voor het gebruik van de data. Datamodellen vormen een fundamenteel element van softwareontwikkeling en analyses. Ze bieden een gestandaardiseerde methode voor het consistent definiëren en opmaken van databasecontent in verschillende systemen, waardoor verschillende applicaties dezelfde data kunnen delen.

Waarom is datamodellering belangrijk?

Een uitgebreid en geoptimaliseerd datamodel helpt bij de ontwikkeling van een vereenvoudigde, logische database die redundantie voorkomt, opslagvereisten vermindert en efficiënt ophalen mogelijk maakt. Verder krijgen alle systemen één 'single source of truth'. Dat is essentieel voor een effectieve werking en een aantoonbare naleving van de regelgeving. Gegevensmodellering is een belangrijke stap in twee essentiële functies van een digitale onderneming.

Softwareontwikkelingsprojecten (nieuwe of aanpassingen) uitgevoerd door IT-professionals

 
Voordat een softwareproject wordt ontworpen en gebouwd, moet er een gedocumenteerde visie zijn op hoe het eindproduct eruit zal zien en hoe het zich zal gedragen. Een groot deel van die visie bestaat uit de set bedrijfsregels die de gewenste functionaliteit bepalen. Het andere deel zijn de databeschrijving, de datastromen (of het datamodel) en het databaseontwerp ter ondersteuning hiervan.
 
Datamodellering houdt de visie bij en biedt een roadmap voor de softwareontwerpers. Aangezien de database en datastromen volledig zijn gedefinieerd en gedocumenteerd, en de systemen conform deze specificaties zijn ontwikkeld, moeten de systemen de verwachte functionaliteit leveren die nodig is om de data accuraat te houden (ervan uitgaande dat de procedures correct zijn gevolgd).
 

Analyses en visualisatie – of business intelligence – is een primaire besluitvormingstool voor gebruikers

 

Met steeds grotere datavolumes en een groeiend aantal gebruikers hebben organisaties een manier nodig om ruwe data om te zetten in bruikbare informatie waarmee beslissingen kunnen worden genomen. Het is niet verwonderlijk dat de vraag naar data-analyses drastisch is toegenomen. Datavisualisatie maakt data nog toegankelijker voor gebruikers door de data grafisch weer te geven.

 

De huidige datamodellen transformeren ruwe data in nuttige informatie die kan worden omgezet in dynamische visualisaties. Gegevensmodellering doet het volgende om data voor te bereiden op analyses: de data opschonen, de meetwaarden en dimensies definiëren en data verbeteren door hiërarchieën te maken, eenheden en valuta's in te stellen en formules toe te voegen.

 

Welke typen datamodellering zijn er?

De drie typen primaire datamodellen zijn relationeel, dimensionaal en entiteit-relatie (E-R). Daarnaast zijn er andere die minder algemeen zijn, waaronder hiërarchisch, netwerk, objectgeoriënteerd en meerdere waarden. Het modeltype definieert de logische structuur – hoe de data logisch worden opgeslagen – en daarmee hoe ze worden opgeslagen, georganiseerd en opgehaald.

  1. Relationeel: hoewel "ouder" in benadering, is het meest algemene databasemodel dat nu nog wordt gebruikt relationeel; de data worden opgeslagen in records met een vaste indeling en ze worden gerangschikt in tabellen met rijen en kolommen. Het meest elementaire type datamodel heeft twee elementen: meetwaarden en dimensies. Meetwaarden zijn numerieke waarden, zoals hoeveelheden en inkomsten, die in wiskundige berekeningen worden gebruikt, zoals som of gemiddelde. Dimensies kunnen tekst of numeriek zijn. Ze worden niet gebruikt in berekeningen en bevatten beschrijvingen of locaties. De ruwe data worden gedefinieerd als een meetwaarde of dimensie. Andere termen die worden gebruikt in het ontwerp van een relationele database zijn "relaties" (de tabel met rijen en kolommen), "attributen" (kolommen), "tupels" (rijen) en "domein" (set waarden die zijn toegestaan in een kolom). Er zijn nog andere termen en structurele vereisten die een relationele database definiëren, maar de belangrijkste factor zijn de relaties die binnen die structuur zijn gedefinieerd. Algemene data-elementen (of sleutels) koppelen tabellen en datasets aan elkaar. Tabellen kunnen ook expliciet gerelateerd zijn, zoals relaties tussen bovenliggende en onderliggende elementen, één-op-een, één-op-veel of veel-op-veel.
  2. Dimensioneel: omdat de dimensionale benadering minder rigide en gestructureerd is, bevordert deze een contextuele datastructuur die meer gerelateerd is aan het zakelijke gebruik of de context. Deze databasestructuur is geoptimaliseerd voor online query's en datawarehousingtools. Kritieke data-elementen, zoals een transactiehoeveelheid, worden "feiten" genoemd en gaan vergezeld van referentie-informatie, oftewel "dimensies". Dit is de product-ID, eenheidsprijs of transactiedatum. Een feitentabel is een primaire tabel in een dimensionaal model. Data kunnen snel en efficiënt worden opgehaald, waarbij data voor een bepaald type activiteit samen worden opgeslagen, maar het ontbreken van relatiekoppelingen kan het analytisch ophalen en gebruiken van de data bemoeilijken. Aangezien de datastructuur is gekoppeld aan de bedrijfsfunctie die de data produceert en gebruikt, kan het combineren van data die afkomstig zijn van verschillende systemen (bijvoorbeeld in een datawarehouse) problemen opleveren.
  3. Entiteit-relatie (E-R): een E-R-model vertegenwoordigt een bedrijfsdatastructuur in grafische vorm met vakken van verschillende vormen om activiteiten, functies of "entiteiten" weer te geven en lijnen om associaties, afhankelijkheden of "relaties" weer te geven. Met het E-R-model wordt vervolgens een relationele database gemaakt waarin elke rij een entiteit voorstelt en de velden in die rij attributen bevatten. Net als in alle relationele databases worden belangrijke data-elementen gebruikt om tabellen aan elkaar te koppelen.

Wat zijn de drie niveaus van data-abstractie?

Er zijn veel typen datamodellen, met verschillende typen mogelijke lay-outs. De dataverwerkingscommunity identificeert drie soorten modellering die staan voor de denkniveaus wanneer de modellen worden ontwikkeld.

Conceptueel datamodel

 

Dit is het "grote plaatje" met de algemene structuur en inhoud, maar niet de details van het dataplan. Het is het gebruikelijke beginpunt voor gegevensmodellering, waarbij de verschillende datasets en datastromen in de organisatie worden geïdentificeerd. Het conceptuele model is de blauwdruk op hoog niveau voor de ontwikkeling van de logische en fysieke modellen en vormt een belangrijk onderdeel van de documentatie van de data-architectuur.

 

Logisch datamodel

 

Het tweede detailniveau is het logische datamodel. Dit sluit het beste aan bij de algemene definitie van "datamodel" in die zin dat het de datastroom en database-inhoud beschrijft. Het logische model voegt details toe aan de structuur in het conceptuele model, maar bevat geen specificaties voor de database zelf, aangezien het model kan worden toegepast op verschillende databasetechnologieën en -producten. (Er is mogelijk geen conceptueel model als het project betrekking heeft op één enkele toepassing of een ander beperkt systeem.)

 

Fysiek datamodel

 

Het fysieke databasemodel beschrijft tot in detail hoe het logische model wordt gerealiseerd. Het moet voldoende gedetailleerd zijn om technologen in staat te stellen de feitelijke databasestructuur in hardware en software te creëren ter ondersteuning van de applicaties die er gebruik van zullen maken. Uiteraard is het fysieke datamodel specifiek voor een aangewezen databasesoftwaresysteem. Er kunnen meerdere fysieke modellen worden afgeleid van één logisch model als er verschillende databasesystemen worden gebruikt.

Proces en technieken van datamodellering

Gegevensmodellering is een top-downproces: eerst is er het conceptuele model om de totaalvisie vast te stellen, vervolgens het logische model en tot slot het gedetailleerde ontwerp in het fysieke model.

 

Bij het bouwen van het conceptuele model worden doorgaans ideeën omgezet in een grafische vorm die lijkt op het stroomdiagram van een programmeur/ontwikkelaar.

 

Met behulp van moderne tools voor datamodellering kunt u uw logische en fysieke datamodellen en databases definiëren en bouwen. Hier volgen enkele veelvoorkomende technieken en stappen voor datamodellering:

  • Bepaal entiteiten en maak een "entiteit-relatie"-diagram (ERD). Entiteiten worden ook wel omschreven als "data-elementen die van belang zijn voor uw bedrijf". "Klant" is bijvoorbeeld een entiteit. Of "verkoop". In een ERD documenteert u hoe deze verschillende entiteiten zich tot elkaar verhouden in uw bedrijf en welke verbindingen ertussen bestaan.
  • Definieer uw feiten, meetwaarden en dimensies. Een feit is het deel van uw data dat een specifiek voorkomen of een specifieke transactie aangeeft, zoals de verkoop van een product. Uw meetwaarden zijn kwantitatief, zoals hoeveelheid, inkomsten, kosten, enzovoort. Uw dimensies zijn kwalitatieve meetwaarden, zoals omschrijvingen, locaties en datums.  
  • Maak een dataweergavelink met behulp van een grafische tool of SQL-query's. Als u niet bekend bent met SQL, is de grafische tool de meest intuïtieve optie. Hiermee kunt u elementen naar uw model slepen en uw verbindingen visueel maken. Als u een weergave maakt, hebt u de mogelijkheid om tabellen en zelfs andere weergaven in één uitvoer te combineren. Wanneer u een bron in de grafische weergave selecteert en deze boven op een bron sleept die al aan de uitvoer is gekoppeld, kunt u deze tabellen samenvoegen of een combinatie maken.

Moderne analyseoplossingen kunnen u ook helpen databronnen te selecteren, te filteren en te verbinden via een grafische weergave voor slepen en neerzetten. Er zijn geavanceerde tools beschikbaar voor data-experts die in IT werken, maar gebruikers kunnen ook hun eigen scenario's maken door een datamodel op te stellen en tabellen, diagrammen, kaarten en andere objecten te organiseren om een verhaal te vertellen op basis van data-inzichten.

placeholder

Ontdek SAP Analytics Cloud

Maak een datamodel om een verhaal te vertellen op basis van data-inzichten.

Voorbeelden van datamodellering

Voor elke applicatie (zakelijk, amusement, persoonlijk of overig) is gegevensmodellering een van de eerste stappen bij het ontwerpen van het systeem en het definiëren van de infrastructuur die nodig is om het systeem te laten werken. Dit omvat elk type transactiesysteem, dataverwerkingsapplicatieset of -suite, of elk ander systeem dat data verzamelt, maakt of gebruikt.

 

Datamodellering is onmisbaar voor datawarehousing, omdat een datawarehouse een opslagplaats is voor data die afkomstig zijn uit meerdere bronnen en die waarschijnlijk vergelijkbare of gerelateerde data in verschillende indelingen bevatten. Eerst moeten de magazijnindelingen en -structuur in kaart worden gebracht om te bepalen hoe elke inkomende dataset kan voldoen aan de behoeften van het magazijnontwerp, zodat de data kunnen worden gebruikt voor analyse en datamining. Het datamodel is dan een belangrijke factor voor analysetools, managementinformatiesystemen (dashboards), datamining en integratie met alle datasystemen en -applicaties.

 

In de eerste ontwerpfasen voor elk systeem is gegevensmodellering een belangrijke voorwaarde voor alle andere stappen en fasen om de basis te leggen voor alle programma's, functies en tools. Het datamodel dient als een algemene taal die systemen in staat stelt te communiceren door hun begrip en acceptatie van de data zoals wordt beschreven in het model. Dit is belangrijker dan ooit in de huidige wereld van Big Data, machine learning, artificial intelligence, cloudconnectiviteit, IoT en gedistribueerde systemen, waaronder edge computing.

Evolutie van datamodellering

Gegevensmodellering bestaat eigenlijk al net zo lang als dataverwerking, dataopslag en computerprogrammering, hoewel de term zelf waarschijnlijk pas algemeen gebruikt werd rond de tijd dat databasebeheersystemen opkwamen in de jaren zestig. Er is niets nieuws of innovatief aan het concept van het plannen en bouwen van een nieuwe structuur. Datamodellering zelf is meer gestructureerd en geformaliseerd geworden doordat er meer data, meer databases en meer variëteiten van data zijn ontstaan.

 

Tegenwoordig is datamodellering belangrijker dan ooit: technologen worstelen met nieuwe databronnen (IoT-sensoren, locatiebewuste apparaten, clickstreams, sociale media) met een enorme hoeveelheid ongestructureerde data (tekst, audio, video), met volumes en snelheden waar de traditionele systemen niet tegenop kunnen. Er is nu een constante vraag naar nieuwe systemen, innovatieve databasestructuren en -technieken en nieuwe datamodellen om hierop in te spelen.

Wat is de volgende stap voor datamodellering?

De informatieconnectiviteit en grote hoeveelheden data uit verschillende bronnen, waaronder sensoren, spraak, video en e-mail, maken de modelleringsprojecten voor IT-professionals steeds groter. Internet is natuurlijk een van de drijvende krachten achter deze evolutie. De cloud is een belangrijk onderdeel van de oplossing, aangezien dat de enige computinginfrastructuur is die groot, schaalbaar en flexibel genoeg is om in te spelen op de huidige en toekomstige behoeften in de groeiende wereld van connectiviteit.

 

De opties voor databaseontwerp zijn ook aan het veranderen. Een decennium geleden was de dominante databasestructuur een rijgeoriënteerde relationele database met traditionele schijfopslagtechnologie. De data voor een typisch ERP-grootboek of voorraadbeheer werden opgeslagen in tientallen verschillende tabellen die constant moesten worden bijgewerkt en gemodelleerd. Vandaag de dag slaan moderne ERP-oplossingen actieve data op in het geheugen met behulp van een kolomgebaseerd ontwerp. Het gevolg: een drastische vermindering van tabellen en een toename van snelheid en efficiëntie.

 

De nieuwe selfservicetools die nu beschikbaar zijn, zullen blijven verbeteren. En er worden nieuwe tools geïntroduceerd om datamodellering en -visualisatie nog eenvoudiger en beter geschikt voor samenwerking te maken.

Overzicht

Een goed doordacht en compleet datamodel is de sleutel tot de ontwikkeling van een functionele, nuttige, veilige en accurate database. Begin met het conceptuele model om alle onderdelen en functies van het datamodel vast te leggen. Verfijn deze plannen vervolgens in een logisch datamodel waarin de datastromen worden beschreven en de definitie wordt verduidelijkt van welke data nodig zijn en hoe ze worden verzameld, verwerkt, opgeslagen en gedistribueerd. Het logische datamodel stuurt het fysieke datamodel aan dat specifiek is voor een databaseproduct. Het is het gedetailleerde ontwerpdocument waarmee de database- en applicatiesoftware wordt gemaakt.

 

Goede datamodellering en een goed databaseontwerp zijn essentieel voor de ontwikkeling van functionele, betrouwbare en veilige applicatiesystemen en databases die goed werken met datawarehouses en analytische tools, en die data-uitwisseling met zakenpartners en tussen meerdere applicatiesets eenvoudiger maken. Goed doordachte datamodellen zorgen voor data-integriteit en maken de data van uw bedrijf nog waardevoller en betrouwbaarder.

placeholder

Maak kennis met moderne tools voor datamodellering

Verbind data met bedrijfscontext zodat gebruikers inzichten kunnen ontsluiten.

Meer in deze serie

SAP Insights nieuwsbrief

placeholder
Nu aanmelden

Meld u aan voor onze nieuwsbrief en krijg belangrijke inzichten.

Meer lezen

Terug naar boven