Naar inhoud gaan
Datawarehouse

Verklarende woordenlijst voor datamanagement

Wat is datamanagement? Bekijk termen en definities in onze verklarende woordenlijst voor datamanagement en lees meer over bijvoorbeeld een datawarehouse.

In een database kan data worden geordend, opgeslagen, beheerd en veilig worden gesteld. Tevens kan de toegang tot de data worden gecontroleerd. Databases zijn ontworpen aan de hand van een aantal verschillende systemen (schema's). Veel van deze systemen zijn gebaseerd op het relationele model voor eenvoudige toegang voor programma's en dataquery's. Veelvoorkomende typen databases zijn relationele databasemanagementsystemen (RDBMS), in-memory databases, objectgeoriënteerde databases (OODBMS), NoSQL-databases en NewSQL-databases. Elk van deze databases heeft zijn eigen voordelen.

Datamanagement verwijst naar alle functies die nodig zijn om data te verzamelen, controleren, beveiligen, verwerken en leveren. Systemen voor datamanagement bevatten onder andere databases, datawarehouses en datamarts; tools voor dataverzameling, -opslag en -opvraging; en voorzieningen die bijdragen aan de goedkeuring, kwaliteit en integratie met applicaties en analytische tools. Bedrijven moeten een datastrategie hebben om de verantwoording vast te stellen voor de data die is gegrond in of endemisch is voor bepaalde verantwoordingsgebieden.

Een databasemanagementsysteem (DBMS) is de softwaretoolkit die zorgt voor de opslagstructuur en de datamanagementfaciliteit voor het databasemanagement. Het DBMS kan een vast bestanddeel zijn in een licentie voor een ERP-systeem, een vereiste aparte aankoop, onderdeel van de software van het systeem (besturingssysteem), of software waar een afzonderlijke licentie voor nodig is. Wat de broncode ook is, het is altijd van belang dat applicaties zijn gebaseerd op en/of volledig zijn geïntegreerd met de DBMS. Ze zijn namelijk van elkaar afhankelijk. Zonder een goede integratie zullen de applicaties en DBMS niet naar behoren functioneren. De DBMS is in principe de gereedschapskist voor databasemanagement.

Een relationele database is een type database waarin de gegevens in tabellen worden ingedeeld. Deze tabellen kunnen aan elkaar worden gekoppeld (of gerelateerd), zodat gebruikers de relatie tussen alle beschikbare datapunten begrijpen. Relationele databases maken gebruik van Structured Query Language (SQL), zodat beheerders met de database kunnen communiceren, tabellen kunnen samenvoegen, data kunnen invoeren en verwijderen en nog veel meer.

Een SQL-database is een relationele database waarin de data in tabellen en rijen wordt opgeslagen. De data-items (rijen) zijn aan elkaar gekoppeld op basis van gemeenschappelijke data-items die zorgen voor efficiëntie, redundantie voorkomen en een eenvoudige en soepele opvraging mogelijk maken. De naam SQL is afgeleid van Structured Query Language: de toolkit en het natural language query-protocol die gebruikers kunnen leren en toepassen op elke compatibele database voor dataopslag, -bewerking en -opvraging.

NoSQL-databases zijn ontwikkeld voor het verwerken van ongestructureerde data die niet worden ondersteund door SQL vanwege het gebrek aan structuur. Bij NoSQL wordt gebruikgemaakt van creatieve manieren om deze beperking op te lossen. Voorbeelden hiervan zijn dynamische schema's en verschillende verwerkingstechnieken. De meest voorkomende databasetypen voor ongestructureerde data zijn key-value-, document-, kolom- en grafiekdatabases en bevatten vaak zaken zoals video, graphics, vrije tekst en onbewerkte sensoruitvoer.

Gestructureerde data zijn netjes geformatteerd in rijen en kolommen, toegewezen aan vooraf gedefinieerde velden. Deze gegevens worden meestal opgeslagen in Excel-spreadsheets of relationele databases. Voorbeelden zijn financiële transacties, demografische informatie en machinelogboeken. Tot voor kort vormden gestructureerde data het enige datatype dat door bedrijven kon worden gebruikt.

Ongestructureerde data worden niet georganiseerd in rijen en kolommen, waardoor het moeilijker is om deze op te slaan, analyseren en op te zoeken. Voorbeelden van dit soort gegevens zijn ruwe Internet of Things (IoT)-data, video- en audiobestanden, opmerkingen op social media en transcripten van callcenters. Ongestructureerde data worden meestal opgeslagen in een datalake, NoSQL-database of modern datawarehouse.

Semigestructureerde data hebben enkele organisatorische kenmerken, zoals tags of metadata, maar zijn niet ingedeeld in rijen en kolommen zoals die in een spreadsheet of een relationele database. Een goed voorbeeld van semigestructureerde data zijn e-mails. Deze bevatten wat gestructureerde data, zoals de afzender en geadresseerde, maar ook ongestructureerde data. Denk hierbij aan het bericht zelf.

Datatoewijzing is het proces waarbij velden in verschillende datastructuren of databases aan elkaar worden gekoppeld. Deze stap is nodig wanneer databases moeten worden samengevoegd, wanneer gegevens worden overgezet van het ene systeem naar een ander, of als verschillende databronnen gebruikt worden binnen één applicatie of analytische tool. Dit gebeurt immers vaak bij data warehousing. Datamapping brengt unieke, conflicterende en dubbele informatie in kaart, zodat regels kunnen worden ontwikkeld om alle data in een gecoördineerd schema of format te plaatsen.

Bij het ontwikkelen van een nieuwe of andere databasestructuur maakt de ontwerper eerst een diagram van de manier waarop data in en uit de database stroomt. Het maken van zo'n diagram noemen we datamodellering. Met dit stroomdiagram kunnen software-engineers de kenmerken van de data-indelingen, structuren en databaseverwerkingsfuncties definiëren om op efficiënte wijze de vereisten voor datastromen te ondersteunen.

Een datawarehouse is één allesomvattende opslagfaciliteit waarin data uit vele verschillende bronnen zowel intern als extern kan worden opgeslagen. Het voornaamste doel hiervan is om te voorzien in data voor de business intelligence (BI)-, rapportage-, en analyticsprocessen. In een modern datawarehouse kunnen alle datatypen worden opgeslagen en beheerd, gestructureerd en ongestructureerd. Warehouses worden meestal geïmplementeerd in de cloud, zodat ze schaalbaar en eenvoudig in gebruik zijn.

Big data is een term die wordt gebruikt om heel grote datasets van gestructureerde, ongestructureerde en semigestructureerde data te omschrijven. Big data wordt vaak omschreven aan de hand van de vijf V's: het volume van de verzamelde data, de variety (verscheidenheid) van de datatypen, de velocity (snelheid) waarmee de data wordt gegenereerd, de veracity (juistheid) van de data, en de value (waarde) ervan. Bedrijven kunnen met big data managementsystemen en analytics de big data analyseren, om zo inzichten te verkrijgen die helpen bij het nemen van beslissingen en het ondernemen van actie.

Data-integratie staat voor het opnemen, transformeren, combineren en leveren van data, waar en wanneer deze nodig zijn. Deze integratie vindt plaats in het bedrijf en daarbuiten, met partners maar ook met databronnen en use cases van derden, om te voldoen aan de dataverbruiksvereisten van alle applicaties en bedrijfsprocessen. Dit gebeurt met technieken als dataverplaatsing in bulk/batch, extraheren, transformeren, laden (ETL), vastleggen van wijzigingsgegevens, datareplicatie, datavirtualisatie, integratie van streaming data en dataorkestratie.

Met datavirtualisatie kunnen bedrijven in een virtuele datalaag een samenhangend beeld schetsen van alle data van het bedrijf, die in ongelijksoortige systemen en formaten is opgeslagen. Bij datavirtualisatie wordt de data niet gedupliceerd, maar blijft deze in de bronsystemen staan. Er wordt eenvoudigweg een virtuele representatie van de data aan de gebruikers of in de applicaties weergegeven in realtime. Datavirtualisatie is een moderne aanpak voor data-integratie, waarbij gebruikers de data kunnen bekijken en bewerken zonder rekening te hoeven houden met de locatie, het formaat of het protocol van de data.

Een datafabric is een aangepaste combinatie van architectuur en technologie. Deze maakt gebruik van data-integratie en -harmonisatie om verschillende locaties, bronnen en datatypen met elkaar te verbinden. Met de juiste structuren en flow die zijn gedefinieerd in het datafabricplatform hebben bedrijven snel toegang tot de data en kunnen ze deze delen. Het maakt hierbij niet uit waar deze data zich bevindt of hoe deze is aangemaakt.

Een datapijplijn is een set geautomatiseerde en herhaalbare processen die wordt gebruikt om elk type data bij de bron te vinden, op te schonen, te transformeren en te analyseren. Aangezien data wordt geanalyseerd in de buurt van waar deze is aangemaakt, kunnen bedrijfsgebruikers de informatie die zij nodig hebben snel analyseren en delen tegen een lagere prijs. Datapijplijnen kunnen ook worden verbeterd door technologieën als machine learning. Dit maakt ze sneller en effectiever.

Een datasilo is een term die wordt gebruikt voor een situatie waarin individuele afdelingen of functiegebieden binnen een bedrijf geen informatie delen met andere afdelingen. Deze scheiding belemmert de gezamenlijke inspanning in het behalen van de bedrijfsdoelen. Andere negatieve consequenties zijn: slechtere prestaties (en slechtere klantenservice), hogere kosten en een algemeen onvermogen om op de marktvraag en -wijzigingen te reageren. Ook is het moeilijk om dubbele en redundante data te verenigen, waardoor het nog lastiger wordt om samen te werken en het bedrijf op een effectieve manier te runnen.

Data-wrangling is het proces waarbij ruwe data wordt omgezet in een format dat compatibel is met de vastgestelde databases en applicaties. Dit proces kan onder andere bestaan uit het structureren, opschonen, verrijken en valideren van data waar nodig, zodat de ruwe data bruikbaar wordt.

Databeveiliging zorgt ervoor dat gegevens beschermd zijn, veilig voor ongeautoriseerde toegang of blootstelling, desastreuze problemen of systeemfouten. Tegelijkertijd is de data wel vrij toegankelijk voor geautoriseerde gebruikers en applicaties. Methodes om de data te beveiligen zijn onder andere data-encryptie, sleutelbeheer, redundantie- en back-upbeleid en toegangsbeheer. Databeveiliging is verplicht voor alle bedrijven, omdat klant- en bedrijfsgegevens moeten worden beschermd tegen de toenemende dreiging van datalekken en privacyrisico's. Redundantie en back-ups zijn essentieel voor de bedrijfscontinuïteit en voor noodherstel.

Dataprivacy verwijst naar het beleid en de praktijken voor het verwerken van data op een manier waarop deze wordt beschermd tegen ongeautoriseerde toegang of openbaarmaking. Het dataprivacybeleid en de -praktijken beschrijven hoe de informatie wordt verzameld en opgeslagen, in overeenkomst met de datastrategie van de organisatie. Ook staat hierin beschreven of en op welke manier de data mag worden gedeeld met derden en hoe de wettelijke beperkingen moeten worden nageleefd. Dataprivacy is een zakelijke vereiste die voldoet aan de verwachtingen van de klant, maar ook de integriteit en veiligheid van de opgeslagen informatie beschermt.

Datakwaliteit is een niet-specifieke term die de geschiktheid en betrouwbaarheid van data omschrijft. Kwalitatief goede data is eenvoudigweg data die nauwkeurig (werkelijk representatief voor wat ze beschrijven), betrouwbaar (consistent, controleerbaar, correct beheerd en beschermd) en volledig is, conform de mate die nodig is voor gebruikers en applicaties. De kwaliteit van de data kan alleen worden gegarandeerd door een goed opgezette en uitgevoerde datastrategie, gekoppeld aan krachtige tools en systemen. Ook moeten het beleid en de procedures voor datamanagement nauwkeurig worden nageleefd.

Datavalidatie is het proces waarbij de kwaliteit, nauwkeurigheid en validiteit van de data worden vastgesteld, voordat deze wordt geïmporteerd of gebruikt. Deze validatie kan bestaan uit een reeks activiteiten en processen die data authenticeren en data-items opschonen. Zo worden bijvoorbeeld dubbele items verwijderd, overduidelijke fouten of ontbrekende items gecorrigeerd en worden mogelijke formatteringswijzigingen doorgevoerd (dataopschoning). Datavalidatie zorgt ervoor dat de informatie die je wilt gebruiken bij het maken van beslissingen, nauwkeurig en betrouwbaar is.

Datacleaning is het proces waarbij fouten in een dataset, tabel of database worden verwijderd of gecorrigeerd. Voorbeelden van deze fouten zijn corrupte, onnauwkeurige, irrelevante of onvolledige informatie. Dit proces wordt ook wel datascrubbing genoemd. Tijdens het proces wordt gezocht naar dubbele data en andere inconsistenties, zoals typfouten en onjuiste nummerreeksen. Met datacleaning kan ook onjuiste informatie worden verwijderd, of kunnen overduidelijke fouten worden verbeterd. Denk hierbij aan lege velden of missende codes.

De term data-integriteit verwijst naar de kwaliteit van de data op de lange termijn. Zodra de data is ingevoerd of geïmporteerd, omgezet, gevalideerd, opgeschoond en opgeslagen, wordt met data-integriteit bedoeld dat de kwaliteit van de data wordt behouden en dat gebruikers er gerust op kunnen zijn dat de ingevoerde data niet is veranderd, en ook niet zal veranderen. De data die wordt opgevraagd, is de data die ook oorspronkelijk is opgeslagen. De term data-integriteit staat soms ook synoniem voor datakwaliteit, maar data-integriteit draait eigenlijk meer om de betrouwbaarheid en zekerheid.

Datagovernance heeft te maken met het beleid en de praktijken die moeten zorgen voor het juiste datamanagement binnen een organisatie. Met governance wordt de infrastructuur van de IT bepaald, maar worden ook de namen (of posities) van de mensen vastgelegd die bevoegd zijn en de verantwoordelijkheid hebben om specifieke data te verwerken en beveiligen. Effectieve datagovernance zorgt ervoor dat de data beschikbaar, betrouwbaar en veilig is. Maar ook dat deze voldoet aan de regels en niet verkeerd wordt gebruikt.

Datastewardship is de implementatie van het beleid en procedures voor de datagovernance, zodat de nauwkeurigheid, betrouwbaarheid, integriteit en veiligheid van de data zijn geborgd. Datastewards beheren en controleren de procedures en tools, gebruikt om data te verwerken, op te slaan en te beschermen.

Met data-architectuur wordt de algemene vormgeving van de structuur, het beleid en de regels bedoeld, waarmee wordt bepaald hoe data binnen een bedrijf wordt gebruikt en beheerd. In de data-architectuur staat ook vastgelegd hoe de datastrategie wordt geïmplementeerd, zodat deze de zakelijke behoefte en doelen kan ondersteunen. Deze dient ook als basis voor de ontwikkeling van databases, procedures, voorzorgsmaatregelen, beveiliging en datagovernance.

Masterdatamanagement (MDM) is het creëren van één 'master'-referentiebron voor alle belangrijke bedrijfsgegevens. Dit omvat het beleid en de procedures voor het definiëren, managen en beheren (of governing) van het verwerken van de masterdata. Een gecentraliseerd masterdatamanagement voorkomt conflict en verwarring, veroorzaakt door versnipperde databases met dubbele informatie en ongecoördineerde data die mogelijk niet meer juist, corrupt of verkeerd geplaatst is. In het laatste geval is de data bijvoorbeeld wel op de ene, maar niet op de andere plaats bijgewerkt. Wanneer je één versie voor het hele bedrijf hanteert, betekent dit dat alle bedrijfsonderdelen werken aan de hand van dezelfde definities, standaarden en aannamen.

De term analytics verwijst naar de systematische analyse van data. Analyticsapplicaties en -toolkits bevatten wiskundige algoritmen en computationele systemen die grote datasets kunnen bewerken en patronen, trends, relaties en andere informatie kunnen ontdekken. Gebruikers krijgen de gelegenheid om vragen te stellen en inzichten te verkrijgen over het bedrijf, de werkzaamheden en de markt. Veel moderne analyticstoolkits zijn ontworpen voor gebruik door zakenmensen zonder technische aanleg. Hierdoor kunnen zij de analyses uitvoeren met minimale hulp van data- of IT-specialisten.

Datamining is het ophalen van nuttige informatie uit grote datasets. Datamining wordt vaak gedaan door zakelijke gebruikers die analiticstools inzetten om patronen, trends, afwijkingen, relaties, afhankelijkheden en andere bruikbare informatie te ontdekken. Datamining heeft veel verschillende toepassingen en kan fraude en beveiligingsproblemen herkennen, maar ook prognoses verbeteren en mogelijkheden voor een prestatieverbetering herkennen.

Bij dataprofilering worden meetgegevens en kenmerken van een dataset verzameld, zoals de nauwkeurigheid, volledigheid en validiteit van de dataset. Dataprofilering is één van de technieken die worden gebruikt bij datavalidatie en dataopschoning. Dataprofilering kan namelijk kwaliteitsproblemen vaststellen zoals redundanties, missende waarden en inconsistenties.

Wat is datamanagement?

Ontdek hoe jouw organisatie data kan omzetten in een waardevolle asset.

SAP Insights nieuwsbrief

Meld je vandaag nog aan

Meld je aan voor onze nieuwsbrief en krijg belangrijke inzichten.

Meer lezen

Terug naar boven