Zum Inhalt
Data Warehouse

Glossar zum Datenmanagement

In unserem Glossar zum Datenmanagement finden Sie eine Reihe von datenbezogenen Begriffen und Definitionen.

Eine Datenbank ist eine Einrichtung zum Organisieren, Speichern, Verwalten und Sichern von Daten und zur Kontrolle des Zugriffs darauf. Datenbanken werden nach verschiedenen Schemata aufgebaut, von denen sich viele an das relationale Modell anlehnen, um den Zugriff durch Programme und Datenabfragen zu erleichtern. Zu den gängigen Datenbanktypen gehören relationale Datenbankmanagementsysteme (RDBMS), In-Memory-Datenbanken, objektorientierte Datenbankmanagementsysteme (OODBMS), NoSQL-Datenbanken und NewSQL-Datenbanken – jede mit ihren eigenen Vorteilen.

Datenmanagement bezieht sich auf alle Funktionen, die zum Sammeln, Steuern, Sichern, Bearbeiten und Bereitstellen von Daten benötigt werden. Zu den Datenmanagementsystemen gehören Datenbanken, Data Warehouses und Data Marts, Tools für die Datenerfassung, ‑speicherung und ‑abfrage sowie Dienstprogramme zur Unterstützung der Validierung, Qualität und Integration mit Anwendungen und Analysetools. Unternehmen brauchen eine Datenstrategie, um die Verantwortlichkeit für Daten festzulegen, die aus bestimmten Verantwortungsbereichen stammen oder in diesen Bereichen anfallen.

Datenbankmanagement bezieht sich auf die Prozesse und Verfahren, die zum Speichern, Verarbeiten, Bearbeiten und Sichern von Daten erforderlich sind. In vielen Organisationen liegt die Einrichtung und Überwachung solcher Verfahren hauptsächlich in der Verantwortung eines Datenbankadministrators (DBA) oder eines vergleichbaren Benutzers. Die meisten Unternehmen nutzen ein kommerzielles Datenbankmanagementsystem (DBMS) als primäres Werkzeug für die Verwaltung ihrer Datenbank. 

Ein Datenbankmanagementsystem (DBMS) ist ein Software-Toolkit, das eine Speicherstruktur und Datenmanagementeinrichtung für das Datenbankmanagement bereitstellt. Das DBMS kann integraler Bestandteil eines lizenzierten ERP-Systems (Enterprise Resource Planning), ein erforderlicher separater Kauf, Teil der Systemsoftware (Betriebssystem) oder ein separat lizenziertes Softwareprodukt sein. Unabhängig von der Bezugsquelle ist es wichtig, dass die Anwendungen um das DBMS herum aufgebaut und/oder vollständig in das DBMS integriert sind, da sie für die effektive Funktion sowohl der Anwendungen als auch des DBMS voneinander abhängig sind. Das DBMS ist im Wesentlichen ein Toolkit für das Datenbankmanagement.

Eine SQL-Datenbank ist eine relationale Datenbank, die Daten in Tabellen und Zeilen speichert. Datenelemente (Zeilen) werden auf der Grundlage von Gemeinsamkeiten verknüpft, um die Effizienz zu steigern, Redundanz zu vermeiden und einen einfachen und flexiblen Abruf zu ermöglichen. SQL steht für Structured Query Language (strukturierte Abfragesprache). Dabei handelt es sich um das Toolkit und Abfrageprotokoll in natürlicher Sprache, das Benutzer erlernen und auf jede kompatible Datenbank zur Speicherung, Bearbeitung und Abfrage von Daten anwenden können.

NoSQL-Datenbanken wurden für den Umgang mit unstrukturierten Daten entwickelt, die SQL aufgrund der fehlenden Struktur nicht unterstützen kann. NoSQL verwendet kreative Techniken, um diese Einschränkung zu überwinden, einschließlich dynamischer Schemata und verschiedener Vorverarbeitungstechniken. Die gebräuchlichsten Arten von Datenbanken für unstrukturierte Daten sind Schlüssel-Wert-, Dokument-, Spalten- und Diagramm-Datenbanken und umfassen oft Objekte wie Videos, Grafiken, Freitext und Rohdaten von Sensoren.

Ein relationales Datenbankmanagementsystem ist ein Datenbankmanagementsystem (DBMS), das auf dem relationalen Datenmodell basiert. Der Inhalt des RDBMS wird in Tabellen gespeichert, die aus Zeilen und Spalten bestehen, wobei jede Tabelle ein bestimmtes Objekt oder eine bestimmte Entität in der Datenbank darstellt, die miteinander verknüpft werden können.  Ein RDBMS enthält in der Regel mehrere Tabellen und bietet zusätzliche Funktionen, die für die Genauigkeit, Konsistenz, Integrität und Sicherheit der Daten sorgen, sowie eine SQL-Schnittstelle, über die mittels komplexer Abfragen auf die miteinander in Beziehung stehenden Daten zugegriffen werden kann.

CDBMS ist ein von Gartner geprägter Begriff, der hauptsächlich ein Cloud-Bereitstellungsmodell für das oben genannte RDBMS beschreibt.

Strukturierte Daten werden übersichtlich in Zeilen und Spalten formatiert und vordefinierten Feldern zugewiesen. Beispiele für solche Daten, die in der Regel in Excel-Tabellen oder relationalen Datenbanken gespeichert werden, sind Finanztransaktionen, demografische Informationen und Maschinenprotokolle. Bis vor kurzem waren strukturierte Daten die einzig nutzbare Art von Daten für Unternehmen.

Unstrukturierte Daten sind nicht in Zeilen und Spalten organisiert, was die Speicherung, Analyse und Suche erschwert. Beispiele hierfür sind Rohdaten aus dem Internet der Dinge (IoT), Video- und Audiodateien, Kommentare in sozialen Medien und Call-Center-Transkripte. Unstrukturierte Daten werden normalerweise in Data Lakes, NoSQL-Datenbanken oder modernen Data Warehouses gespeichert.

Halbstrukturierte Daten besitzen einige organisatorische Eigenschaften, wie semantische Tags oder Metadaten, entsprechen aber nicht den Zeilen und Spalten einer Tabellenkalkulation oder relationalen Datenbank. Ein gutes Beispiel für halbstrukturierte Daten ist die E-Mail, die einige strukturierte Daten, wie die Absender- und Empfängeradresse, aber auch unstrukturierte Daten, wie die eigentliche Nachricht, enthält.

Bei der Datenzuordnung werden Felder zwischen verschiedenen Datenstrukturen oder Datenbanken abgeglichen. Dies ist ein notwendiger Schritt, wenn Datenbanken kombiniert werden sollen, wenn Daten von einem System oder einer Datenbank in ein anderes bzw. eine andere migriert werden sollen oder wenn verschiedene Datenquellen innerhalb einer einzigen Anwendung oder eines Analysetools verwendet werden sollen – wie es häufig beim Data Warehousing der Fall ist. Bei der Datenzuordnung werden eindeutige, widersprüchliche und doppelte Informationen ermittelt, sodass eine Reihe von Regeln entwickelt werden kann, um alle Daten in ein koordiniertes Schema oder Format zu bringen.

Bei der Erstellung einer neuen oder alternativen Datenbankstruktur beginnt der Designer mit einem Diagramm, das den Datenfluss in die und aus der Datenbank darstellt. Die grafische Darstellung der Datenflüsse wird als Datenmodellierung bezeichnet. Anhand dieses Flussdiagramms können die Softwareentwickler die Merkmale der Datenformate, Strukturen und Datenbankverarbeitungsfunktionen definieren, um die Anforderungen an den Datenfluss effizient zu unterstützen.

Ein Data Warehouse bietet eine einzige, umfassende Speichermöglichkeit für Daten aus vielen verschiedenen Quellen – sowohl intern als auch extern. Hauptzweck ist die Bereitstellung von Daten für Business Intelligence (BI), Berichte und Analysen. Moderne Data Warehouses können alle Datentypen – strukturierte und unstrukturierte – speichern und verwalten und werden in der Regel in der Cloud implementiert, um eine bessere Skalierbarkeit und Benutzerfreundlichkeit zu gewährleisten.

Ein Data Lake ist ein riesiger Pool von Daten, die in ihrem rohen oder ursprünglichen Format gespeichert sind. Data Lakes dienen in der Regel der Speicherung von Big Data, einschließlich strukturierter, unstrukturierter und halbstrukturierter Daten. 

Big Data ist ein Begriff, der extrem große Datensätze mit strukturierten, unstrukturierten und halbstrukturierten Daten beschreibt. Big Data sind häufig durch fünf Merkmale gekennzeichnet: die enorme Menge der erfassten Daten, die Vielfalt der Datentypen, die Geschwindigkeit, mit der die Daten generiert werden, der Wahrheitsgehalt der Daten und der Wert der Daten. Im Englischen spricht man von den fünf V: Volume, Variety, Velocity, Veracity und Value. Mit Big-Data-Managementsystemen und ‑Analysen können Unternehmen Big Data auswerten, um tiefe Einblicke zu gewinnen, die als Grundlage für Entscheidungen und Maßnahmen dienen.

Im Gegensatz zu Big Data mit ihrer enormen Menge und Komplexität sind Small Data für Menschen leicht verständlich. Small Data können von Marketingumfragen bis hin gewöhnlichen Tabellenkalkulationen alles umfassen. Sie können sogar nur ein einzelner Social-Media-Beitrag oder eine einzelne E-Mail sein. Immer mehr Unternehmen nutzen neben Big Data auch Small Data, um ihre KI- und Machine-Learning-Algorithmen zu trainieren und so noch tiefere Erkenntnisse zu gewinnen. 

Thick Data sind qualitative Informationen, die Einblicke in das tagtägliche Gefühlsleben der Verbraucher bieten. Das schließt Beobachtungen, Gefühle und Reaktionen ein – Dinge, die in der Regel schwer zu quantifizieren sind. In Kombination mit Big Data entsteht ein sehr umfassendes Bild von den Vorlieben und Wünschen der Verbraucher.

Unter Datenintegration versteht man das Erfassen, Umwandeln, Kombinieren und Bereitstellen von Daten, wo und wann sie benötigt werden. Diese Integration findet sowohl im Unternehmen als auch über Partner sowie Datenquellen und Anwendungsfälle von Drittanbietern hinweg statt, um die Datennutzungsanforderungen aller Anwendungen und Geschäftsprozesse zu erfüllen. Zu den Techniken gehören Massen-/Batch-Datenbewegung, Extrahieren, Transformieren, Laden (ETL), Erfassung von Änderungsdaten, Datenreplikation, Datenvirtualisierung, Integration von Streaming-Daten, Datenorchestrierung und vieles mehr.

Die Datenvirtualisierung bietet Unternehmen eine einheitliche Sicht auf alle Unternehmensdaten – über unterschiedliche Systeme und Formate hinweg – in einer virtuellen Datenschicht. Anstatt Daten zu duplizieren, belässt die Datenvirtualisierung die Daten in ihren Quellsystemen und stellt den Benutzern und Anwendungen einfach eine virtuelle Darstellung in Echtzeit zur Verfügung. Datenvirtualisierung ist ein moderner Ansatz für die Datenintegration, mit dem Benutzer Daten unabhängig von ihrem physischen Speicherort, ihrem Format oder ihrem Protokoll ermitteln und bearbeiten können.

Eine Data Fabric ist eine maßgeschneiderte Kombination aus Architektur und Technologie. Sie nutzt dynamische Datenintegration und ‑orchestrierung, um verschiedene Speicherorte, Quellen und Datentypen miteinander zu verbinden. Mit den richtigen Strukturen und Abläufen, die in der Data-Fabric-Plattform definiert sind, können Unternehmen schnell auf Daten zugreifen und sie gemeinsam nutzen, unabhängig davon, wo sie sich befinden oder wie sie erzeugt wurden.

Data Mesh ist ein Datenmanagementkonzept unter Rückgriff auf ein verteiltes Architektur-Framework. Mit anderen Worten: Die Zuständigkeit für bestimmte Datensätze wird im gesamten Unternehmen auf die Benutzer verteilt, die über das nötige Fachwissen verfügen, um zu verstehen, was diese Daten bedeuten und wie sie am besten genutzt werden können. 

Eine Datenpipeline beschreibt eine Reihe von automatisierten und wiederholbaren Prozessen zum Auffinden, Bereinigen, Umwandeln und Analysieren beliebiger Daten an ihrer Quelle. Da die Daten in der Nähe des Ortes analysiert werden, an dem sie erzeugt werden, können Fachanwender die benötigten Informationen schnell und zu geringeren Kosten für das Unternehmen analysieren und weitergeben. Datenpipelines können auch durch Technologien wie maschinelles Lernen verbessert werden, um sie schneller und effektiver zu gestalten.

Ein Datensilo ist ein umgangssprachlicher Begriff für eine Situation, in der einzelne Abteilungen oder Funktionsbereiche innerhalb eines Unternehmens keine Daten und Informationen mit anderen Abteilungen austauschen. Diese Isolierung verhindert koordinierte Anstrengungen zur Erreichung der Unternehmensziele und führt zu schlechter Leistung (und schlechtem Kundenservice), hohen Kosten und einer allgemeinen Unfähigkeit, auf Marktanforderungen und Veränderungen zu reagieren. Doppelte und redundante Daten lassen sich nur schwer abgleichen, was die Koordinierung von Aktivitäten und die effektive Verwaltung des Unternehmens weiter erschwert.

Bei der Datenaufbereitung (Data Wrangling) werden Rohdaten in ein Format umgewandelt, das mit bestehenden Datenbanken und Anwendungen kompatibel ist. Der Prozess kann die Strukturierung, Bereinigung, Anreicherung und Validierung von Daten umfassen, um die Rohdaten nutzbar zu machen.

Bei der Datensicherheit geht es darum, Daten sicher zu machen – sicher vor unbefugten Zugriffen, Katastrophen oder Systemausfällen und gleichzeitig leicht zugänglich für autorisierte Benutzer und Anwendungen. Zu den Methoden und Tools gehören Datenverschlüsselung, Schlüsselverwaltung, Redundanz- und Sicherungsmaßnahmen sowie Zugriffskontrollen. Datensicherheit ist für Unternehmen jeder Größe und Art eine Voraussetzung, um Kunden- und Unternehmensdaten vor der ständig wachsenden Bedrohung durch Datenschutzverletzungen und Datenschutzrisiken zu schützen. Redundanz und Backups sind wichtig für die Geschäftskontinuität und Datenwiederherstellung im Notfall (Disaster-Recovery).

Datenschutz bezieht sich auf die Richtlinien und Praktiken für den Umgang mit Daten in einer Weise, die sie vor unberechtigtem Zugriff oder Offenlegung schützt. Datenschutzrichtlinien und ‑praktiken regeln, wie Informationen im Rahmen der Datenstrategie des Unternehmens erfasst und gespeichert werden, wie sie an Dritte weitergegeben werden dürfen und wie die gesetzlichen Bestimmungen einzuhalten sind. Datenschutz ist eine geschäftliche Notwendigkeit, mit der die Erwartungen der Kunden erfüllt und gleichzeitig die Integrität und Sicherheit der gespeicherten Informationen geschützt werden.

Datenqualität ist ein unscharfer Begriff, der die Eignung und Zuverlässigkeit von Daten beschreibt. Gute, qualitativ hochwertige Daten bedeuten einfach, dass die Daten genau (wirklich repräsentativ für das, was sie beschreiben), zuverlässig (konsistent, überprüfbar, ordnungsgemäß verwaltet und geschützt) und in dem Maße vollständig sind, wie es die Benutzer und Anwendungen benötigen. Die Qualität der Daten kann nur durch eine sorgfältig ausgearbeitete und umgesetzte Datenstrategie gewährleistet werden, die mit leistungsfähigen Tools und Systemen sowie mit gewissenhaft befolgten Datenmanagementrichtlinien und ‑verfahren umgesetzt wird.

Bei der Datenvalidierung wird die Qualität, Genauigkeit und Gültigkeit der Daten vor dem Import oder der Verwendung bestimmt. Die Validierung kann aus einer Reihe von Aktivitäten und Prozessen zur Authentifizierung der Daten und zur allgemeinen „Bereinigung“ von Datenelementen bestehen, einschließlich der Entfernung von Duplikaten, der Korrektur offensichtlicher Fehler oder fehlender Elemente und möglicher Formatierungsänderungen (Datenbereinigung). Mit der Datenvalidierung wird sichergestellt, dass die Informationen, die Sie für wichtige Entscheidungen benötigen, korrekt und vertrauenswürdig sind.

Als Datenbereinigung wird der Prozess der Entfernung oder Korrektur von Fehlern in einem Datensatz, einer Tabelle oder einer Datenbank bezeichnet. Diese Fehler können beschädigte, ungenaue, irrelevante oder unvollständige Informationen umfassen. Bei diesem Prozess, der auch als Data-Scrubbing bezeichnet wird, werden doppelte Daten und andere Unstimmigkeiten wie Tippfehler und nicht zusammenpassende Zahlenreihen gefunden. Die Datenbereinigung kann falsche Informationen entfernen oder offensichtliche Fehler wie leere Felder oder fehlende Codes korrigieren.

Datenintegrität bezieht sich auf die Wahrhaftigkeit von Daten auf lange Sicht. Sobald die Daten eingegeben oder importiert, bearbeitet, validiert, bereinigt und gespeichert sind, ist die Datenintegrität eine Aussage darüber, dass die Datenqualität erhalten bleibt und die Benutzer sicher sein können, dass sich die eingegebenen Daten nicht geändert haben und nicht ändern werden. Die abgerufenen Daten sind dieselben wie die ursprünglich gespeicherten. Manchmal als Synonym für Datenqualität verwendet, geht es bei der Datenintegrität jedoch eher um Verlässlichkeit.

Daten-Governance bezeichnet eine Reihe von Richtlinien und Verfahren zur Gewährleistung eines ordnungsgemäßen Datenmanagements in einem Unternehmen. Sie legt die IT-Infrastruktur fest und benennt die Personen (oder Positionen), die für den Umgang mit und den Schutz von bestimmten Arten von Daten berechtigt und verantwortlich sind. Eine effektive Daten-Governance stellt sicher, dass Daten verfügbar, vertrauenswürdig, sicher und konform sind – und dass sie nicht missbraucht werden.

Datenverantwortung (Data Stewardship) ist die Umsetzung von Daten-Governance-Richtlinien und -Verfahren zur Gewährleistung der Genauigkeit, Zuverlässigkeit, Integrität und Sicherheit von Daten. Die mit der Datenverantwortung betrauten Mitarbeiter verwalten und beaufsichtigen die Verfahren und Tools, die für den Umgang, die Speicherung und den Schutz von Daten verwendet werden.

Die Datenarchitektur ist der Gesamtentwurf für die Struktur, die Richtlinien und die Regeln, die die Daten eines Unternehmens und ihre Verwendung und Verwaltung definieren. Die Datenarchitektur umfasst die Details, wie die Datenstrategie zur Unterstützung der Geschäftsanforderungen und ‑ziele umgesetzt wird, und dient als Grundlage für die Entwicklung von Datenbanken, Verfahren, Schutzmaßnahmen, Sicherheit und Daten-Governance.

Unter Stammdatenmanagement (Master Data Management, MDM) wird die Erstellung einer einzigen „Master“-Referenzquelle für alle wichtigen Geschäftsdaten verstanden. Es umfasst Richtlinien und Verfahren zur Definition, Verwaltung und Kontrolle (oder Steuerung) des Umgangs mit Stammdaten. Eine zentralisierte Stammdatenverwaltung beseitigt Konflikte und Unklarheiten, die sich aus verstreuten Datenbanken mit doppelten Informationen und unkoordinierten Daten ergeben, die möglicherweise veraltet, beschädigt oder nicht synchronisiert sind – an einer Stelle aktualisiert, an einer anderen nicht. Eine einzige Version für das gesamte Unternehmen bedeutet, dass alle Teile des Unternehmens mit denselben Definitionen, Standards und Annahmen arbeiten.

Der Begriff Analytik bezieht sich auf die systematische Analyse von Daten. Analyseanwendungen und ‑toolkits enthalten mathematische Algorithmen und Berechnungs-Engines, mit denen große Datensätze bearbeitet werden können, um Muster, Trends, Beziehungen und andere Informationen aufzudecken, mit denen die Benutzer Fragen stellen und nützliche Erkenntnisse über ihr Geschäft, ihre Abläufe und ihre Märkte gewinnen können. Viele moderne Analyse-Toolkits sind für die Verwendung durch technische Laien konzipiert, die diese Analysen mit minimaler Unterstützung durch Datenwissenschaftler oder IT-Spezialisten durchführen können.

Erweiterte Analysen sind Analysen, die durch KI-Technologien „erweitert“ werden, u. a. durch maschinelles Lernen und Verarbeitung natürlicher Sprache. Mit erweiterten Analysefunktionen können Benutzer schneller bessere Erkenntnisse gewinnen. Sie können viele komplexe Schritte im Prozess automatisieren und es auch technisch weniger versierten Benutzern ermöglichen, Daten auf natürliche, dialogorientierte Weise abzufragen.

Beim Data Mining geht es darum, nützliche Informationen aus großen Datensätzen zu extrahieren. Data Mining wird häufig von Fachanwendern durchgeführt, die Analysetools einsetzen, um Muster, Trends, Anomalien, Beziehungen, Abhängigkeiten und andere nützliche Informationen aufzudecken. Data Mining hat ein breites Anwendungsspektrum, das von der Aufdeckung von Betrug und Cybersicherheitsproblemen bis zur Verbesserung von Prognosen und der Suche nach Möglichkeiten zur Leistungssteigerung reicht.

Bei der Datenprofilierung werden statistische Daten und Merkmale eines Datensatzes erfasst, z. B. seine Genauigkeit, Vollständigkeit und Gültigkeit. Die Datenprofilierung ist eine der Techniken, die bei der Datenvalidierung und Datenbereinigung zum Einsatz kommen, da sie dazu beitragen kann, Datenqualitätsprobleme wie Redundanzen, fehlende Werte und Inkonsistenzen zu erkennen.

placeholder

Was ist Datenmanagement?

Wie Ihr Unternehmen seine Daten in eine wertvolle Ressource verwandeln kann.

SAP-Insights-Newsletter

placeholder
Jetzt abonnieren

Abonnieren Sie unseren Newsletter und erhalten Sie wichtige Informationen und Einblicke.

Weitere Informationen

Zum Seitenanfang