Zum Inhalt
Personen, die den Datenfluss in einem Data Warehouse bearbeiten

Was ist Datenmodellierung?

Datenmodellierung ist der Prozess einer schematischen Darstellung von Datenflüssen. Bei der Erstellung einer neuen oder alternativen Datenbankstruktur beginnt der Designer mit einem Diagramm, das den Datenfluss in die und aus der Datenbank darstellt. Anhand dieses Flussdiagramms werden die Merkmale der Datenformate, Strukturen und Datenbankverarbeitungsfunktionen definiert, um so die Anforderungen an den Datenfluss effizient zu unterstützen. Nach Erstellung und Bereitstellung der Datenbank bleibt das Datenmodell bestehen. Es dient als Dokumentation und Rechtfertigung dafür, warum die Datenbank existiert und wie die Datenflüsse konzipiert wurden.

 

Das entstandene Datenmodell stellt einen Rahmen für die Beziehungen zwischen den Datenelementen innerhalb einer Datenbank sowie einen Leitfaden für die Verwendung der Daten dar. Datenmodelle sind ein grundlegendes Element der Softwareentwicklung und Datenanalyse. Sie bieten eine standardisierte Methode zur Definition und Formatierung von Datenbankinhalten konsistent über alle Systeme hinweg, sodass verschiedene Anwendungen dieselben Daten gemeinsam nutzen können.

Warum ist Datenmodellierung wichtig?

Ein umfassendes und optimiertes Datenmodell unterstützt den Aufbau einer vereinfachten, logischen Datenbank, die Redundanzen beseitigt, Speicheranforderungen senkt und effiziente Abrufe ermöglicht. Zudem bietet es eine zentrale Datenquelle für alle Systeme. Dies ist für effektive Prozesse und die nachweisliche Einhaltung von Vorschriften und gesetzlichen Bestimmungen unerlässlich. Die Datenmodellierung ist ein entscheidender Schritt in zwei Kernfunktionen eines digitalen Unternehmens.

Von IT-Experten durchgeführte Softwareentwicklungsprojekte (neue Projekte oder Anpassungen)

 
Vor Planung und Aufbau eines Softwareprojekts muss eine dokumentierte Vorschau zeigen, wie das Endprodukt aussehen und sich verhalten wird. Ein wichtiger Bestandteil dieser Vorschau sind die Geschäftsregeln, die die gewünschte Funktionalität bestimmen. Der andere Teil ist die Datenbeschreibung – die Datenflüsse (oder das Datenmodell) und das Datenbankdesign, das sie unterstützt.
 
Eine Datenmodellierung zeichnet diese Vorschau auf und liefert den Softwareentwicklern eine Roadmap. Sind die Datenbank und die Datenflüsse vollständig definiert sowie dokumentiert und wurden die Systeme nach diesen Vorgaben entwickelt, dann sollten diese Systeme die erwarteten Funktionen bieten und damit präzise Daten ermöglichen (sofern die Verfahren ordnungsgemäß eingehalten wurden).
 

Analysen und Visualisierungen (oder Business Intelligence) – wichtige Entscheidungshilfen für Nutzer

 

Angesichts wachsender Datenvolumen und steigender Nutzerzahlen müssen Unternehmen für fundierte Entscheidungen in der Lage sein, Rohdaten in aussagekräftige Informationen zu verwandeln. Auch aus diesem Grund ist der Bedarf an Datenanalysen drastisch angestiegen. Datenvisualisierungen erleichtern den Nutzern durch die grafische Darstellung den Zugang zu Daten.

 

Die heutigen Datenmodelle gewinnen aus Rohdaten nützliche Informationen, mit denen wiederum dynamische Visualisierungen möglich sind. Die Datenmodellierung bereitet die Daten für die Analyse vor: Die Daten werden bereinigt, es werden Kennzahlen und Dimensionen definiert und die Daten werden aufgewertet, indem Hierarchien etabliert, Einheiten und Währungen festgelegt und Formeln hinzugefügt werden.

 

Welche Arten von Datenmodellierung gibt es?

Die drei wichtigsten Arten sind das relationale, das dimensionale und das Entity-Relationship-Datenmodell. Es gibt noch einige weitere, die nicht so häufig verwendet werden. Dazu gehören das hierarchische, das objektorientierte, das Netzwerk- und das Multivalue-Modell. Die Modellart definiert die logische Struktur, also wie die Daten logisch gespeichert werden, und damit auch, wie sie gespeichert, organisiert und abgerufen werden.

  1. Relational: Trotz des „älteren“ Ansatzes ist das relationale Datenbankmodell noch immer am weitesten verbreitet. Hier werden Daten in Datensätzen mit festen Formaten gespeichert und in Tabellen mit Zeilen und Spalten angeordnet. Diese grundlegende Datenmodellart verfügt über zwei Elemente: Kennzahlen und Dimensionen. Kennzahlen sind numerische Werte wie Mengen und Erträge, die in mathematischen Berechnungen wie Summe oder Durchschnitt verwendet werden. Dimensionen können Text oder numerische Werte sein. Sie werden nicht in Berechnungen genutzt und enthalten Beschreibungen oder Orte. Die Rohdaten werden als Kennzahl oder als Dimension definiert. Weitere Begriffe, die im relationalen Datenbankdesign verwendet werden, sind „Relationen“ (die Tabelle mit Zeilen und Spalten), „Attribute“ (Spalten), „Tupel“ (Zeilen) und „Domäne“ (der in einer Spalte zulässige Wertebereich). Zwar werden zur Definition einer relationalen Datenbank auch weitere Begriffe und strukturelle Anforderungen verwendet, der entscheidende Faktor sind jedoch die Beziehungen, die innerhalb dieser Struktur festgelegt sind. Gemeinsame Datenelemente („Schlüssel“) verknüpfen Tabellen und Datensätze miteinander. Tabellen können auch einen expliziten Bezug zueinander haben, wie beispielsweise Eltern-Kind-Beziehungen, einschließlich Eins-zu-Eins-Beziehungen (1:1), Eins-zu-Viele-Beziehungen (1:n) oder Viele-zu-Viele-Beziehungen (n:n).
  2. Dimensional: Der weniger starre und strukturierte dimensionale Ansatz begünstigt eine Struktur mit kontextbezogenen Daten, die enger mit dem Anwendungsfall oder dem geschäftlichen Umfeld verbunden ist. Diese Datenbankstruktur ist optimal auf Online-Abfragen und Werkzeuge für das Data Warehousing ausgerichtet. Wichtige Datenelemente wie eine Transaktionsmenge werden als „Fakten“ bezeichnet und sind verbunden mit Referenzinformationen wie Produkt-ID, Stückpreis oder Transaktionsdatum, die „Dimensionen“ genannt werden. Eine Faktentabelle ist in einem dimensionalen Modell eine Primärtabelle. Der Abruf kann schnell und effizient sein, da die Daten für eine bestimmte Aktivitätsart zusammen gespeichert werden. Jedoch können fehlende Beziehungsverknüpfungen den Abruf und die Nutzung der Daten zu Analysezwecken erschweren. Die Datenstruktur ist an die Geschäftsfunktion gebunden, die die Daten generiert und verwendet. Das kann zu Problemen führen, wenn Daten aus ungleichen Systemen (bspw. in einem Data Warehouse) kombiniert werden sollen.
  3. Entity-Relationship (ER): Ein ER-Modell ist eine grafisch dargestellte Geschäftsdatenstruktur, in der Aktivitäten, Funktionen oder „Entitäten“ durch verschieden geformte Symbole und Zusammenhänge, Abhängigkeiten oder „Beziehungen“ durch Verbindungslinien dargestellt werden. Das ER-Modell wird dann für den Aufbau einer relationalen Datenbank verwendet, wobei jede Zeile eine Entität darstellt und die Felder in dieser Zeile Attribute enthalten. Wie in allen relationalen Datenbanken werden Tabellen mit „Schlüssel“ genannten Datenelementen verknüpft.

Was sind die drei Ebenen der Datenabstraktion?

Es gibt viele Arten von Datenmodellen mit unterschiedlichen Arten möglicher Layouts. Datenverarbeitungsexperten unterscheiden drei Arten der Modellierung, um die Gedankenebenen bei der Entwicklung der Modelle darzustellen.

Konzeptionelles Datenmodell

 

Dabei handelt es sich um ein „Big Picture“-Modell, das die Gesamtstruktur und den gesamten Inhalt darstellt, aber keine Details des Datenplans enthält. Es bildet in der Regel den Ausgangspunkt für die Datenmodellierung und zeigt die verschiedenen Datensätze und den unternehmensweiten Datenfluss auf. Das konzeptionelle Modell gibt das allgemeine Konzept für die Entwicklung der logischen und physischen Modelle vor und ist ein wichtiger Bestandteil der Dokumentation der Datenarchitektur.

 

Logisches Datenmodell

 

Die zweite Detailebene ist das logische Datenmodell. Es ähnelt am stärksten der allgemeinen Definition eines „Datenmodells“, da es den Datenfluss und den Datenbankinhalt abbildet. Das logische Modell erweitert die Gesamtstruktur im konzeptionellen Modell um Details, umfasst aber keine Spezifikationen für die Datenbank selbst, da das Modell für verschiedene Datenbanktechnologien und ‑produkte verwendet werden kann. (Beachten Sie, dass es möglicherweise kein konzeptionelles Modell gibt, wenn sich das Projekt auf eine einzelne Anwendung oder ein anderes eingeschränktes System bezieht.)

 

Physisches Datenmodell

 

Das physische Datenbankmodell beschreibt, wie das logische Modell im Einzelnen umgesetzt wird. Es muss so detailliert sein, dass die Technologieexperten die tatsächliche Datenbankstruktur mit Hardware und Software anlegen können, um die Anwendungen zu unterstützen, die sie nutzen werden. Das physische Datenmodell ist daher auch speziell auf ein bestimmtes Datenbank-Softwaresystem ausgerichtet. Bei Nutzung verschiedener Datenbanksysteme können aus einem logischen Modell mehrere physische Modelle abgeleitet werden.

Prozess und Techniken der Datenmodellierung

Die Datenmodellierung ist grundsätzlich ein Top-down-Prozess: Er beginnt mit dem konzeptionellen Modell, das die Gesamtvision festlegt, geht zum logischen Modell über und enthält abschließend das detaillierte Design im physischen Modell.

 

Bei der Entwicklung des konzeptionellen Modells geht es hauptsächlich darum, Ideen in eine grafische Form umzusetzen, die dem Flussdiagramm eines Entwicklers ähnelt.

 

Moderne Werkzeuge für die Datenmodellierung unterstützen Sie bei der Definition und Entwicklung Ihrer logischen und physischen Datenmodelle und Datenbanken. Hier einige typische Techniken und Schritte der Datenmodellierung:

  • Bestimmung von Entitäten und Erstellung eines Entity-Relationship-Diagramms (ERD): Entitäten sind Datenelemente, die für Ihr Unternehmen von Interesse sind. „Kunde“ wäre beispielsweise eine Entität, „Verkauf“ eine andere. In einem ERD dokumentieren Sie, in welcher Beziehung diese unterschiedlichen Entitäten in Ihrem Unternehmen stehen und welche übergeordneten Verbindungen zwischen ihnen bestehen.
  • Definition Ihrer Fakten, Kennzahlen und Dimensionen: Ein Fakt ist der Teil Ihrer Daten, der ein bestimmtes Ereignis oder eine bestimmte Transaktion bezeichnet, zum Beispiel den Verkauf eines Produkts. Kennzahlen sind quantitativ, wie beispielsweise Menge, Erlös, Kosten. Dimensionen sind qualitative Kennzahlen, wie Beschreibungen, Orte und Termine.  
  • Anlegen einer Verknüpfung zu einer Datensicht mit einem grafischen Werkzeug oder über SQL-Abfragen:
    Sollten Sie mit SQL nicht vertraut sein, ist das grafische Werkzeug die intuitivere Option. Mit ihm können Sie Elemente per Drag-and-Drop in Ihr Modell ziehen und die Verbindungen visuell erstellen. Beim Anlegen einer Sicht können Sie Tabellen und sogar andere Sichten zu einer einzigen Ausgabe kombinieren. Wenn Sie in der grafischen Sicht eine Quelle auswählen und auf eine bereits mit der Ausgabe verknüpfte Quelle ziehen, haben Sie die Möglichkeit, diese Tabellen entweder zu verbinden oder zusammenzufügen.

Moderne Analyselösungen unterstützen Sie auch beim Auswählen, Filtern und Verbinden von Datenquellen mithilfe einer grafischen Drag-and-Drop-Darstellung. Vor allem Datenexperten im IT-Bereich stehen hochentwickelte Werkzeuge zur Verfügung. Doch auch Nutzer können Daten überzeugend und inspirierend präsentieren, indem sie ein Datenmodell visuell erstellen und Tabellen, Diagramme, Karten und andere Objekte strukturieren.

placeholder

SAP Analytics Cloud kennenlernen

Entwickeln Sie ein Datenmodell, um Daten überzeugend und inspirierend zu präsentieren.

Beispiele für die Datenmodellierung

Für jede Anwendung, ob sie geschäftlichen, persönlichen oder Unterhaltungszwecken dient, ist die Datenmodellierung ein wichtiger erster Schritt für die Gestaltung des Systems und die Festlegung der Infrastruktur, die für die Systemaktivierung erforderlich ist. Diese gilt für alle Arten von Transaktionssystemen, sämtliche Anwendungspakete für die Datenverarbeitung oder jedes andere System, das Daten sammelt, generiert oder verwendet.

 

Die Datenmodellierung ist unabdingbar für das Data Warehousing, da ein Data Warehouse ein Repository für Daten aus verschiedenen Quellen ist, die wahrscheinlich ähnliche oder verwandte Daten in unterschiedlichen Formaten enthalten. Zunächst müssen die Formate und die Struktur für das Data Warehouse festgelegt werden, um bestimmen zu können, wie jeder eingehende Datensatz verarbeitet wird. Bei der Verarbeitung müssen die Anforderungen des Data-Warehouse-Designs erfüllt werden, damit die Daten für Analysen und Data Mining von Nutzen sind. Das Datenmodell ist dann ein wichtiger Wegbereiter für Analysewerkzeuge, Führungsinformationssysteme (Dashboards), Data Mining und die Integration in sämtliche Datensysteme und ‑anwendungen.

 

In den frühen Phasen einer Systemgestaltung ist die Datenmodellierung eine Grundvoraussetzung für alle weiteren Schritte und Phasen. Es entsteht das Fundament, auf dem sämtliche Programme, Funktionen und Werkzeuge aufbauen. Das Datenmodell ist wie eine gemeinsame Sprache: Es erlaubt Systemen miteinander zu kommunizieren, weil sie Daten so auswerten und akzeptieren, wie es im Modell beschrieben wird. Das ist in der heutigen Welt mit Big Data, maschinellem Lernen, künstlicher Intelligenz, Cloud-Konnektivität, IoT und verteilten Systemen einschließlich Edge Computing wichtiger als je zuvor.

Die Entwicklung der Datenmodellierung

Eigentlich ist die Datenmodellierung ebenso alt wie die Datenverarbeitung, die Datenspeicherung und die Computerprogrammierung. Jedoch gelangte der Begriff erst in den allgemeinen Sprachgebrauch, als man in den 1960er-Jahren mit der Entwicklung von Datenbankmanagementsystemen begann. Das Konzept, eine neue Struktur erst zu planen und auszugestalten, ist weder neu noch innovativ. Die Datenmodellierung selbst ist allerdings inzwischen strukturierter und formeller geworden, da immer mehr Daten, Datenbanken und Datenarten entstanden sind.

 

Heute ist die Datenmodellierung wichtiger denn je, weil sich Technologieexperten mit neuen Datenquellen (IoT-Sensoren, standortbasierte Geräte, Clickstreams, soziale Medien) und einer Flut an unstrukturierten Daten (Text, Audio, Video, Rohdaten von Sensoren) konfrontiert sehen. Allein Menge und Geschwindigkeit übersteigen die Möglichkeiten herkömmlicher Systeme. Inzwischen besteht ein permanenter Bedarf an neuen Systemen, innovativen Datenbankstrukturen und ‑techniken sowie neuen Datenmodellen, mit denen diese neuen Entwicklungsaufgaben zusammengelegt werden können.

Wie entwickelt sich die Datenmodellierung weiter?

Durch Informationskonnektivität und große Datenmengen aus vielen unterschiedlichen Quellen – wie Sensoren, Spracheingaben, Video und E-Mail – erweitert sich für IT-Experten der Umfang von Modellierungsprojekten. Das Internet trägt natürlich erheblich zu dieser Entwicklung bei. Die Cloud ist ein wichtiger Bestandteil der Lösung, da sie als einzige Datenverarbeitungsinfrastruktur groß, skalierbar und flexibel genug ist, um die gegenwärtigen und künftigen Anforderungen zu erfüllen, die mit der zunehmenden Konnektivität einhergehen.

 

Auch die Möglichkeiten für das Datenbankdesign ändern sich. Noch vor zehn Jahren war die dominierende Struktur eine zeilenorientierte relationale Datenbank mit klassischen Festplattenspeichern. Die Daten für ein Hauptbuch oder die Bestandsführung in einer typischen ERP-Anwendung wurden in Dutzenden unterschiedlicher Tabellen gespeichert, die aktualisiert und modelliert werden mussten. Inzwischen speichern moderne ERP-Lösungen aktive Daten mithilfe von In-Memory-Technologie in einem spaltenbasierten Design. Dadurch werden viel weniger Tabellen benötigt und Geschwindigkeit und Effizienz gesteigert.

 

Die derzeit verfügbaren neuen Selfservice-Tools für die Fachabteilungen werden sich weiter verbessern. Und es werden neue Tools eingeführt, die die Modellierung und Visualisierung von Daten vereinfachen und die Zusammenarbeit fördern.

Zusammenfassung

Ein gut konzipiertes und umfassendes Datenmodell ist der Schlüssel zur Entwicklung einer funktionellen, nützlichen, sicheren und präzisen Datenbank. Beginnen Sie mit dem konzeptionellen Modell, um alle Komponenten und Funktionen des Datenmodells darzustellen. Verfeinern Sie diese Pläne dann in einem logischen Datenmodell weiter. Dieses Modell beschreibt die Datenflüsse und legt klar fest, welche Art von Daten gebraucht wird und wie diese erfasst, verarbeitet, gespeichert und verteilt werden. Das logische Datenmodell bildet wiederum die Grundlage für das physische Datenmodell. Dieses ist speziell auf ein Datenbankprodukt ausgerichtet und dient als detailliertes Designdokument und somit auch als Leitfaden bei der Erstellung der Datenbank und der Anwendungssoftware.

 

Eine solide Datenmodellierung und ein geeignetes Datenbankdesign sind unerlässlich für die Entwicklung funktioneller, zuverlässiger und sicherer Anwendungssysteme und Datenbanken, die gut mit Data Warehouses und Analysewerkzeugen zusammenspielen und den Datenaustausch mit Geschäftspartnern und zwischen mehreren Anwendungspaketen erleichtern. Wohldurchdachte Datenmodelle gewährleisten die Datenintegrität und steigern den Wert und die Zuverlässigkeit Ihrer Unternehmensdaten.

placeholder

Moderne Werkzeuge für die Datenmodellierung kennenlernen

Verknüpfen Sie Daten mit dem Geschäftskontext und ermöglichen Sie Fachanwendern neue Erkenntnisse.

Mehr aus dieser Reihe

SAP-Insights-Newsletter

placeholder
Jetzt abonnieren

Abonnieren Sie unseren Newsletter und erhalten Sie wichtige Informationen und Einblicke.

Weitere Informationen

Zum Seitenanfang