media-blend
text-black

Geschäftsleute in einem Meeting, die sich Grafiken auf einem interaktiven Bildschirm anschauen

Data Lake und Data Warehouse im Vergleich

Data Lakes speichern Rohdaten in ihrem nativen Format, unabhängig davon, wie sie dort ankommen. Data Warehouses speichern Daten, die auf eine vordefinierte Weise bereinigt und strukturiert wurden.

default

{}

default

{}

primary

default

{}

secondary

Einführung in Data Lakes und Data Warehouses

Data Lakes und Data Warehouses sind Systeme, die große Mengen von digitalen Daten speichern, verwalten und abrufen. Unternehmen sammeln Daten, damit sie Einblicke in ihre Abläufe, Kunden, Märkte und Lieferketten erhalten und strategischer reagieren können.

Data Warehouses entstanden als Lösung, um Datensilos aufzubrechen und die Herausforderung zu meistern, dass Unternehmensdaten in mehreren Systemen, unterschiedlichen Formaten und in verschiedenen Abteilungen vorliegen.

Die fehlende Konsistenz erschwerte es Nutzenden, auf diese Daten zuzugreifen, sie zu integrieren und zu analysieren, um Muster zu erkennen, Bedarf vorherzusagen oder die Unternehmensleistung zu bewerten. Es wurden Data Warehouses entwickelt – zur Zusammenführung dieser Daten in einem zentralen Repository, in dem Daten für Analysen integriert, bereinigt und strukturiert werden können. Mit diesem Ansatz wurde eine zentrale Datenquelle geschaffen, um Compliance, Leistungsüberwachung und Business-Intelligence-Prozesse zu unterstützen.

Data Lakes wiederum entstanden als Reaktion auf die Beschränkungen von Data Warehouses, die der explosionsartigen Zunahme von unstrukturierten und teilstrukturierten Daten aus neuen Quellen wie sozialen Medien, IoT-Geräten, Sensoren, mobilen Apps usw. nicht mehr gewachsen waren. Das Speichern und Verarbeiten enormer Mengen unterschiedlicher Daten wie Bilder, Videos und Texte stellte sich als zu teuer und ineffizient heraus, weil die Daten bei traditionellen Data Warehouses ursprünglich vorab und vor dem Speichern bereinigt und aufbereitet werden mussten.

Unternehmen benötigten eine flexiblere, kostengünstigere Möglichkeit, Daten im ursprünglichen Rohformat zu speichern. Aus dieser Notwendigkeit heraus entstanden die Data Lakes.

Heute verfolgen viele moderne Unternehmen einen hybriden Ansatz, der sowohl Data Warehouses als auch Data Lakes beinhaltet: das Data Lakehouse. Diese Architektur bietet sowohl die schnellen, strukturierten Reporting-Funktionen von Data Warehouses als auch das Potenzial für KI- und ML-Anwendungen von Data Lakes.

Data Lakes im Vergleich zu Data Warehouses: die wichtigsten Unterschiede

Der wichtigste Unterschied zwischen Data Lakes und Data Warehouses besteht in der Art der Daten, die jeweils gespeichert werden, und wie diese Daten gespeichert werden. Beides spielt eine wichtige Rolle bei der Datenstrategie eines Unternehmens.

Data Warehouses speichern strukturierte Daten, die anhand einer vordefinierten Struktur oder eines Schemas bereinigt und aufbereitet wurden. Weil das Schema vor der Datenspeicherung zur Anwendung kommt, wird der Ansatz als Schema-on-Write bezeichnet.

Ein Schema schreibt beispielsweise vor, dass die Kunden-ID-Daten eine Ganzzahl sein müssen, dass Bestelldaten im Format JJJJ-MM-TT vorliegen müssen und dass die Daten für den Gesamtumsatzbetrag das Dezimalformat erfordern. Weil alle Daten diesen Regeln unterworfen werden, können Nutzende schnell und zuverlässig Abfragen wie „Gesamtumsatz je Kunde im April 2025 finden“ stellen. Diese Schnelligkeit und Genauigkeit machen Data Warehouses ideal für die Berichterstellung, Dashboards und Business-Intelligence-Anwendungsfälle.

Im Gegensatz dazu können Data Lakes Rohdaten in ihrem ursprünglichen Format speichern, unabhängig davon, wie sie strukturiert sind. Ein Schema ist vorab nicht erforderlich.

Das Schema wird erst definiert, wenn die Daten abgefragt werden. Daher wird der Ansatz als Schema-on-Read bezeichnet. Erst dann werden die Rohdaten analysiert, strukturiert und der Anfrage entsprechend interpretiert.

Zusammenfassend wenden Data Warehouses ein Schema an, bevor Daten gespeichert werden, um sicherzustellen, dass alle Daten für die Benutzung strukturiert und bereinigt wurden. Data Lakes wenden bei Abfrage der Daten ein Schema an und können von Beginn an beliebige Daten speichern: strukturiert und unstrukturiert.

Unterschiede zwischen Data Lakes und Data Warehouses

Data Lakes
Data Warehouses
Datentyp
Speichert strukturierte, teilstrukturierte und unstrukturierte Daten (z. B. Protokolle, Videos, Text).
Speichert nur strukturierte Daten (z. B. Verkaufstransaktionen, Finanzdaten).
Schema
Schema-on-Read: Das Schema wird angewendet, wenn die Daten abgefragt werden.
Schema-on-Write: Das Schema wird angewendet, bevor die Daten gespeichert werden.
Nutzende
Datenwissenschaftler, Data Engineers und Datenanalysten, die Muster untersuchen, Modelle trainieren oder Workflows für maschinelles Lernen ausführen.
Business-Analysten, Führungskräfte und Betriebsteams, die Berichte und KPIs generieren.
Zweck
Flexibler Speicher für große Mengen unterschiedlicher Rohdaten für die Datenanalyse, KI und maschinelles Lernen.
Zentrales Repository für strukturierte, aufbereitete Daten, die in Berichten, Dashboards und Business Intelligence verwendet werden.
Kosten
Kostengünstiger Objektspeicher
Höhere Speicher- und Verarbeitungskosten aufgrund der Vorverarbeitung und Optimierung.

Wahl zwischen Data Lakes und Data Warehouses

Weil Data Lakes Rohdaten in jedem Format speichern können, eignen sie sich ideal für Unternehmen, die Flexibilität benötigen. So erfassen Einzelhändler beispielsweise enorme Datenmengen aus mehreren Quellen wie Websites, mobilen Apps, soziale Medien, Point-of-Sale-Systemen und mehr. Da die erfassten Daten nicht bereinigt, umgewandelt oder strukturiert sein müssen, können sie kostengünstigere Speichersysteme nutzen, die einfach skalierbar sind. Die Kosten für die Verarbeitung von Rohdaten zur Abfragezeit können jedoch im Vergleich zu den optimierten Abfragen eines Data Warehouses höher sein.

Verglichen mit Data Lakes fallen bei Data Warehouses höhere Kosten an. Die Bereinigungs-, Umwandlungs- und Strukturierungsprozesse vor dem Laden – sowie die Indizierung und Partitionierung nach dem Laden – erfordern zusätzliche Ressourcen und Speichervorgänge. Diese Optimierung ergibt jedoch sofort nutzbare Daten für Business Intelligence, Reporting und Betriebsanalysen. Mit Data Warehouses können Analysten und Führungskräfte Berichte generieren, KPIs überwachen und schnell und einfach fundierte Entscheidungen treffen.

Anzumerken sei hier, dass Data Lakes neue Chancen für KI- und ML-Anwendungen eröffnen. Die umfangreichen und höchst unterschiedlichen Datensätze, die sie speichern, ermöglichen Datenanalysten, Trends zu erkennen, Prognosemodelle zu erstellen und Anwendungen für maschinelles Lernen auszuführen. So können beispielsweise Empfehlungssysteme entstehen, die Nutzenden Produkte anhand von früheren Interaktionen vorschlagen, oder Tools zur Verarbeitung natürlicher Sprache, die Stimmungsanalysen von Kundenbewertungen oder Kommentaren in sozialen Medien durchführen.

Heute unterhalten viele moderne Unternehmen Datenarchitekturen, die im Wesentlichen Kombinationen aus beidem sind. Diese so genannten Data Lakehouses zielen darauf ab, die Flexibilität eines Data Lakes mit der Governance und Leistung eines Data Warehouses zu vereinen. Obwohl ihre Akzeptanz schnell wächst, setzen viele Unternehmen für kritische Berichte weiterhin auf traditionelle Warehouses.

Beispiele aus der Praxis und Anwendungsfälle

Hier sind Beispiele dafür, wie unterschiedliche Branchen Data Lakes, Data Warehouses oder eine Kombination aus Elementen beider verwenden, um ihre individuellen Anforderungen zu erfüllen.

Gesundheitswesen: Krankenhäuser nutzen häufig eine Data-Lake-Architektur, um die großen Mengen und unterschiedlichen Arten von Daten zu speichern, zu verwalten und zu analysieren, die ihre Abläufe generieren. Das beinhaltet unstrukturierte Daten von Wearables und medizinische Bilder, teilstrukturierte HL7-Patientendaten und strukturierte Labortestergebnisse. Durch die Zusammenführung aller Daten in einem zentralen Repository können sie komplexe Analysen und KI auf die Rohdaten anwenden, um z. B. Risikopatienten zu ermitteln oder das Genom zu analysieren, um Behandlungspläne zu personalisieren. Weil Patienten inzwischen mit „intelligenten“ tragbaren Geräten ausgestattet sind, die Daten zu den Vitalparametern übermitteln, können Gesundheitsdienstleister sogar Frühwarnzeichen erkennen und schneller eingreifen.

Finanzwesen: Banken und andere Finanzinstitute müssen die Regeln zur Bekämpfung von Geldwäsche und strenge Rechnungslegungsvorschriften (wie Sarbanes-Oxley in den USA oder Basel III international) einhalten. Durch die Verwendung von Data Warehouses zum Speichern von strukturierten Finanzdaten aus mehreren Systemen, darunter Transaktionsdatensätze, Kontosalden und Handelsdaten, können sie gesetzlich vorgeschriebene Berichte generieren, die Governance- und Sicherheitsvorgaben erfüllen. Neben der Compliance nutzen Finanzinstitute Data Warehouses auch, um ihre Business Intelligence zu unterstützen, Risiken zu steuern und Betrug zu erkennen, indem sie komplexe Abfragen über historische und aktuelle Datensätze hinweg ausführen.

Medien: Video-Streamingdienste verwenden einen Data-Lakehouse-Ansatz, um Nutzerdaten zu sammeln, zu speichern und zu analysieren und personalisierte Erlebnisse bereitzustellen. Sie erfassen verschiedene Datentypen aus mehreren Quellen wie Streamingprotokolle und Feedback in sozialen Medien und speichern sie in einem zentralen Repository. Diese Daten können dann verwendet werden, um Modelle für maschinelles Lernen zu entwickeln, die die relevantesten Inhalte empfehlen. Dieselben Daten können auch kuratiert und für Analyse- oder Berichtanforderungen in Teilmengen strukturiert werden – als Grundlage für Dashboards zu Kundenbindungsraten oder Entscheidungen zu Content-Käufen.

Data Lakehouses werden schnell zur bevorzugten Option für Unternehmen, die den Wert ihrer Daten maximieren möchten. Sie können sowohl Business-Intelligence- als auch KI- und ML-Anwendungsfälle auf derselben Plattform unterstützen. Es sei jedoch angemerkt, dass sie noch nicht völlig ausgereift sind und manche Unternehmen weiterhin auf traditionelle Data Warehouses setzen, wenn es um geschäftskritische Berichte geht.

Das Potenzial von KI als Produktivitäts- und Effizienzmotor hatte insbesondere Einfluss auf cDatenarchitekturen. Einige neue Data-Lake- und Data-Lakehouse-Plattformen sind jetzt mit LLMs integriert. Das ermöglicht technisch nicht versierten Nutzenden, Daten zu untersuchen und zu analysieren, indem sie Abfragen in natürlicher Sprache stellen. So kann ein Benutzer z. B. sagen: „Zeig mir Umsatztrends in Q2“ und das LLM kann SQL generieren, die vom System verstanden wird. Dadurch wird der Zugriff auf datengestützte Erkenntnisse demokratisiert.

Auch serverlose Architekturen kommen als Strategie zunehmend zum Einsatz. Hier beauftragen Unternehmen einen Cloudanbieter mit der Verwaltung ihrer Dateninfrastruktur. Bei dieser Vereinbarung bezahlt das Unternehmen für den Zugang zu einer Datenplattform, anstatt eine eigene Datenplattform einzurichten und zu verwalten. Für diesen Ansatz sprechen die einfachere Skalierbarkeit und Kosteneffizienz. Der Cloudanbieter bietet Bandbreitenflexibilität bei Spitzen in Datenvolumen oder Abfragelast, und das Unternehmen bezahlt nach Nutzung der Bandbreite. Dadurch können Entwicklungsteams die Implementierung beschleunigen, weil sie sich keine Gedanken um die Infrastruktur machen müssen.

Manche Unternehmen wählen sogar eine Multi-Cloud-Strategie, bei der sie ihre Data Lakes und Data Warehouses über mehrere Cloud-Services verteilen. Der wichtigste Vorteil dieses Ansatzes ist Resilienz durch Redundanz. Wenn eine Cloud offline geht, kann das Unternehmen in einer anderen Cloud weiterarbeiten. Die Unternehmen können zudem spezifische Workflows in bestimmen Clouds optimieren, z. B. wenn ein Service auf maschinelles Lernen spezialisiert ist. In bestimmten Branchen oder Ländern müssen sensible Daten in einer Region oder bei einem Cloud-Anbieter gespeichert werden, der lokale Compliance-Anforderungen erfüllt.

Um Daten über mehrere Cloud-Umgebungen hinweg zu verknüpfen, zu verwalten und zu managen, können Unternehmen Data-Fabric-Architekturen implementieren. Sie bieten Echtzeitzugriff auf Daten in separaten, aber synchronisierten Systemen und Anwendungen und liefern so eine einheitliche Sicht über die gesamte Landschaft hinweg.

Um sensible Daten wie Krankenakten, Sozialversicherungsnummern und Quellcodes zu schützen, können Unternehmen auch Richtlinien wie Zero-Trust-Zugriffskontrollen in ihren Datenplattformen verankern. Diese schreiben vor, dass alle Nutzenden für den Zugriff auf die benötigten Daten ihre Identität nachweisen.

FAQs

Was ist ein Data Lake?
Ein Data Lake ist ein Speichersystem, das entwickelt wurde, um große Mengen von Rohdaten im Originalformat zu speichern, z. B. Zahlen, Text, Bilder, Videos oder Protokolle. Stellen Sie sich ein riesiges „digitales Speicherbecken“ vor, in das alle Arten von Informationen fließen können, ohne zuvor aufbereitet zu werden.

Data Lakes sind hilfreich für Datenanalysten, die Modelle für maschinelles Lernen als Grundlage für Content-Empfehlungssysteme trainieren möchten.
Was ist ein Data Warehouse?

Ein Data Warehouse ist ein Speichersystem, das vor allem darauf ausgelegt ist, große Mengen strukturierter Daten zu speichern. Strukturierte Daten sind bereinigt, strukturiert und auf eine bestimmte Art formatiert. (Denken Sie an die definierten Zeilen und Spalten eines Arbeitsblatts.) Modernere Warehouses können auch für bestimmte teilstrukturierte Formate wie JSON oder XML verwendet werden.

Unternehmen verwenden Data Warehouses, um schnell Fragen zu beantworten, Berichte zu generieren und wichtige Leistungskennzahlen zu verfolgen. Diese Funktionen werden unter dem Begriff Business Intelligence geführt.

Was ist ein Data Lakehouse?
Ein Data Lakehouse ist eine moderne Datenplattform, die das Beste von Data Lakes und Data Warehouses kombiniert. Es kann alle Arten von Daten speichern – roh, unstrukturiert oder teilstrukturiert –, ohne dass die Daten zuvor strukturiert werden müssen. Es ermöglicht bei Bedarf schnelle, strukturierte Analysen und Berichte.
Was ist ein Schema? Was ist der Unterschied zwischen Schema-on-Read und Schema-on-Write?

Schemata sind Regeln dafür, wie Daten organisiert werden, z. B. welche Arten von Daten gespeichert werden können (Zahlen, Daten), wie die Daten angeordnet werden (Tabellen und Spalten) und wie die Informationen zueinander in Beziehung stehen.

Schema-on-Write bedeutet, dass die Daten in eine vordefinierte Struktur (Schema) passen müssen, bevor sie gespeichert werden. So funktionieren Data Warehouses. Sie stellen sicher, dass die Daten vorab bereinigt und analysebereit sind.

Schema-on-Read bedeutet, dass die Struktur erst angewendet wird, wenn jemand die Daten verwenden oder analysieren möchte. So funktionieren Data Lakes. Sie bieten mehr Flexibilität, weil die Daten zunächst in jeder Form gespeichert werden können und nicht sofort strukturiert werden müssen. Die Nachteile dieses Ansatzes bestehen u. a. darin, dass die Abfragen länger dauern und durch die unterschiedliche Interpretation derselben Rohdaten Inkonsistenzen drohen.

Im Gegensatz dazu sorgt Schema-on-Write vorab für Konsistenz – allerdings auf Kosten der Flexibilität.

Was ist der Unterschied zwischen strukturierten, unstrukturierten und teilstrukturierten Daten?

Strukturierte Daten sind hochgradig organisiert, einfach zu durchsuchen und lassen sich in der Regel in Tabellen speichern, wie beispielsweise Kundennamen, Umsatzzahlen und Daten.

Unstrukturierte Daten haben kein festes Format und sind schwieriger zu organisieren, z. B. Videos, Bilder, Audiodateien und Beiträge aus sozialen Medien.

Teilstrukturierte Daten sind irgendwo dazwischen angesiedelt. Sie sind teilweise organisiert, jedoch nicht so strikt wie Tabellen. Denken Sie etwa an JSON-Dateien, XML-Dokumente und E-Mails.

Logo von SAP

Profitieren Sie maximal von Ihren Daten

Nutzen Sie SAP Business Data Cloud, um alles miteinander zu verknüpfen.

Mehr erfahren