Zum Inhalt
Foto eines Sees

Was ist ein Data Lake?

Ein Data Lake ist im Wesentlichen ein Repository für Informationen. Data Lakes werden oft mit Data Warehouses verwechselt, doch beide dienen unterschiedlichen Geschäftsanforderungen und haben unterschiedliche Architekturen. Insbesondere Cloud Data Lakes sind ein wichtiger Bestandteil einer modernen Datenmanagementstrategie, da die Verbreitung von sozialen Daten, Maschinendaten aus dem Internet der Dinge (IoT) und Transaktionsdaten immer schneller voranschreitet. Die Fähigkeit, jede Art von Daten zu speichern, umzuwandeln und zu analysieren, ebnet den Weg für neue Geschäftsmöglichkeiten und die digitale Transformation – und genau hier liegt die Rolle eines Data Lake.

90

%

der Finanzinstitute glauben, dass Big-Data-Initiativen den künftigen Erfolg bestimmen

64,2

Zettabytes an digitalen Daten wurden im Jahr 2020 erzeugt

17,6

Mrd. USD beträgt der geschätzte Wert des Data-Lake-Marktes bis zum Jahr 2026

Definition von Data Lake

Ein Data Lake ist ein zentrales Daten-Repository, mit dem Datensilo-Probleme behoben werden können. Wichtig ist, dass ein Data Lake riesige Mengen an Rohdaten in ihrem nativen – oder ursprünglichen – Format speichert. Das Format kann strukturiert, unstrukturiert oder halbstrukturiert sein. Data Lakes, insbesondere solche in der Cloud, sind kostengünstig, leicht skalierbar und werden häufig mit Analyseanwendungen für maschinelles Lernens verwendet.

Data Lake und Data Warehouse im Vergleich

Im Gegensatz zu einem Data Lake bietet ein Data Warehouse Datenmanagementfunktionen und speichert verarbeitete und gefilterte Daten, die bereits für vordefinierte geschäftliche Fragen oder Anwendungsfälle verarbeitet wurden.

Data Lake und Data Warehouse im Vergleich

Diagramm eines Data Warehouse im Vergleich zu einem Data Lake

Data Warehouses und Data Lakes ergänzen einander oft. Wenn beispielsweise in einem Data Lake gespeicherte Rohdaten zur Beantwortung einer geschäftlichen Frage benötigt werden, können sie extrahiert, bereinigt, umgewandelt und in einem Data Warehouse zur weiteren Analyse verwendet werden.

 

Ein „Data Lakehouse“ ist ein neues und sich entwickelndes Konzept, das einem traditionellen Data Lake zusätzliche Datenmanagementfunktionen beisteuert. Im Prinzip ist es die Kombination aus einem Data Lake und einem Data Warehouse. 

 

Neben der Art der Daten und den oben erwähnten Unterschieden im Prozess gibt es noch einige Details, die einen Data Lake von einer Data-Warehouse-Lösung unterscheiden.

Edit Table Feature Comparison Component

Letztendlich spielen das Datenvolumen, die Datenbankleistung und die Speicherpreise eine wichtige Rolle bei der Auswahl der richtigen Speicherlösung.

Schlüsselelemente einer Data-Lake-Lösung

  • Datenbewegung: Data Lakes ermöglichen den Import beliebiger Datentypen aus verschiedenen Quellen in ihrem nativen Format. Dadurch können Unternehmen die Datengröße je nach Bedarf skalieren, ohne Datenstrukturen, Schemata und Transformationen definieren zu müssen, was zu Kosteneinsparungen führen kann.
  • Sichere Speicherung und Katalogisierung von Daten: Data Lakes speichern strukturierte, halbstrukturierte und unstrukturierte Daten aus verschiedenen Quellen wie Geschäftsdaten aus CRM- oder ERP-Software, Daten von IoT-Geräten und sozialen Medien oder sogar historische Daten aus Altsystemen. Außerdem ermöglichen sie die Erfassung von Batch- und Streaming-Daten bei gleichzeitiger Anwendung von Governance, Sicherheit und Kontrolle. Die Daten können direkt abgefragt oder mit den geeigneten Tools in ein Data Warehouse eingespeist werden.
  • Analysen und maschinelles Lernen: Data Lakes bieten einen rollenbasierten Zugriff auf Informationen, um Analysen und maschinelles Lernen durchzuführen, ohne dass die Daten in eine separate Analysedatenbank verschoben werden müssen. Außerdem können in Data Lakes historische Daten mit Echtzeitdaten kombiniert werden, um Modelle für maschinelles Lernen oder vorausschauende Analysen zu verfeinern und bessere und/oder neue Ergebnisse zu erzielen.

Funktionsweise von Data Lakes

Ein moderner Data Lake hat drei Hauptkomponenten:

  1. Eine Zielzone für die Rohdaten
  2. Eine Bereitstellungszone, in der Daten unter Berücksichtigung des Analysezwecks transformiert werden
  3. Eine Datenexplorationszone, in der die Daten für Analysen, Anwendungen und maschinelle Lernmodelle genutzt werden

Aus dem Data Lake werden die Informationen in eine Vielzahl von Anwendungen eingespeist, wie in Analyse- oder andere Geschäftsanwendungen oder in Tools für maschinelles Lernen zur weiteren Auswertung.

 

Ein Anwendungsfall für einen Data Lake

Im Folgenden finden Sie zwei Beispiele für einen Data-Lake-Anwendungsfall im Einzelhandel.

 

Langfristige Verkaufsdaten werden in einem Data Lake zusammen mit unstrukturierten Daten wie Website-Clickstreams, Wetter, Nachrichten und mikro-/makroökonomischen Daten gespeichert. Sind diese Daten zusammen gespeichert und zugänglich, kann ein Datenwissenschaftler diese verschiedenen Informationsquellen leichter zu einem Modell kombinieren, das die Nachfrage nach einem bestimmten Produkt oder einer bestimmten Produktreihe prognostiziert. Diese Informationen werden dann als Input für das Einzelhandels-ERP-System verwendet, um die Produktionspläne zu erhöhen oder zu verringern. 

 

Parallel dazu kann ein Marketingexperte auf denselben Data Lake zugreifen und eine Stimmungsanalyse der Website und der Social-Media-Aktivitäten zusammen mit Nachrichten, makroökonomischen Daten und Daten aus der Verkaufshistorie analysieren. Damit wird festgestellt, welche Produkte in den Mittelpunkt gerückt werden sollen und wie Umsatz, Gewinn und/oder Akzeptanz am besten maximiert werden können.

Typen von Data Lakes

Data Lakes können on-premise, in der Cloud, in einer Kombination aus beidem und über mehrere Cloud-Hyperscaler wie Amazon Web Services (AWS), Microsoft Azure oder Google Cloud betrieben werden.

 

Der bei Weitem beliebteste Typ von Data Lake ist ein Cloud Data Lake. Ein Cloud Data Lake bietet alle üblichen Data-Lake-Funktionen, aber als vollständig verwalteter Cloud-Service.

  • On-Premise Data Lake: Bei einem On-Premise Data Lake verwalten interne IT-Techniker die Hardware, Software und Prozesse. Dieser Ansatz ist mit höheren Investitionskosten (capital expenditure, CAPEX) verbunden, und die Daten werden tendenziell in Silos gespeichert.
  • Cloud Data Lake: Bei einem Cloud Data Lake wird die On-Premise-Infrastruktur ausgelagert. Die Betriebskosten (operational expenditure, OPEX) sind zwar höher, aber dieser Bereitstellungsansatz bietet den Unternehmen neben einer einfacheren Skalierung auch viele weitere Vorteile (siehe unten).
  • Hybrid Data Lake: In bestimmten Fällen entscheiden sich Unternehmen für den gleichzeitigen Betrieb von On-Premise und Cloud Data Lakes. Diese Situation ist eher selten und tritt meist bei Migrationsszenarios von On-Premise zur Cloud auf.
  • Multi-Cloud Data Lake: Bei einem Multi-Cloud Data Lake werden zwei oder mehr Cloud-Angebote kombiniert. So kann ein Unternehmen beispielsweise sowohl AWS als auch Azure nutzen, um Cloud Data Lakes zu betreiben und zu verwalten. Dies setzt mehr Fachwissen voraus, um sicherzustellen, dass diese unterschiedlichen Plattformen miteinander kommunizieren.

Die sechs wichtigsten Vorteile eines Cloud Data Lake

Warum sollte die Entscheidung für einen Cloud Data Lake fallen? Die Umwandlung von Daten in hochwertiges Unternehmenskapital treibt die digitale Transformation voran. Die Stärken der Cloud in Kombination mit einem Data Lake bilden diese Grundlage. Mit einem Cloud Data Lake können Unternehmen Analysen auf historische Daten sowie auf neue Datenquellen wie Protokolldateien, Clickstreams, soziale Medien, mit dem Internet verbundene Geräte und mehr anwenden, um aussagekräftige Erkenntnisse zu gewinnen.

 

Hier sind einige der wichtigsten Vorteile, die Sie erwarten können:

  1. Kosteneffizienz: Anbieter von Cloud-Speicher bieten viele Speicher- und Preisoptionen.
  2. Automatische Skalierung: Cloud-Dienste bieten Skalierungsfunktionen, die es Unternehmen ermöglichen, Rechen- und Speicherkapazität nach Bedarf zu nutzen.
  3. Zentrales Datenrepository: Ein Cloud Data Lake führt Informationen zusammen und dient als zentrale Datenquelle mit geregeltem Datenzugriff, der die Prozesseffizienz zwischen den Teams erhöht.
  4. Datensicherheit: Die Anbieter von Cloud-Speichern garantieren die Sicherheit der Daten durch ein Modell der gemeinsamen Verantwortung.
  5. Tools: Anbieter von Cloud-Speicher und andere stellen ETL-Tools zur Verfügung, die Daten durchsuchen, einen Datenkatalog erstellen und die Datenaufbereitung, Datenumwandlung und Dateneingabe durchführen, damit die Daten abgefragt werden können.
  6. Verbesserte Analysen für neue Erkenntnisse und bessere Geschäftsergebnisse: Ein Cloud Data Lake kann Daten auf neue Weise kombinieren. So können beispielsweise CRM-Daten und Social-Media-Analysen neue Erkenntnisse über die Ursachen der Kundenabwanderung liefern oder aufzeigen, welche Werbeaktionen die Kundenbindung erhöhen. Auch die operative Effizienz kann durch die Analyse von IoT-Daten verbessert werden.  

Erste Schritte mit Data-Lake-Lösungen

Erkunden Sie die Möglichkeiten von Data Lakes in SAP HANA Cloud.

Mehr aus dieser Reihe

Häufig gestellte Fragen zu Data Lakes

Im Folgenden finden Sie einige der häufig gestellten Fragen zu Data Lakes. Weitere Definitionen finden Sie in unserem Datenmanagement-Glossar.

Der Begriff „Data Lake“ spiegelt das Konzept eines fließenden, größeren Datenspeichers wider – im Vergleich zu einem eher siloartigen, klar definierten und strukturierten Data Mart.

 

Vor mehr als einem Jahrzehnt, als die Datenquellen immer größer wurden, änderten sich die Data Lakes. Damit sollte der Notwendigkeit Rechnung getragen/genüge getan werden, Petabytes an undefinierten Daten für spätere Analysen zu speichern. Frühe Data Lakes basierten auf dem Hadoop-Dateisystem (HDFS) und handelsüblicher Hardware in lokalen Rechenzentren. Die mit einer verteilten Architektur verbundenen Herausforderungen und Anforderungen an die benutzerdefinierte Datenumwandlung und ‑analyse trugen jedoch zur suboptimalen Leistung von Hadoop-basierten Systemen bei.

 

Cloud Computing und Datenspeichertechnologien sind heute die wichtigste Grundlage für den modernen Daten-Stack – und für Cloud Data Lakes.

Ein Data Warehouse (DW) ist ein digitales Speichersystem, das große Mengen von strukturierten und formatierten Daten aus vielen verschiedenen Quellen miteinander verbindet und harmonisiert. Im Gegensatz dazu speichert ein Data Lake die Daten in ihrer ursprünglichen Form – und ist nicht strukturiert oder formatiert.

Datenmanagement ist der Prozess der Erfassung, Organisation und des Zugriffs auf Daten, um Produktivität, Effizienz und Entscheidungsfindung zu fördern.

Ein Data Lakehouse erweitert die Möglichkeiten eines herkömmlichen Data Lakes um Datenmanagement- und Warehouse-Funktionen. Hierbei handelt es sich um einen neuen und sich entwickelnden Bereich, der sich rasant verändert. 

Multi-Cloud bezeichnet die Nutzung mehrerer Cloud-Computing- und ‑Speicherdienste in einer einzigen heterogenen Architektur. Damit ist die Verteilung von Cloud-Assets, Software und Anwendungen auf mehrere Cloud-Hosting-Umgebungen gemeint.

Bei der Dateispeicherung werden Daten als Hierarchie von Dateien in Ordnern organisiert und dargestellt. Bei der Blockspeicherung werden Daten in beliebig organisierte, gleichmäßig große Volumes unterteilt. Bei der Objektspeicherung dagegen werden Daten verwaltet und mit zugehörigen Metadaten verknüpft. Objektspeichersysteme gestatten die Speicherung großer Mengen unstrukturierter Daten.

SAP-Insights-Newsletter

Jetzt abonnieren

Abonnieren Sie unseren Newsletter und erhalten Sie wichtige Informationen und Einblicke.

Weitere Informationen

Zum Seitenanfang