Zum Inhalt

Die Bedeutung von Big-Data-Analysen

Entwicklung von Big Data

So unvorstellbar es heute scheint, hat der Apollo-Leitcomputer das erste Raumschiff mit weniger als 80 Kilobyte Speicherplatz zum Mond gebracht. Seitdem ist die Computertechnologie exponentiell gewachsen – und mit ihr die Menge der anfallenden Daten. Die weltweite technologische Datenspeicherkapazität hat sich seit den 1980er-Jahren etwa alle drei Jahre verdoppelt. Vor etwas mehr als 50 Jahren, als Apollo 11 abhob, hätte die Menge an digitalen Daten, die auf der ganzen Welt erzeugt wurden, auf einem durchschnittlichen Laptop Platz gehabt. Heute schätzt IDC diese Zahl auf 44 Zettabyte (oder 44 Billionen Gigabyte) und prognostiziert, dass sie bis 2025 auf 163 Zettabyte anwachsen wird.  

44

Zettabyte an digitalen Daten heute, IDC

163

Zettabyte an digitalen Daten bis 2025, IDC

Je fortschrittlicher Software und Technologie werden, desto weniger leistungsfähig sind im Vergleich dazu die nicht-digitalen Systeme. Digital erzeugte und erfasste Daten erfordern fortschrittlichere Datenverwaltungssysteme zur Verarbeitung. Das exponentielle Wachstum von Social-Media-Plattformen, Smartphone-Technologien und digital verbundenen IoT-Geräten hat darüber hinaus dazu beigetragen, das aktuelle Big-Data-Zeitalter einzuleiten.

Was sind strukturierte und unstrukturierte Daten?

Datensätze werden in der Regel anhand ihrer Struktur und der einfachen (oder nicht einfachen) Indizierung in drei Typen eingeteilt.

Strukturierte Daten

Diese Art von Daten ist am einfachsten zu organisieren und zu durchsuchen. Dazu gehören beispielsweise Finanzdaten, Maschinenprotokolle und demographische Details. Eine gute Möglichkeit, sich strukturierte Daten vorzustellen, ist eine Excel-Tabelle mit ihrem Layout aus vordefinierten Spalten und Zeilen. Deren Komponenten lassen sich leicht kategorisieren, sodass Datenbankdesigner und ‑administratoren einfache Algorithmen für die Suche und Analyse definieren können. Selbst wenn strukturierte Daten in enormer Menge vorhanden sind, qualifizieren sie sich nicht unbedingt als Big Data. Denn strukturierte Daten für sich genommen sind relativ einfach zu verwalten und erfüllen deshalb nicht die Definitionskriterien von Big Data. Traditionell haben Datenbanken eine Programmiersprache namens Structured Query Language (SQL) für die Verwaltung strukturierter Daten verwendet. SQL wurde in den 1970er-Jahren von IBM entwickelt, um Entwicklern die Erstellung und Verwaltung von relationalen Datenbanken (im Stil einer Tabellenkalkulation) zu erleichtern, die zu dieser Zeit auf dem Vormarsch waren.  

Unstrukturierte Daten

Zu dieser Kategorie von Daten gehören beispielsweise Beiträge in sozialen Medien, Audiodateien, Bilder und offene Kundenkommentare. Eine solche Art von Daten kann nicht ohne weiteres in relationalen Standarddatenbanken mit Zeilen und Spalten erfasst werden. Traditionell mussten Unternehmen, die große Mengen unstrukturierter Daten suchen, verwalten oder analysieren wollten, mühsame manuelle Prozesse anwenden. Der potenzielle Wert der Analyse und des Verständnisses solcher Daten stand nie infrage, aber die Kosten dafür waren oft zu exorbitant, als dass es sich gelohnt hätte. In Anbetracht der Zeit, die es dauerte, waren die Ergebnisse oft veraltet, bevor sie überhaupt geliefert wurden. Anstatt in Tabellenkalkulationen oder relationalen Datenbanken werden unstrukturierte Daten in der Regel in Data Lakes, Data Warehouses und NoSQL-Datenbanken gespeichert.

Halbstrukturierte Daten

Halbstrukturierte Daten sind eine Mischung aus strukturierten und unstrukturierten Daten. E-Mails sind ein gutes Beispiel dafür, da sie neben unstrukturierten Daten im Hauptteil der Nachricht auch eher organisatorische Eigenschaften wie Absender, Empfänger, Betreff und Datum enthalten. Geräte, die Geo-Tagging, Zeitstempel oder semantische Tags verwenden, können neben unstrukturierten Inhalten auch strukturierte Daten liefern. Ein unbekanntes Smartphone-Bild zum Beispiel kann Ihnen immer noch sagen, dass es sich um ein Selfie handelt sowie die Zeit und den Ort der Aufnahme. Eine moderne Datenbank mit KI-Technologie kann nicht nur verschiedene Arten von Daten sofort identifizieren, sondern auch Algorithmen in Echtzeit generieren, um die unterschiedlichen Datensätze effektiv zu verwalten und zu analysieren. 

Das Spektrum datenerzeugender Geräte wächst mit einer phänomenalen Geschwindigkeit – von Satelliten bis hin zu Toastern. Zum Zwecke der Kategorisierung werden die Datenquellen jedoch im Allgemeinen in drei Typen unterteilt:

Soziale Daten

Wie zu vermuten, werden soziale Daten durch Kommentare, Beiträge, Bilder und in zunehmendem Maße auch durch Videos in den sozialen Medien generiert. Angesichts der wachsenden globalen Verbreitung von 4G- und 5G-Mobilfunknetzen wird die Zahl der Menschen auf der Welt, die sich regelmäßig Videoinhalte auf ihren Smartphones ansehen, bis 2023 schätzungsweise auf 2,72 Milliarden ansteigen. Obwohl sich die Trends bei den sozialen Medien und ihrer Nutzung schnell und unvorhersehbar wandeln, ändert sich nichts an ihrem stetigen Wachstum als Quelle digitaler Daten.

Maschinendaten

IoT-Geräte und ‑Maschinen sind mit Sensoren ausgestattet und können digitale Daten senden und empfangen. IoT-Sensoren unterstützen Unternehmen bei der Erfassung und Verarbeitung von Maschinendaten von Geräten, Fahrzeugen und Anlagen im gesamten Unternehmen. Weltweit wächst die Zahl der Objekte, die Daten erzeugen, rasant  – von Wetter- und Verkehrssensoren bis hin zur Sicherheitsüberwachung. Nach Schätzungen von IDC wird es bis 2025 über 40 Milliarden IoT-Geräte auf der Erde geben, die fast die Hälfte der gesamten digitalen Daten weltweit erzeugen.

Transaktionsdaten

Hierbei handelt es sich um einige der weltweit am schnellsten zirkulierenden und am stärksten zunehmenden Daten. So ist beispielsweise bekannt, dass ein großer internationaler Einzelhändler stündlich über eine Million Kundentransaktionen verarbeitet. Und wenn Sie alle Einkaufs- und Banktransaktionen der Welt hinzurechnen, erhalten Sie ein Bild von dem atemberaubenden Datenvolumen, das generiert wird. Darüber hinaus bestehen Transaktionsdaten zunehmend aus halbstrukturierten Daten, darunter auch Bilder und Kommentare, was ihre Verwaltung und Verarbeitung noch komplexer macht.

Nur weil ein Datensatz groß ist, handelt es sich nicht zwangsläufig um Big Data. Um sich als Big Data zu qualifizieren, müssen Daten mindestens die folgenden fünf Merkmale erfüllen:

Volume (Volumen)

Auch wenn das Volumen bei Weitem nicht die einzige Komponente ist, die Big Data als „groß“ definiert, so ist es doch zweifellos ein Hauptmerkmal. Um Big Data vollständig zu verwalten und zu nutzen, sind fortschrittliche Algorithmen und KI-gesteuerte Analysen erforderlich. Bevor dies jedoch geschehen kann, muss es ein sicheres und zuverlässiges Mittel zum Speichern, Organisieren und Abrufen der vielen Terabyte an Daten geben, die in großen Unternehmen anfallen.

Velocity (Geschwindigkeit)

In der Vergangenheit mussten alle erzeugten Daten später in ein traditionelles Datenbanksystem – oft manuell – eingespeist werden, bevor sie analysiert oder abgerufen werden konnten. Heute ermöglicht es die Big-Data-Technologie den Datenbanken, Daten zu verarbeiten, zu analysieren und zu konfigurieren, während sie generiert werden – manchmal innerhalb von Millisekunden. Für Unternehmen bedeutet dies, dass Echtzeitdaten genutzt werden können, um finanzielle Chancen zu ergreifen, auf Kundenbedürfnisse zu reagieren, Betrug zu verhindern und alle anderen Aktivitäten anzugehen, bei denen es auf Geschwindigkeit ankommt.

Variety (Vielfalt)

Datensätze, die ausschließlich aus strukturierten Daten bestehen, sind nicht unbedingt Big Data, unabhängig davon, wie umfangreich sie sind. Big Data besteht in der Regel aus Kombinationen von strukturierten, unstrukturierten und halbstrukturierten Daten. Herkömmlichen Datenbanken und Datenmanagementlösungen mangelt es an der Flexibilität und dem Funktionsumfang, um die komplexen, disparaten Datensätze zu verwalten, aus denen Big Data besteht.

Veracity (Wahrhaftigkeit)

Zwar ermöglicht es die moderne Datenbanktechnologie den Unternehmen, große Datenmengen und verschiedene Datentypen zu erfassen und sinnvoll zu nutzen, aber sie sind nur dann wertvoll, wenn sie präzise, relevant und aktuell sind. Bei herkömmlichen Datenbanken, die nur strukturierte Daten enthielten, waren syntaktische Fehler und Tippfehler die üblichen Übeltäter, wenn es um die Datengenauigkeit ging. Bei unstrukturierten Daten gibt es eine ganze Reihe neuer Herausforderungen in Bezug auf die Genauigkeit. Menschliche Voreingenommenheit, Social Noise und Fragen nach der Datenherkunft können sich auf die Qualität der Daten auswirken.

Value (Wert)

Ohne Frage sind die Ergebnisse, die sich aus der Analyse von Big Data ergeben, oft faszinierend und unerwartet. Aber für Unternehmen müssen diese Analysen Erkenntnisse liefern, die ihnen helfen, wettbewerbsfähiger und widerstandsfähiger zu werden – und ihren Kunden einen besseren Service zu bieten. Moderne Big-Data-Technologien ermöglichen das Sammeln und Abrufen von Daten, die einen messbaren Nutzen sowohl für das Geschäftsergebnis als auch für die operative Resilienz bringen.

Mit modernen Big-Data-Managementlösungen können Unternehmen Rohdaten in relevante Einblicke verwandeln – mit beispielloser Geschwindigkeit und Genauigkeit.

  • Produkt- und Serviceentwicklung: Mit Big-Data-Analysen können Produktentwickler unstrukturierte Daten wie Kundenbewertungen und kulturelle Trends analysieren und schnell reagieren.
  • Vorausschauende Wartung: Im Rahmen einer internationalen Umfrage kam McKinsey zu dem Ergebnis, dass die Big-Data-Analyse von IoT-fähigen Maschinen die Kosten für die Wartung der Geräte um bis zu 40 % senkte.
  • Customer Experience: In einer Umfrage unter globalen Wirtschaftsführern im Jahr 2020 stellte Gartner fest, dass „wachsende Unternehmen Daten zur Kundenerfahrung aktiver sammeln als nicht wachsende Unternehmen“. Big-Data-Analysen ermöglichen es Unternehmen, die Erfahrung ihrer Kunden mit ihrer Marke zu verbessern und zu personalisieren.  
  • Resilienz und Risikomanagement: Die COVID-19-Pandemie war für viele Führungskräfte der Wirtschaft ein böses Erwachen, da sie erkennen mussten, wie anfällig ihre Unternehmen für Störungen der Geschäftsabläufe sind. Die Erkenntnisse von Big Data können Unternehmen dabei helfen, Risiken vorherzusehen und sich auf das Unerwartete vorzubereiten.
  • Kosteneinsparungen und größere Effizienz: Wenn Unternehmen fortschrittliche Big-Data-Analysen auf alle Prozesse innerhalb ihres Unternehmens anwenden, können sie nicht nur Ineffizienzen erkennen, sondern auch schnelle und effektive Lösungen implementieren.
  • Verbesserte Wettbewerbsfähigkeit: Die aus Big Data gewonnenen Erkenntnisse können Unternehmen dabei helfen, Geld zu sparen, Kunden zufriedenzustellen, bessere Produkte herzustellen und Geschäftsabläufe innovativ zu gestalten.

KI und Big Data

Das Big-Data-Management erfordert Systeme, die große Mengen disparater und komplexer Informationen verarbeiten und sinnvoll analysieren können. Hierbei stehen Big Data und künstliche Intelligenz in einer wechselseitigen Beziehung. Big Data hätten ohne die KI, mit deren Hilfe sie strukturiert und analysiert werden können, keinen großen praktischen Nutzen. Und die KI hängt von der Fülle der in Big Data enthaltenen Datensätze ab, um Analysen zu liefern, die robust genug sind, um verwertbar zu sein. Analyst Brandon Purcell von Forrester Research sagt dazu: „Daten sind das Lebenselixier der KI. Ein KI-System muss aus Daten lernen, um seine Funktion erfüllen zu können.“

Daten sind das Lebenselixier der KI. Ein KI-System muss aus Daten lernen, um seine Funktion erfüllen zu können.

Brandon Purcell, Analyst, Forrester Research

Maschinelles Lernen und Big Data

Algorithmen für maschinelles Lernen bestimmen die eingehenden Daten und identifizieren darin enthaltene Muster. Anhand dieser Erkenntnisse können Geschäftsentscheidungen getroffen und Prozesse automatisiert werden. Das maschinelle Lernen braucht Big Data. Denn je robuster die analysierten Datensätze sind, desto größer ist die Chance für das System, zu lernen und seine Prozesse kontinuierlich weiterzuentwickeln und anzupassen.

Datenmanagementlösungen von SAP

Verwalten Sie Ihre vielfältige Datenlandschaft – über Data Warehouses, Data Lakes und Datenbanken hinweg – mit einer Auswahl an On-Premise- und Cloud-Lösungen, die Ihren speziellen Anforderungen gerecht werden.

Häufig gestellte Fragen zu Big Data

Wofür wird Big Data verwendet?

Big Data umfasst alle potenziell geschäftsrelevanten Daten – sowohl strukturierte als auch unstrukturierte – aus einer Vielzahl unterschiedlicher Quellen. Durch die Analyse werden tiefere Einblicke und genauere Informationen über alle operativen Bereiche eines Unternehmens und des Marktes gewonnen.

Was ist Big-Data-Technologie?

Big-Data-Technologie bezieht sich auf alle Werkzeuge, Software und Techniken, die zur Verarbeitung und Analyse großer Datenmengen verwendet werden – einschließlich (aber nicht beschränkt auf) Data Mining, Datenspeicherung, Datenaustausch und Datenvisualisierung.

Wofür wird Hadoop angewendet?

Apache Hadoop ist eine Open-Source-Softwarelösung zur verteilten Verarbeitung. Mit ihr wird die Verwaltung großer Datenmengen beschleunigt und erleichtert, indem mehrere Computer miteinander verbunden werden. So können große Datenmengen parallel verarbeitet werden.

Wofür wird Spark verwendet?

Apache Spark ist eine Open-Source-Softwarelösung zur verteilten Verarbeitung. Mit ihr wird die Verwaltung großer Datenmengen beschleunigt und erleichtert, indem mehrere Computer miteinander verbunden werden. So können große Datenmengen parallel verarbeitet werden. Der Vorgänger Hadoop wird wesentlich häufiger eingesetzt. Aber Spark gewinnt an Popularität durch den Einsatz von maschinellem Lernen und anderen Technologien, die die Geschwindigkeit und Effizienz erhöhen.

Was ist ein Data Lake?

Ein Data Lake ist ein Repository, in dem große Mengen roher, unstrukturierter Daten gespeichert und für den Abruf bereitgehalten werden können. Data Lakes sind notwendig, weil ein Großteil der Big Data unstrukturiert ist und nicht in einer herkömmlichen relationalen Datenbank mit Zeilen und Spalten gespeichert werden kann. 

Was ist Dark Data?

Als Dark Data werden alle Daten bezeichnet, die Unternehmen im Rahmen ihrer normalen Geschäftstätigkeit sammeln (z. B. Aufnahmen von Überwachungskameras und Protokolldateien von Websites). Sie werden zu Compliance-Zwecken gespeichert, aber in der Regel nie verwendet. Die Speicherung dieser großen Datenmengen kostet mehr als sie an Wert bringen. 

Was ist Data Fabric?

Data Fabric ist die Integration von Big-Data-Architekturen und ‑Technologien über ein gesamtes Unternehmensumfeld hinweg. Der Zweck besteht darin, Big Data aus allen Quellen und beliebigen Typs mit sämtlichen Datenmanagementdiensten im gesamten Unternehmen zu verbinden.  

Zum Seitenanfang