Zum Inhalt
Was ist Big Data?

Was ist Big Data?

Big Data steht für die riesigen Mengen an Daten, die uns täglich zur Verfügung stehen – Daten in der Größenordnung von Zettabytes, die von Computern, Mobilgeräten und elektronischen Sensoren produziert werden. Unternehmen nutzen diese Daten, um Entscheidungen zu treffen, Prozesse und Richtlinien zu verbessern und kundenorientierte Produkte, Services und Erfahrungen zu entwickeln. Big Data werden aber nicht nur wegen ihres Umfangs als „groß“ bezeichnet, sondern auch wegen der Vielfalt und Komplexität ihrer Beschaffenheit. In der Regel überschreitet ihre Erfassung, Verwaltung und Verarbeitung die Kapazität herkömmlicher Datenbanken. Big Data können von überall und von allem auf der Welt kommen, was wir digital überwachen können. Wettersatelliten, IoT-Geräte, Verkehrskameras, Trends in sozialen Medien: Dies sind nur einige der Datenquellen, die erschlossen und analysiert werden, um Unternehmen resilienter und wettbewerbsfähiger zu machen.

Der wahre Wert von Big Data wird daran gemessen, inwieweit Sie die Daten analysieren und verstehen können. Künstliche Intelligenz (KI), maschinelles Lernen und moderne Datenbanktechnologien unterstützen die Visualisierung und Analyse großer Datenmengen und liefern handlungsrelevante Erkenntnisse – in Echtzeit. Big-Data-Analysen helfen Unternehmen bei der Nutzung ihrer Daten, um neue Chancen zu erkennen und Geschäftsmodelle zu entwickeln. Wie Geoffrey Moore, Autor und Management-Analyst, treffend feststellte: „Ohne die Analyse von Big Data sind Unternehmen blind und taub und irren im Internet umher wie Rehe auf einer Autobahn.“

So unvorstellbar es heute scheint, der Apollo-Leitcomputer hat das erste Raumschiff mit weniger als 80 Kilobyte Speicherplatz zum Mond gebracht. Seitdem ist die Computertechnologie exponentiell gewachsen – und mit ihr die Menge der anfallenden Daten. Die weltweite technologische Datenspeicherkapazität hat sich seit den 1980er-Jahren etwa alle drei Jahre verdoppelt. Vor etwas mehr als 50 Jahren, als Apollo 11 abhob, hätte die Menge an digitalen Daten, die auf der ganzen Welt erzeugt wurden, auf einem durchschnittlichen Laptop Platz gehabt. Heute schätzt IDC diese Zahl auf 44 Zettabyte (oder 44 Billionen Gigabyte) und prognostiziert, dass sie bis zum Jahr 2025 auf 163 Zettabyte anwachsen wird. 

Je fortschrittlicher Software und Technologie werden, desto weniger leistungsfähig sind im Vergleich dazu die nicht-digitalen Systeme. Digital erzeugte und erfasste Daten erfordern für ihre Verarbeitung fortschrittlichere Datenverwaltungssysteme. Darüber hinaus hat das exponentielle Wachstum von sozialen Medien, Smartphone-Technologien und digital verbundenen IoT-Geräten dazu beigetragen, das aktuelle Big-Data-Zeitalter einzuleiten.

Datensätze werden in der Regel anhand ihrer Struktur und der einfachen (oder nicht einfachen) Indizierung in drei Typen eingeteilt.

  1. Strukturierte Daten: Diese Art von Daten ist am einfachsten zu organisieren und zu durchsuchen. Dazu gehören beispielsweise Finanzdaten, Maschinenprotokolle und demographische Details. Eine gute Möglichkeit, sich strukturierte Daten vorzustellen, ist eine Excel-Tabelle mit ihrem Layout aus vordefinierten Spalten und Zeilen. Deren Komponenten lassen sich leicht kategorisieren, sodass Datenbankdesigner und ‑administratoren einfache Algorithmen für die Suche und Analyse definieren können. Selbst wenn strukturierte Daten in enormer Menge vorhanden sind, qualifizieren sie sich nicht unbedingt als Big Data. Denn strukturierte Daten für sich genommen sind relativ einfach zu verwalten und erfüllen deshalb nicht die Definitionskriterien von Big Data. Traditionell haben Datenbanken für die Verwaltung strukturierter Daten eine Programmiersprache namens Structured Query Language (SQL) verwendet. SQL wurde in den 1970er-Jahren von IBM entwickelt, um Entwicklern die Erstellung und Verwaltung von relationalen Datenbanken (im Stil einer Tabellenkalkulation) zu erleichtern, die zu dieser Zeit auf dem Vormarsch waren. 
  2. Unstrukturierte Daten: Zu dieser Kategorie von Daten gehören beispielsweise Beiträge in sozialen Medien, Audiodateien, Bilder und offene Kundenkommentare. Diese Art von Daten kann nicht ohne Weiteres in relationalen Standarddatenbanken mit Zeilen und Spalten erfasst werden. Traditionell mussten Unternehmen, die große Mengen unstrukturierter Daten durchsuchen, verwalten oder analysieren wollten, mühsame manuelle Prozesse durchführen. Der potenzielle Wert der Analyse und der Auswertung solcher Daten stand nie infrage, aber die Kosten dafür waren oft so exorbitant, dass sie sich einfach nicht lohnten. Aufgrund des Zeitaufwands, den die Analyse und Auswertung in Anspruch nahmen, waren die Ergebnisse oft veraltet, bevor sie überhaupt geliefert wurden. Anstatt in Tabellenkalkulationen oder relationalen Datenbanken werden unstrukturierte Daten in der Regel in Data Lakes, Data Warehouses und NoSQL-Datenbanken gespeichert.
  3. Halbstrukturierte Daten: Hierbei handelt es sich um eine Mischung aus strukturierten und unstrukturierten Daten. E-Mails sind ein gutes Beispiel dafür, da sie neben unstrukturierten Daten im Hauptteil der Nachricht auch eher organisatorische Eigenschaften wie Absender, Empfänger, Betreff und Datum enthalten. Geräte, die Geo-Tagging, Zeitstempel oder semantische Tags verwenden, können neben unstrukturierten Inhalten auch strukturierte Daten liefern. Aus einem unbekannten Smartphone-Bild zum Beispiel geht immer noch hervor, dass es sich um ein Selfie handelt und wo und wann es aufgenommen wurde. Eine moderne Datenbank mit KI-Technologie kann nicht nur verschiedene Arten von Daten sofort identifizieren, sondern auch Algorithmen in Echtzeit generieren, um die unterschiedlichen Datensätze effektiv zu verwalten und zu analysieren. 

Das Spektrum der datenerzeugenden Geräte wächst mit einer phänomenalen Geschwindigkeit – von Satelliten bis hin zu Toastern. Zur Kategorisierung werden die Datenquellen jedoch im Allgemeinen in drei Typen unterteilt:

 

Soziale Daten

Wie zu vermuten, werden soziale Daten durch Kommentare, Beiträge, Bilder und in zunehmendem Maße auch durch Videos in den sozialen Medien generiert. Angesichts der wachsenden globalen Verbreitung von 4G- und 5G-Mobilfunknetzen wird die Zahl der Menschen auf der Welt, die sich regelmäßig Videoinhalte auf ihren Smartphones ansehen, bis zum Jahr 2023 schätzungsweise auf 2,72 Milliarden ansteigen. Obwohl sich die Trends bei den sozialen Medien und ihrer Nutzung schnell und unvorhersehbar wandeln, ändert sich nichts an ihrem stetigen Wachstum als Quelle digitaler Daten.

 

Maschinendaten

IoT-Geräte und ‑Maschinen sind mit Sensoren ausgestattet und können digitale Daten senden und empfangen. IoT-Sensoren unterstützen Unternehmen bei der Erfassung und Verarbeitung von Maschinendaten von Geräten, Fahrzeugen und Anlagen im gesamten Unternehmen. Weltweit wächst die Zahl der Objekte, die Daten erzeugen, rasant – von Wetter- und Verkehrssensoren bis hin zur Sicherheitsüberwachung. Nach Schätzungen von IDC wird es bis zum Jahr 2025 über 40 Milliarden IoT-Geräte auf der Erde geben, die fast die Hälfte der gesamten digitalen Daten weltweit erzeugen werden.

 

Transaktionsdaten

Hierbei handelt es sich um einige der weltweit am schnellsten zirkulierenden und am stärksten zunehmenden Daten. So ist beispielsweise bekannt, dass ein großer internationaler Einzelhändler stündlich über eine Million Kundentransaktionen verarbeitet. Wenn Sie dann noch alle Einkaufs- und Banktransaktionen der Welt hinzurechnen, erhalten Sie ein Bild von dem atemberaubenden Datenvolumen, das generiert wird. Darüber hinaus bestehen Transaktionsdaten zunehmend aus halbstrukturierten Daten, darunter auch Bilder und Kommentare. Dadurch wird ihre Verwaltung und Verarbeitung noch komplexer.  

Nur weil ein Datensatz groß ist, handelt es sich nicht zwangsläufig um Big Data. Um sich als Big Data zu qualifizieren, müssen Daten mindestens die folgenden fünf Merkmale erfüllen:

  1. Volume (Volumen): Auch wenn das Volumen bei Weitem nicht der einzige Grund ist, warum Big Data als „groß“ bezeichnet werden, so ist es doch zweifellos ein Hauptmerkmal. Um Big Data vollständig zu verwalten und zu nutzen, sind fortschrittliche Algorithmen und KI-gesteuerte Analysen erforderlich. Bevor dies jedoch geschehen kann, muss es ein sicheres und zuverlässiges Mittel zum Speichern, Organisieren und Abrufen der vielen Terabyte an Daten geben, die in großen Unternehmen anfallen.
  2. Velocity (Geschwindigkeit): In der Vergangenheit mussten alle erzeugten Daten erst in ein traditionelles Datenbanksystem – oft manuell – eingespeist werden, bevor sie analysiert oder abgerufen werden konnten. Die Big-Data-Technologie ermöglicht den Datenbanken heute, Daten zu verarbeiten, zu analysieren und zu konfigurieren, während sie generiert werden – manchmal innerhalb von Millisekunden. Dadurch können die Unternehmen Echtzeitdaten nutzen, um finanzielle Chancen zu ergreifen, auf Kundenbedürfnisse zu reagieren, Betrug zu verhindern und alle anderen Aktivitäten anzugehen, bei denen es auf Geschwindigkeit ankommt.
  3. Variety (Vielfalt): Bei Datensätzen, die ausschließlich aus strukturierten Daten bestehen, handelt es sich nicht unbedingt um Big Data – unabhängig davon, wie umfangreich sie sind. Big Data besteht in der Regel aus Kombinationen von strukturierten, unstrukturierten und halbstrukturierten Daten. Herkömmlichen Datenbanken und Datenmanagementlösungen mangelt es an der Flexibilität und dem Funktionsumfang, um die komplexen, disparaten Datensätze zu verwalten, aus denen Big Data besteht.
  4. Veracity (Wahrhaftigkeit): Zwar können Unternehmen durch die moderne Datenbanktechnologie große Datenmengen und verschiedene Datentypen erfassen und sinnvoll nutzen, aber sie sind nur dann wertvoll, wenn sie präzise, relevant und aktuell sind. Bei herkömmlichen Datenbanken, die nur strukturierte Daten enthielten, waren syntaktische Fehler und Tippfehler die normalen Übeltäter, wenn es um die Datengenauigkeit ging. Bei unstrukturierten Daten gibt es eine ganze Reihe neuer Herausforderungen in Bezug auf die Verlässlichkeit. Menschliche Voreingenommenheit, Social Noise und Fragen nach der Datenherkunft können sich auf die Qualität der Daten auswirken.
  5. Value (Wert): Ohne Frage sind die Ergebnisse, die sich aus der Analyse von Big Data ergeben, oft faszinierend und unerwartet. Aber für Unternehmen müssen diese Analysen Erkenntnisse liefern, die ihnen helfen, wettbewerbsfähiger und widerstandsfähiger zu werden – und ihren Kunden einen besseren Service zu bieten. Moderne Big-Data-Technologien ermöglichen das Sammeln und Abrufen von Daten, die einen messbaren Nutzen sowohl für das Geschäftsergebnis als auch für die operative Resilienz bringen.

Mit modernen Big-Data-Managementlösungen können Unternehmen Rohdaten in relevante Einblicke verwandeln – mit beispielloser Geschwindigkeit und Genauigkeit.

  • Produkt- und Serviceentwicklung: Mit Big-Data-Analysen können Produktentwickler unstrukturierte Daten wie Kundenbewertungen und kulturelle Trends analysieren und schnell reagieren.
  • Vorausschauende Wartung: Im Rahmen einer internationalen Umfrage kam McKinsey zu dem Ergebnis, dass die Big-Data-Analyse von IoT-fähigen Maschinen die Kosten für die Wartung der Geräte um bis zu 40 % senkte.
  • Customer Experience: In einer Umfrage unter globalen Wirtschaftsführern im Jahr 2020 stellte Gartner fest, dass „wachsende Unternehmen Daten zur Kundenerfahrung aktiver sammeln als nicht wachsende Unternehmen“. Mit Big-Data-Analysen können Unternehmen die Erfahrungen ihrer Kunden mit ihrer Marke verbessern und personalisieren.
  • Resilienz und Risikomanagement: Die COVID-19-Pandemie war für viele Führungskräfte der Wirtschaft ein böses Erwachen. Sie mussten erkennen, wie anfällig ihre Unternehmen für Störungen der Geschäftsabläufe sind. Die Erkenntnisse aus Big Data können Unternehmen dabei helfen, Risiken vorherzusehen und sich auf das Unerwartete vorzubereiten.
  • Kosteneinsparungen und größere Effizienz: Wenn Unternehmen fortschrittliche Big-Data-Analysen auf alle Prozesse innerhalb ihres Unternehmens anwenden, können sie nicht nur Ineffizienzen erkennen, sondern auch schnelle und effektive Lösungen implementieren.
  • Verbesserte Wettbewerbsfähigkeit: Die aus Big Data gewonnenen Erkenntnisse können Unternehmen dabei helfen, Geld zu sparen, Kunden zufriedenzustellen, bessere Produkte herzustellen und Geschäftsabläufe innovativ zu gestalten.

Das Big-Data-Management erfordert Systeme, die große Mengen heterogener und komplexer Informationen verarbeiten und sinnvoll analysieren können. Hierbei stehen Big Data und künstliche Intelligenz in einer wechselseitigen Beziehung. Big Data hätten ohne die KI, mit deren Hilfe sie strukturiert und analysiert werden können, keinen großen praktischen Nutzen. Und die KI kann nur aufgrund der Fülle der in Big Data enthaltenen Datensätze robuste und damit verwertbare Analysen liefern. Analyst Brandon Purcell von Forrester Research formuliert es so: „Daten sind das Lebenselixier der KI. Ein KI-System muss aus Daten lernen, um seine Funktion erfüllen zu können.“

Algorithmen für maschinelles Lernen bestimmen die eingehenden Daten und identifizieren darin enthaltene Muster. Anhand dieser Erkenntnisse können Geschäftsentscheidungen getroffen und Prozesse automatisiert werden. Das maschinelle Lernen braucht Big Data. Denn je robuster die analysierten Datensätze sind, desto größer ist die Chance für das System, zu lernen und seine Prozesse kontinuierlich weiterzuentwickeln und anzupassen.

Big-Data-Architektur

 

Wie bei der Architektur im Bauwesen bietet die Big-Data-Architektur einen Entwurf der grundlegenden Struktur, wie Unternehmen ihre Daten verwalten und analysieren. Die Big-Data-Architektur bildet die Prozesse ab, die für die Verwaltung der großen Datenmengen auf ihrem Weg durch die vier grundlegenden „Schichten“ erforderlich sind: von den Datenquellen über die Datenspeicherung und die Big-Data-Analyse bis zur Verbrauchsschicht, in der die analysierten Ergebnisse als Business Intelligence dargestellt werden.

 

Big-Data-Analysen

 

Dieser Prozess ermöglicht eine aussagekräftige Datenvisualisierung mithilfe von Datenmodellierung und Algorithmen, die speziell auf die Merkmale von Big Data zugeschnitten sind. In einer detaillierten Studie und Umfrage der MIT Sloan School of Management wurden über 2.000 Führungskräfte zu den Erfahrungen ihres Unternehmens mit der Analyse von Big Data befragt. Es überrascht nicht, dass diejenigen, die sich für die Entwicklung von Big-Data-Managementstrategien einsetzten und diesen Prozess vorantrieben, die messbar besten Geschäftsergebnisse erzielten.

 

Big Data und Apache Hadoop

 

Stellen Sie sich zehn Zehn-Centmünzen in einer einzigen großen Schachtel vor, die mit 100 Fünf-Centmünzen vermischt sind. Stellen Sie sich dann zehn kleinere Schachteln nebeneinander vor, jede mit zehn Fünf-Centmünzen und nur einer Zehn-Centmünze gefüllt. In welchem Szenario wird es einfacher sein, die Zehn-Centmünzen zu finden? Hadoop funktioniert im Wesentlichen nach diesem Prinzip. Es handelt sich um ein Open-Source-Framework, mit dem sich eine verteilte Verarbeitung großer Datenmengen über ein Netzwerk mit vielen verbundenen Computern verwalten lässt. Anstatt also einen großen Computer für die Speicherung und Verarbeitung aller Daten zu verwenden, bündelt Hadoop mehrere Computer zu einem fast unendlich skalierbaren Netzwerk und analysiert die Daten parallel. Dieser Prozess verwendet typischerweise ein Programmiermodell namens MapReduce, das die Verarbeitung großer Datenmengen koordiniert, indem es die verteilten Computer aufeinander abstimmt (Marshalling).

 

Data Lakes, Data Warehouses und NoSQL

 

Für die Speicherung strukturierter Daten werden herkömmliche SQL-Datenbanken im Stil von Tabellenkalkulationen verwendet. Unstrukturierte und halbstrukturierte Big Data erfordern jedoch besondere Speicher- und Verarbeitungsparadigmen, da sie sich nicht für eine Indizierung und Kategorisierung eignen. Data Lakes, Data Warehouses und NoSQL-Datenbanken sind allesamt Daten-Repositorys, mit denen nicht herkömmliche Datensätze verwaltet werden. Ein Data Lake ist ein riesiger Pool von Rohdaten, die noch verarbeitet werden müssen. Ein Data Warehouse ist ein Repository für Daten, die bereits für einen bestimmten Zweck verarbeitet wurden. NoSQL-Datenbanken bieten ein flexibles Schema, das an die Art der zu verarbeitenden Daten angepasst werden kann. Jedes dieser Systeme hat seine Stärken und Schwächen. Viele Unternehmen verwenden eine Kombination dieser verschiedenen Daten-Repositorys, um ihre Anforderungen zu erfüllen.

 

In-Memory-Datenbanken

 

Herkömmliche festplattenbasierte Datenbanken wurden mit Blick auf SQL und relationale Datenbanktechnologien entwickelt. Sie können zwar große Mengen strukturierter Daten handhaben, sind jedoch nicht dafür ausgelegt, unstrukturierte Daten optimal zu speichern und zu verarbeiten. Bei In-Memory-Datenbanken erfolgt die Verarbeitung und Analyse vollständig im Arbeitsspeicher (RAM), anstatt die Daten von einem festplattenbasierten System abrufen zu müssen. Auch In-Memory-Datenbanken basieren auf verteilten Architekturen. Das bedeutet, dass sie – im Vergleich zu festplattenbasierten Datenbankmodellen mit einem Knoten – durch eine Parallelverarbeitung weitaus höhere Geschwindigkeiten erreichen können.

Big Data ist dann von Nutzen, wenn die Analyse relevante und umsetzbare Erkenntnisse liefert, die das Unternehmen messbar voranbringen. In Hinblick auf die Transformation von Big Data sollten Unternehmen sicherstellen, dass ihre Systeme und Prozesse ausreichend auf die Erfassung, Speicherung und Analyse dieser großen Datenmengen vorbereitet sind.

  1. Big Data erfassen. Ein Großteil der Big Data besteht aus enormen Mengen unstrukturierter Daten, die aus unterschiedlichen und inkonsistenten Quellen stammen. Herkömmliche festplattenbasierte Datenbanken und Datenintegrationsmechanismen sind dieser Aufgabe einfach nicht gewachsen. Die Verwaltung dieser großen Datenmengen erfordert den Einsatz von In-Memory-Datenbanken und Softwarelösungen, die speziell auf die Erfassung von Big Data zugeschnitten sind.
  2. Big Data speichern. Schon der Name verrät es: Big Data sind sehr umfangreich. Viele Unternehmen verfügen über On-Premise-Lösungen für die Speicherung ihrer vorhandenen Daten. Sie möchten Einsparungen erzielen und diese Repositorys neu nutzen, um ihre Anforderungen an die Verarbeitung von Big Data zu erfüllen. Jedoch können Big Data nur dann optimal genutzt werden, wenn es keine Beschränkungen hinsichtlich Größe und Speicherplatz gibt. Unternehmen, die nicht von Anfang an Cloud-Speicherlösungen in ihre Big-Data-Modelle integrieren, bedauern dies häufig einige Monate später.
  3. Big Data analysieren. Ohne die Nutzung von KI und maschinellem Lernen bei der Big-Data-Analyse ist es einfach nicht möglich, ihr volles Potenzial auszuschöpfen. Eines der fünf Vs von Big Data steht für „Velocity“ – Geschwindigkeit. Damit die Erkenntnisse von Big Data umsetzbar und wertvoll sind, müssen sie schnell gewonnen werden. Analyseprozesse müssen sich selbst optimieren und regelmäßig aus Erfahrungen lernen können – ein Ergebnis, das nur mit KI-Funktionen und modernen Datenbanktechnologien erzielt werden kann.


Jedes Unternehmen und jede Branche kann von den vermittelten Einblicken und tiefgehenden Lernprozessen profitieren, die Big Data bietet. Große Unternehmen mit komplexen operativen Aufgaben können Big Data jedoch häufig am sinnvollsten nutzen.

  • Finanzwesen
    Das Journal of Big Data berichtete in einer Studie aus dem Jahr 2020, dass Big Data „eine wichtige Rolle bei der Veränderung des Finanzdienstleistungssektors spielt, insbesondere in den Bereichen Handel und Investitionen, Steuerreform, Betrugserkennung und ‑ermittlung, Risikoanalyse und Automatisierung“. Big Data hat auch zur Transformation der Finanzbranche beigetragen: Durch die Analyse von Kundendaten und Feedback lassen sich wertvolle Erkenntnisse gewinnen, mit denen die Kundenzufriedenheit und ‑erfahrung verbessert werden können. Transaktionale Datensätze gehören zu den am schnellsten zirkulierenden und größten Datenbeständen der Welt. Der zunehmende Einsatz fortschrittlicher Big-Data-Managementlösungen wird Banken und Finanzinstituten helfen, diese Daten zu schützen und sie auf eine Weise zu nutzen, die sowohl dem Kunden als auch dem Unternehmen zugutekommt und sie schützt.
  • Gesundheitswesen
    Mithilfe von Big-Data-Analysen können Mediziner genauere und evidenzbasierte Diagnosen stellen. Darüber hinaus hilft Big Data den Krankenhausverwaltungen, Trends zu erkennen, Risiken zu steuern und unnötige Ausgaben zu minimieren. So werden die höchstmöglichen Budgets in die Bereiche Patientenversorgung und Forschung gelenkt. Inmitten der Pandemie suchen Forscher auf der ganzen Welt nach besseren Möglichkeiten zur Behandlung und Bewältigung von COVID-19 – und Big Data spielen in diesem Prozess eine enorme Rolle. Ein Artikel vom Juli 2020 in The Scientist beschreibt, wie medizinische Teams zusammenarbeiten und Big Data analysieren, um das Coronavirus zu bekämpfen: „Wir können die Art und Weise, wie klinische Forschung betrieben wird, verändern, indem wir die Werkzeuge und Ressourcen von Big Data und Data Science auf eine Weise nutzen, die bisher nicht möglich war.“
  • Transport und Logistik
    Der Begriff „Amazon-Effekt“ beschreibt, wie Amazon durch die Lieferung am nächsten Tag die Erwartungen so hochgesteckt hat, dass die Kunden jetzt diese Versandgeschwindigkeit bei allen Online-Bestellungen erwarten. Das Magazin Entrepreneur weist darauf hin, dass als direkte Folge des Amazon-Effekts „das Logistikrennen auf der sogenannten letzten Meile härter wird“. Logistikunternehmen verlassen sich zunehmend auf die Analyse von Big Data, um die Routenplanung, Ladungskonsolidierung und ihre Maßnahmen zur Treibstoffeffizienz zu optimieren.
  • Bildungswesen
    Während der Pandemie mussten Bildungseinrichtungen auf der ganzen Welt ihre Lehrpläne und Lehrmethoden überarbeiten, um Fernunterricht anbieten zu können. Eine große Herausforderung dabei war die Suche nach zuverlässigen Wegen, um die Leistung der Schülerinnen und Schüler und die Gesamteffektivität der Online-Lehrmethoden zu analysieren und zu bewerten. Ein Artikel aus dem Jahr 2020 über die Auswirkungen von Big Data auf Bildung und Online-Lernen macht folgende Beobachtung über die Rolle von Lehrkräften: „Big Data gibt ihnen viel mehr Möglichkeiten bei der Personalisierung der Bildung, der Entwicklung von Blended Learning, der Umgestaltung von Bewertungssystemen und der Förderung des lebenslangen Lernens.“
  • Energie- und Versorgungsbetriebe
    Nach Angaben des U.S. Bureau of Labor Statistics geben Versorgungsunternehmen über 1,4 Milliarden US-Dollar für Zählerablesungen aus und verlassen sich dabei in der Regel auf analoge Zähler und seltene manuelle Ablesungen. Intelligente Messgeräte liefern mehrmals am Tag digitale Daten. Mit der Analyse von Big Data tragen diese Informationen zu einer effizienteren Energienutzung und einer genaueren Preisgestaltung und Prognose bei. Darüber hinaus können Datenerfassung und ‑analyse dazu führen, dass die von der Zählerablesung entlasteten Außendienstmitarbeiter schneller dorthin versetzt werden können, wo dringend Reparaturen und Umrüstungen erforderlich sind.

Mehr aus dieser Reihe

Häufig gestellte Fragen zu Big Data

Big Data umfasst alle potenziell geschäftsrelevanten Daten – sowohl strukturierte als auch unstrukturierte – aus einer Vielzahl unterschiedlicher Quellen. Durch die Analyse werden tiefere Einblicke und detailliertere Informationen über alle operativen Bereiche eines Unternehmens und des Marktes gewonnen.  

Big-Data-Technologie umfasst alle Werkzeuge, Software und Techniken, die zur Verarbeitung und Analyse großer Datenmengen verwendet werden – einschließlich (aber nicht beschränkt auf) Data Mining, Datenspeicherung, Datenaustausch und Datenvisualisierung.

Apache Hadoop ist eine Open-Source-Softwarelösung zur verteilten Verarbeitung. Mit ihr wird die Verwaltung großer Datenmengen beschleunigt und erleichtert, indem mehrere Computer miteinander verbunden werden. So können große Datenmengen parallel verarbeitet werden.

Apache Spark ist eine Open-Source-Softwarelösung zur verteilten Verarbeitung. Damit wird die Verwaltung großer Datenmengen beschleunigt und erleichtert, indem mehrere Computer miteinander verbunden werden. So können große Datenmengen parallel verarbeitet werden. Der Vorgänger Hadoop wird wesentlich häufiger eingesetzt. Aber durch den Einsatz von maschinellem Lernen und anderen Technologien, die die Geschwindigkeit und Effizienz erhöhen, gewinnt Spark an Popularität. 

Ein Data Lake ist ein Repository, in dem große Mengen roher, unstrukturierter Daten gespeichert und für den Abruf bereitgehalten werden können. Data Lakes sind notwendig, weil ein Großteil der Big Data unstrukturiert ist und nicht in einer herkömmlichen relationalen Datenbank mit Zeilen und Spalten gespeichert werden kann. 

Als Dark Data werden alle Daten bezeichnet, die Unternehmen im Rahmen ihrer normalen Geschäftstätigkeit sammeln (z. B. Aufnahmen von Überwachungskameras und Protokolldateien von Websites). Sie werden zu Compliance-Zwecken gespeichert, aber in der Regel nie verwendet. Die Kosten für die Speicherung dieser großen Datensätze sind höher als der Wert, den sie bringen. 

Data Fabric ist die Integration von Big-Data-Architekturen und ‑Technologien über ein gesamtes Unternehmensumfeld hinweg. Der Zweck besteht darin, Big Data aus allen Quellen und beliebigen Typs mit sämtlichen Datenmanagementdiensten im gesamten Unternehmen zu verbinden. 

Zum Seitenanfang