Zum Inhalt
Computerkabel

Was ist Data Mining?

Data Mining ist der Prozess der Extraktion nützlicher Informationen aus einer Ansammlung von Daten, oft aus einem Data Warehouse oder einer Reihe von verknüpften Datensätzen. Data-Mining-Tools umfassen leistungsstarke statistische, mathematische und analytische Funktionen. Ihre primäre Aufgabe ist die Analyse großer Datenmengen, um Trends, Muster und Beziehungen zu erkennen, die eine fundierte Entscheidungsfindung und Planung ermöglichen.

 

Data Mining wird häufig mit Anfragen der Marketingabteilung in Verbindung gebracht. Viele Führungskräfte sehen darin eine Möglichkeit, die Nachfrage besser zu verstehen und die Auswirkungen von Änderungen bei Produkten, Preisen oder Werbeaktionen auf den Umsatz zu erkennen. Aber auch für andere Geschäftsbereiche ist Data Mining von großem Nutzen. Entwickler und Konstrukteure können die Effektivität von Produktänderungen analysieren und nach möglichen Ursachen für den Erfolg oder Misserfolg von Produkten suchen, die darauf zurückzuführen sind, wie, wann und wo Produkte verwendet werden. Service- und Reparatureinrichtungen können den Ersatzteilbestand und den Personaleinsatz besser planen. Dienstleistungsunternehmen können mithilfe von Data Mining neue Chancen erkennen, die sich aus wirtschaftlichen Trends und demografischen Veränderungen ergeben.

 

Data Mining wird umso nützlicher und wertvoller, je größer die Datenmengen sind und je mehr Benutzererfahrungen vorhanden sind. Es ist naheliegend, dass je mehr Daten vorhanden sind, desto mehr Erkenntnisse und Intelligenz darin verborgen sein sollten. Und je vertrauter die Anwender mit den Tools werden und je besser sie die Datenbank verstehen, desto kreativer können sie bei ihren Untersuchungen und Analysen sein.

Warum sollte Data Mining verwendet werden?

Der Hauptnutzen von Data Mining ist die Fähigkeit, Muster und Beziehungen in großen Datenmengen aus verschiedenen Quellen zu erkennen. Angesichts der immer größeren Menge an verfügbaren Daten – aus so unterschiedlichen Quellen wie sozialen Medien, Remote-Sensoren und immer detaillierteren Berichten über Produktbewegungen und Marktaktivitäten – bietet Data Mining die Instrumente, um Big Data vollständig auszuschöpfen und in verwertbare Informationen umzuwandeln. Darüber hinaus eröffnet Data Mining die Möglichkeit, „über den Tellerrand hinauszuschauen“.

 

Der Data-Mining-Prozess kann überraschende und faszinierende Beziehungen und Muster in scheinbar unzusammenhängenden Informationen aufdecken. Da Informationen in der Regel fragmentiert sind, war es bisher schwierig oder unmöglich, sie in ihrer Gesamtheit zu analysieren. Es kann jedoch ein Zusammenhang zwischen externen Faktoren – etwa demografischen oder wirtschaftlichen Faktoren – und der Leistung der Produkte eines Unternehmens bestehen. Führungskräfte prüfen zwar regelmäßig die Verkaufszahlen nach Gebiet, Produktlinie, Vertriebskanal und Region, jedoch fehlt ihnen oft der externe Kontext für diese Informationen. Ihre Analyse zeigt auf, „was passiert ist“, aber sie sagt wenig darüber aus, „warum es so passiert ist“. Diese Lücke kann Data Mining schließen.

 

Data Mining kann nach Korrelationen mit externen Faktoren suchen. Obwohl Korrelation nicht immer auf einen kausalen Zusammenhang schließen lässt, können diese Trends wertvolle Indikatoren für Produkt-, Kanal- und Produktionsentscheidungen sein. Von der gleichen Analyse profitieren auch andere Bereiche des Unternehmens – vom Produktdesign über die betriebliche Effizienz bis hin zur Erbringung von Dienstleistungen.

Geschichte des Data Mining

Seit Tausenden von Jahren sammeln und analysieren Menschen Daten, und in vielerlei Hinsicht ist der Prozess gleich geblieben: Identifizierung der benötigten Informationen, Suche nach qualitativ hochwertigen Datenquellen, Sammlung und Kombination der Daten, Verwendung der effektivsten verfügbaren Tools zur Analyse der Daten und Nutzung der gewonnenen Erkenntnisse. Mit dem Wachstum und der Weiterentwicklung von Datenverarbeitungs- und datenbasierten Systemen haben sich auch die Tools für die Verwaltung und Analyse von Daten verbessert. Der eigentliche Wendepunkt kam in den 1960er-Jahren mit der Entwicklung der relationalen Datenbanktechnologie und benutzerorientierter Abfragetools in natürlicher Sprache wie Structured Query Language (SQL). Die Daten waren jetzt nicht mehr nur über speziell programmierte Programme verfügbar. Dank dieses Durchbruchs konnten Fachanwender ihre Daten interaktiv erkunden und die darin verborgenen „Geheimnisse“ aufspüren.

 

Data Mining ist traditionell ein Spezialgebiet von Data Science. Jede neue Generation von Analysewerkzeugen erfordert anfangs fortgeschrittene technische Kenntnisse, entwickelt sich aber schnell weiter und wird für die Anwender leichter zugänglich. Interaktivität – die Fähigkeit, mit den Daten zu kommunizieren – ist der entscheidende Schritt nach vorn. Fragen und die Antwort erhalten. Und auf der Grundlage dieser Erkenntnis eine weitere Frage stellen. Diese Art des unstrukturierten Durchsuchens der Daten führt den Nutzer über die Grenzen des anwendungsspezifischen Datenbankdesigns hinaus und ermöglicht die Aufdeckung von Beziehungen, die funktionale und organisatorische Grenzen überschreiten.

 

Data Mining ist eine Schlüsselkomponente von Business Intelligence. Data-Mining-Tools sind in Dashboards für Führungskräfte integriert und ermöglichen die Gewinnung von Erkenntnissen aus Big Data, einschließlich Daten aus sozialen Medien, Sensorfeeds aus dem Internet der Dinge, standortbezogenen Geräten, unstrukturierten Texten, Videos und mehr. Modernes Data Mining stützt sich auf die Cloud und virtuelles Computing sowie In-Memory-Datenbanken, um Daten aus vielen Quellen kostengünstig zu verwalten und nach Bedarf zu skalieren.

Wie funktioniert Data Mining?

Es gibt ungefähr so viele Ansätze für Data Mining wie es Data Miner gibt. Die Vorgehensweise hängt von der Art der gestellten Fragen und dem Inhalt und der Organisation der Datenbank oder der Datensätze ab, die das Rohmaterial für die Suche und Analyse liefern. Es gibt jedoch einige organisatorische und vorbereitende Schritte, die zur Vorbereitung der Daten, der Tools und der Benutzer erforderlich sind:
  1. Verstehen Sie das Problem – oder zumindest den Bereich der Untersuchung. Der Entscheidungsträger im Unternehmen, der für das Data-Mining-Projekt verantwortlich ist, benötigt ein allgemeines Verständnis des Bereichs, in dem er arbeiten wird – die Arten von internen und externen Daten, die Teil dieser Untersuchung sein werden. Es wird vorausgesetzt, dass er das Unternehmen und die beteiligten Funktionsbereiche sehr gut kennt.
  2. Sammeln Sie die Daten. Beginnen Sie mit Ihren internen Systemen und Datenbanken. Verknüpfen Sie diese über ihre Datenmodelle und verschiedene relationale Tools oder sammeln Sie die Daten in einem Data Warehouse. Dazu gehören auch alle Daten aus externen Quellen, die Teil Ihres Geschäftsbetriebs sind, z. B. Vertriebs- und/oder Servicedaten, IoT-Daten oder Daten aus sozialen Medien. Suchen Sie nach externen Daten und erwerben Sie die Rechte an diesen Daten, einschließlich demografischer Daten, Wirtschaftsdaten und Marktinformationen wie Branchentrends und Finanzbenchmarks von Handelsverbänden und Behörden. Binden Sie diese Daten in das Toolkit ein (integrieren Sie sie in Ihr Data Warehouse oder verknüpfen Sie sie mit einer Data-Mining-Umgebung).
  3. Bereiten Sie die Daten auf und verstehen Sie sie. Ziehen Sie die Fachleute Ihres Unternehmens hinzu, um die Daten zu definieren, zu kategorisieren und zu organisieren. Dieser Teil des Prozesses wird manchmal auch als Data Wrangling oder Munging bezeichnet. Einige der Daten müssen möglicherweise bereinigt werden, um Duplikate, Inkonsistenzen, unvollständige Datensätze oder veraltete Formate zu entfernen. Die Datenaufbereitung und ‑bereinigung kann eine fortlaufende Aufgabe sein, wenn neue Projekte oder Daten aus neuen Untersuchungsbereichen von Interesse sind.
  4. Schulen Sie die Anwender. Sie würden Ihrem Teenager doch auch nicht die Schlüssel für Ihren Ferrari geben, ohne dass er eine Fahrschulausbildung, ein Fahrtraining und einige beaufsichtigte Fahrten mit einem Fahrer mit Führerschein absolviert hat. Deshalb bieten Sie Ihren zukünftigen Data Minern eine angemessene Ausbildung und einige beaufsichtigte Übungen an, damit sie sich mit diesen leistungsstarken Tools vertraut machen können. Sobald sie die Grundlagen beherrschen und zu fortgeschritteneren Techniken übergehen können, wären weitere Schulungen angebracht.

Data-Mining-Techniken

Vergessen Sie nicht, dass Data Mining auf einem Toolkit basiert und nicht auf einer festen Routine oder einem festen Prozess. Die angeführten spezifischen Data-Mining-Techniken sind lediglich Beispiele, wie die Tools von Unternehmen eingesetzt werden, um ihre Daten auf der Suche nach Trends, Korrelationen, Informationen und Geschäftseinblicken zu untersuchen.

 

Im Allgemeinen können Data-Mining-Ansätze als gerichtet – auf ein bestimmtes gewünschtes Ergebnis ausgerichtet – oder ungerichtet – als Entdeckungsprozess – kategorisiert werden. Andere Untersuchungen können darauf abzielen, Daten zu sortieren oder zu klassifizieren, z. B. die Gruppierung potenzieller Kunden nach Unternehmensmerkmalen wie Branche, Produkte, Größe und Standort. Ein ähnliches Ziel, die Erkennung von Ausreißern oder Anomalien, ist ein automatisiertes Verfahren zur Erkennung echter Anomalien (und nicht nur einfacher Schwankungen) in einem Datensatz, der identifizierbare Muster aufweist.

 

Assoziation

Ein weiteres interessantes Ziel ist die Assoziation – die Verknüpfung zweier scheinbar nicht zusammenhängender Ereignisse oder Aktivitäten. Eine klassische, vielleicht fiktive Geschichte aus den Anfängen von Analysen und Data Mining handelt von einer Supermarktkette, die einen Zusammenhang zwischen dem Verkauf von Bier und Windeln feststellte. Es wurde spekuliert, dass gestresste frischgebackene Väter, die am späten Abend noch Windeln holen müssen, dabei vielleicht auch ein paar Sixpacks Bier kaufen. Die Geschäfte platzierten Bier und Windeln in unmittelbarer Nähe und steigerten so den Bierabsatz.

 

Clustering

Dieser Ansatz zielt darauf ab, Daten nach Ähnlichkeiten und nicht nach vordefinierten Annahmen zu gruppieren. Wenn Sie beispielsweise Ihre Kundenverkaufsdaten mit externen Verbraucherkredit- und demografischen Daten kombinieren, können Sie feststellen, dass Ihre profitabelsten Kunden aus mittelgroßen Städten stammen.

In den meisten Fällen wird Data Mining zur Unterstützung von Vorhersagen oder Prognosen eingesetzt. Je besser Sie Muster und Verhaltensweisen verstehen, desto besser können Sie zukünftige Aktionen in Bezug auf Ursachen oder Zusammenhänge vorhersagen.

 

Regression

Als eine der mathematischen Techniken, die in Data-Mining-Toolkits zur Auswahl stehen, sagt die Regressionsanalyse eine Zahl auf der Grundlage historischer Muster voraus, die in die Zukunft projiziert werden. Verschiedene andere Algorithmen zur Mustererkennung und ‑verfolgung bieten flexible Werkzeuge, mit denen die Benutzer die Daten und das damit verbundene Verhalten besser verstehen können.

Dies sind nur einige der Techniken und Werkzeuge, die in Data-Mining-Toolkits zum Einsatz kommen. Die Wahl des Werkzeugs oder der Technik erfolgt gewissermaßen automatisch, da die Techniken je nach Fragestellung angewendet werden. Früher bezeichnete man das Data Mining als „Slicing-and-Dicing“ der Datenbank. Heute ist die Praxis jedoch ausgefeilter und Begriffe wie Assoziation, Clustering und Regression sind gebräuchlich.

Anwendungsfälle und Beispiele

Data Mining ist der Schlüssel zu Stimmungsanalysen, Preisoptimierung, Datenbankmarketing, Kreditrisikomanagement, Schulung und Support, Betrugserkennung, Gesundheitsfürsorge und medizinischen Diagnosen, Risikobewertung, Empfehlungssystemen („Kunden, die dies gekauft haben, interessierten sich auch für ...“) und vielem mehr. Es kann ein effektives Werkzeug in nahezu jeder Branche sein, einschließlich Einzelhandel, Großhandel, Service, Fertigung, Telekommunikation, Kommunikation, Versicherungen, Bildung, Fertigung, Gesundheitswesen, Banken, Wissenschaft, Technik und Online-Marketing oder soziale Medien.

  • Produktentwicklung: Unternehmen, die physische Produkte entwickeln, herstellen oder vertreiben, können durch die Analyse von Kaufmustern in Verbindung mit wirtschaftlichen und demografischen Daten Möglichkeiten für eine bessere Ausrichtung ihrer Produkte ermitteln. Ihre Entwickler und Ingenieure können außerdem Kunden- und Benutzerfeedback, Reparaturprotokolle und andere Daten miteinander vergleichen, um Möglichkeiten zur Produktverbesserung zu identifizieren.
  • Fertigung: Hersteller können Qualitätstrends, Reparaturdaten, Produktionsraten und Produktleistungsdaten aus dem laufenden Betrieb verfolgen, um Produktionsprobleme zu entdecken. Sie können auch mögliche Prozessverbesserungen ermitteln, die die Qualität steigern, Zeit und Kosten sparen, die Produktleistung erhöhen und/oder den Bedarf an neuen oder besseren Produktionsanlagen aufzeigen.
  • Dienstleistungsbranche: In der Dienstleistungsbranche können Nutzer ähnliche Möglichkeiten zur Produktverbesserung finden, indem sie Kundenfeedback (direkt oder aus sozialen Medien oder anderen Quellen) mit bestimmten Dienstleistungen, Kanälen, Leistungsdaten von Mitbewerbern, Regionen, Preisen, demografischen Daten, Wirtschaftsdaten usw. abgleichen.

Schließlich sollten all diese Erkenntnisse in die Prognosen und die Planung einfließen, damit das gesamte Unternehmen auf der Grundlage einer genaueren Kenntnis der Kunden auf die zu erwartenden Nachfrageänderungen eingestellt ist – und besser in der Lage ist, neu erkannte Chancen zu nutzen.

Herausforderungen beim Data Mining

  • Big Data: Daten werden in immer schnellerem Tempo erzeugt und eröffnen immer mehr Möglichkeiten für das Data Mining. Angesichts des riesigen Volumens, der hohen Geschwindigkeit und der großen Vielfalt an Datenstrukturen sowie der zunehmenden Menge an unstrukturierten Daten sind jedoch moderne Data-Mining-Tools erforderlich, um aus Big Data Erkenntnisse zu gewinnen. Viele bestehende Systeme haben Schwierigkeiten, diese Flut von Daten zu verarbeiten, zu speichern und zu nutzen.
  • Benutzerkompetenz: Data-Mining- und Analysetools sollen Nutzern und Entscheidungsträgern dabei helfen, aus großen Datenmengen Nutzen und Erkenntnisse zu ziehen. Diese leistungsstarken Tools sind zwar technisch sehr anspruchsvoll, werden aber mit einem ausgezeichneten Benutzererlebnis kombiniert, sodass praktisch jede/r diese Tools mit minimaler Schulung verwenden kann. Um die Vorteile voll auszuschöpfen, muss der Nutzer jedoch die verfügbaren Daten und den geschäftlichen Kontext der gesuchten Informationen verstehen. Zumindest muss er im Großen und Ganzen wissen, wie die Werkzeuge funktionieren und was sie können. Dies liegt nicht außerhalb der Möglichkeiten eines durchschnittlichen Vorgesetzten oder einer Führungskraft. Es ist jedoch ein Lernprozess, bei dem die Nutzer einige Anstrengungen unternehmen müssen, um diese neuen Fähigkeiten zu erwerben.
  • Datenqualität und ‑verfügbarkeit: Mit der Masse an neuen Daten gibt es auch sehr viele unvollständige, falsche, irreführende, betrügerische, beschädigte oder einfach nur nutzlose Daten. Die Tools können dabei helfen, dies alles in den Griff zu bekommen – aber die Nutzer müssen sich ständig über die Quelle der Daten und deren Glaubwürdigkeit und Zuverlässigkeit im Klaren sein. Auch der Datenschutz spielt eine wichtige Rolle, sowohl bei der Beschaffung der Daten als auch bei der Pflege und dem Umgang mit ihnen, sobald sie in Ihrem Besitz sind.

Erweitern Sie Ihr Datenmanagement-Know-how.

Verstehen Sie den Datenmanagementprozess und seine Vorteile.

Mehr aus dieser Reihe

FAQs zum Data Mining

Data Mining ist ein Prozess, bei dem fortschrittliche Analysewerkzeuge eingesetzt werden, um nützliche Informationen aus einer Ansammlung von Daten zu extrahieren. Maschinelles Lernen ist eine Form der künstlichen Intelligenz (KI), die es Systemen ermöglicht, aus Erfahrungen zu lernen. Beim Data Mining kann maschinelles Lernen zum Einsatz kommen, wenn die Analyseprogramme in der Lage sind, ihre Funktionen an die von ihnen durchgeführten Datenanalysen anzupassen.

Datenanalyse oder Analytik sind allgemeine Begriffe für die breite Palette von Verfahren. Sie zielen darauf ab, nützliche Informationen zu ermitteln, sie auszuwerten und spezifische Antworten zu liefern. Data Mining ist eine Art der Datenanalyse. Sie konzentriert sich auf das Durchsuchen großer, kombinierter Datensätze, um Muster, Trends und Beziehungen zu erkennen, die zu Einsichten und Vorhersagen führen können.

Der Begriff Data Science umfasst viele Informationstechnologien, darunter Statistik, Mathematik und komplexe Rechentechniken, die auf Daten angewendet werden. Data Mining ist ein Anwendungsfall von Data Science, der sich auf die Analyse großer Datensätze aus einem breiten Spektrum von Quellen konzentriert.

Ein Data Warehouse ist eine Sammlung von Daten, in der Regel aus verschiedenen Quellen (ERP, CRM usw.), die ein Unternehmen zur Archivierung und für breit angelegte Analysen wie Data Mining in einem Warehouse zusammenfasst.

SAP-Insights-Newsletter

Jetzt abonnieren

Abonnieren Sie unseren Newsletter und erhalten Sie wichtige Informationen und Einblicke.

Weitere Informationen

Zum Seitenanfang