Naar inhoud gaan
Computerkabels

Wat is data mining?

 

Deze webpagina is voor uw gemak door een machine vertaald. SAP geeft geen garantie met betrekking tot de juistheid of volledigheid van de machinevertaling. De originele Engelse webpagina kan worden gevonden met behulp van de wereldkaart in de rechterbovenhoek van deze pagina.

Data mining is het proces van het extraheren van nuttige informatie uit een accumulatie van gegevens, vaak uit een datawarehouse of verzameling van gekoppelde gegevenssets. Data mining tools omvatten krachtige statistische, wiskundige en analytics-functies die in de eerste plaats bedoeld zijn om grote gegevenssets te doorlopen om trends, patronen en relaties te identificeren om geïnformeerde besluitvorming en planning te ondersteunen.

 

Vaak wordt data mining, gekoppeld aan vragen van marketingafdelingen, door veel leidinggevenden gezien als een manier om de vraag beter te begrijpen en om te zien welk effect veranderingen in producten, prijzen of promoties hebben op de verkoop. Maar data mining heeft ook voor andere bedrijfsgebieden aanzienlijke voordelen. Engineers en ontwerpers kunnen de effectiviteit van productwijzigingen analyseren en zoeken naar mogelijke oorzaken van productsucces of -mislukking gerelateerd aan hoe, wanneer en waar producten worden gebruikt. Service- en reparatiebewerkingen kunnen de voorraad en bezetting van onderdelen beter plannen. Professionele serviceorganisaties kunnen data mining gebruiken om nieuwe kansen te identificeren als gevolg van veranderende economische trends en demografische verschuivingen.

 

Data mining wordt nuttiger en waardevoller met grotere datasets en meer gebruikerservaring. Logisch: hoe meer data, hoe meer inzichten en intelligentie daar begraven zouden moeten worden. Naarmate gebruikers meer vertrouwd raken met de tools en de database beter begrijpen, kunnen ze ook creatiever zijn met hun verkenning en analyses.

Waarom data mining gebruiken?

Het belangrijkste voordeel van data mining is haar vermogen om patronen en relaties in grote hoeveelheden gegevens uit meerdere bronnen te identificeren. Omdat er steeds meer data beschikbaar zijn – uit bronnen die zo gevarieerd zijn als sociale media, telesensoren en steeds gedetailleerdere rapporten over productbewegingen en marktactiviteiten – biedt data mining de tools om big data volledig te benutten en om te zetten in bruikbare intelligentie. Bovendien kan het fungeren als een mechanisme om "buiten de doos te denken".

 

Het data mining proces kan verrassende en intrigerende relaties en patronen detecteren in schijnbaar ongerelateerde stukjes informatie. Omdat informatie over het algemeen gecompartimentaliseerd is, is het historisch moeilijk of onmogelijk geweest om als geheel te analyseren. Er kan echter een verband bestaan tussen externe factoren – misschien demografische of economische factoren – en de prestaties van de producten van een bedrijf. En terwijl leidinggevenden regelmatig kijken naar verkoopnummers per rayon, productlijn, distributiekanaal en regio, ontbreekt het vaak aan externe context voor deze informatie. Hun analyse wijst op "wat er is gebeurd" maar doet weinig om de "waarom het op deze manier is gebeurd aan het licht te brengen." Data mining kan dit gat opvullen.

 

Data mining kan correlaties met externe factoren zoeken; hoewel correlatie niet altijd een oorzakelijk verband aangeeft, kunnen deze trends waardevolle indicatoren zijn om product-, kanaal- en productiebeslissingen te sturen. Dezelfde analyse profiteert van andere bedrijfsonderdelen, van productontwerp tot operationele efficiëntie en dienstverlening.

Historie van data mining

Mensen verzamelen en analyseren al duizenden jaren gegevens en in veel opzichten is het proces hetzelfde gebleven: de benodigde informatie identificeren, gegevensbronnen van hoge kwaliteit vinden, de gegevens verzamelen en combineren, de meest effectieve tools gebruiken om de gegevens te analyseren en te profiteren van wat u hebt geleerd. Computer- en datagebaseerde systemen zijn gegroeid en geavanceerd, dus ook de tools voor het beheren en analyseren van data. Het echte inflectiepunt kwam in de jaren zestig met de ontwikkeling van relationele databasetechnologie en gebruikersgeoriënteerde natuurlijke taalquerytools zoals Strucvine Query Language (SQL). Er waren geen gegevens meer alleen beschikbaar via aangepaste gecodeerde programma's. Met deze doorbraak konden zakelijke gebruikers interactief hun data verkennen en de verborgen edelstenen intelligentie die binnen begraven liggen uitputten.

 

Data mining is van oudsher een bijzondere skill set binnen data science. Elke nieuwe generatie analytische instrumenten vereist echter geavanceerde technische vaardigheden, maar ontwikkelt zich snel om toegankelijk te worden voor gebruikers. Interactiviteit – de mogelijkheid om de gegevens met u te laten spreken – is de belangrijkste vooruitgang. Stel een vraag; zie het antwoord. Stel op basis van wat je leert een andere vraag. Met dit soort ongestructureerde roaming via de data wordt de gebruiker buiten de grenzen van het toepassingsspecifieke database-ontwerp gebracht en kunnen relaties worden ontdekt die functionele en organisatorische grenzen overschrijden.

 

Data mining is een belangrijk onderdeel van Business Intelligence. Data mining tools zijn ingebouwd in management dashboards, waarmee inzicht wordt verkregen uit big data, waaronder data van social media, IoT-sensor feeds (Internet of Things), locatiebewuste apparaten, ongestructureerde tekst, video en meer. Moderne data mining is afhankelijk van de cloud en virtuele computing, evenals van in-memory databases, om data uit veel bronnen kosteneffectief te beheren en op aanvraag te schalen.

Hoe werkt data mining?

Er zijn ongeveer evenveel benaderingen van data mining als er data miners zijn. De aanpak hangt af van het soort vragen dat wordt gesteld en de inhoud en organisatie van de database of datasets die de grondstof voor de zoek- en analysedoeleinden leveren. Er zijn echter een aantal organisatorische en voorbereidende stappen die moeten worden voltooid om de gegevens, de hulpmiddelen en de gebruikers voor te bereiden:
  1. Begrijp het probleem – of in ieder geval het onderzoeksgebied. De besluitvormer van het bedrijfsleven, die voor deze data mining buiten de weg zou moeten staan, heeft behoefte aan een algemeen inzicht in het domein waarin zij zullen werken – de soorten interne en externe gegevens die deel moeten uitmaken van deze verkenning. Aangenomen wordt dat zij innige kennis hebben van het bedrijf en de betrokken functiegebieden.
  2. Verzamelen van gegevens. Begin met uw interne systemen en databases. Koppel ze via hun gegevensmodellen en verschillende relationele tools of verzamel de data in een datawarehouse. Dit omvat gegevens uit externe bronnen die deel uitmaken van uw activiteiten, zoals verkoop- en/of servicegegevens in het veld, IoT of social media-gegevens. Zoek en verwerf de rechten op externe data, waaronder demografische gegevens, economische gegevens en marktinformatie, zoals trends in de sector en financiële benchmarks van handelsverenigingen en overheden. Breng ze in de purview van de toolkit (breng ze in uw datawarehouse of koppel ze aan de data mining omgeving).
  3. Voorbereiding en begrip van data. Gebruik de vakdeskundigen van uw bedrijf om de gegevens te definiëren, te categoriseren en te organiseren. Dit deel van het proces wordt soms gegevensmanipulatie of munging genoemd. Sommige gegevens moeten mogelijk worden opgeschoond of 'opgeschoond' om duplicaten, inconsistenties, onvolledige records of verouderde formaten te verwijderen. Het voorbereiden en opschonen van gegevens kan een lopende taak zijn, aangezien nieuwe projecten of gegevens van nieuwe onderzoeksgebieden van belang worden.
  4. Gebruikerstraining. Je zou je tiener niet de sleutels geven voor de familie Ferrari zonder dat ze de opleiding van chauffeur, training op de weg en een aantal oefeningen onder supervisie met een gelicentieerde chauffeur doorlopen. Zorg er dus voor dat u uw toekomstige dataminiers een formele opleiding geeft en een aantal praktijken onder supervisie krijgt als ze vertrouwd raken met deze krachtige tools. Voortgezet onderwijs is ook een goed idee als ze eenmaal de grondbeginselen onder de knie hebben en verder kunnen gaan met meer geavanceerde technieken.

Data mining technieken

Houd er rekening mee dat data mining is gebaseerd op een toolkit in plaats van op een vaste routine of een vast proces. Specifieke data mining technieken die hier worden genoemd, zijn slechts voorbeelden van hoe de tools worden gebruikt door organisaties om hun data te verkennen op zoek naar trends, correlaties, intelligence en bedrijfsinzicht.

 

In het algemeen kunnen data mining benaderingen worden gecategoriseerd volgens de instructies (gericht op een specifiek gewenst resultaat) of ongeoriënteerd als een ontdekkingsproces. Andere verkenningen kunnen zijn gericht op het sorteren of classificeren van gegevens, zoals het groeperen van potentiële klanten op basis van bedrijfsattributen zoals branche, producten, grootte en locatie. Een vergelijkbare doelstelling, uitschieter- of afwijkingsdetectie, is een geautomatiseerde methode voor het herkennen van reële afwijkingen (in plaats van eenvoudige variabiliteit) binnen een set gegevens die identificeerbare patronen weergeeft.

 

Associatie

Een ander interessant doel is vereniging – het koppelen van twee schijnbaar ongerelateerde evenementen of activiteiten. Een klassiek verhaal uit de vroege dagen van analytics en data mining, misschien fictief, heeft een gemakswinkelketen die een correlatie ontdekt tussen de verkoop van bier en luiers. Speculerend dat nieuwe vaders die laat in de avond uitrennen om luiers te krijgen, kunnen een paar zespakjes pakken terwijl ze er zijn. De winkels positioneren het bier en de luiers in de buurt en verhogen daardoor de bierverkoop.

 

Clustering

Deze aanpak is bedoeld om gegevens te groeperen op overeenkomsten in plaats van op vooraf gedefinieerde veronderstellingen. Als u bijvoorbeeld klantverkoopgegevens in combinatie met extern consumentenkrediet en demografische gegevens gebruikt, kunt u ontdekken dat uw meest winstgevende klanten uit middelgrote steden afkomstig zijn.

In een groot deel van de tijd wordt data mining voortgezet ter ondersteuning van voorspelling of prognoses. Hoe beter u inzicht krijgt in patronen en gedragingen, hoe beter u kunt inspelen op toekomstige acties met betrekking tot oorzaken of correlaties.

 

Regressie

Een van de wiskundige technieken die worden aangeboden in toolkits voor data mining, regressieanalyse voorspelt een aantal op basis van historische patronen die in de toekomst worden geprojecteerd. Verschillende andere algoritmen voor patroondetectie en -tracering bieden flexibele tools om gebruikers een beter inzicht te geven in de gegevens en het gedrag dat erdoor wordt vertegenwoordigd.

Dit zijn slechts enkele technieken en instrumenten die beschikbaar zijn in tool kits voor data mining. De keuze van gereedschap of techniek is enigszins geautomatiseerd in die zin dat de technieken zullen worden toegepast afhankelijk van hoe de vraag gesteld wordt. In eerdere tijden werd data mining aangeduid als "het snijden en verklikken" van de database, maar de praktijk is nu verfijnder en termen als associatie, clustering en regressie zijn gemeengoed.

Use cases en voorbeelden

Data mining is essentieel voor sentimentanalyse, prijsoptimalisatie, databasemarketing, kredietrisicobeheer, training en ondersteuning, fraudedetectie, gezondheidszorg en medische diagnoses, risicobeoordeling, aanbevelingssystemen (“klanten die dit ook leuk hebben gekocht… ”) en nog veel meer. Het kan een effectief instrument zijn in alle sectoren, waaronder de detailhandel, de groothandel, de dienstensector, telecommunicatie, communicatie, verzekeringen, onderwijs, industrie, gezondheidszorg, bankwezen, wetenschap, engineering en online marketing of sociale media.

  • Productontwikkeling: bedrijven die fysieke producten ontwerpen, maken of distribueren, kunnen kansen identificeren om hun producten doelgerichter te maken door inkooppatronen in combinatie met economische en demografische gegevens te analyseren. Hun ontwerpers en ingenieurs kunnen ook klant- en gebruikersfeedback, reparatierecords en andere gegevens met elkaar vergelijken om mogelijkheden voor productverbetering te identificeren.
  • Productie: fabrikanten kunnen kwaliteitstrends, reparatiegegevens, productietarieven en productprestatiegegevens uit het veld volgen om productieproblemen te identificeren. Ze kunnen ook mogelijke procesupgrades herkennen die de kwaliteit verbeteren, tijd en kosten besparen, productprestaties verbeteren en/of wijzen op de behoefte aan nieuwe of betere fabrieksuitrusting.
  • Dienstverleningssectoren: in dienstverleningssectoren kunnen gebruikers vergelijkbare mogelijkheden voor productverbetering vinden door klantfeedback (direct of vanuit sociale media of andere bronnen) te relateren aan specifieke services, kanalen, collegiale prestatiedata, regio's, prijzen, demografische gegevens, economische gegevens en meer.

Tot slot moeten al deze bevindingen worden teruggevoerd naar prognoses en planning, zodat de hele organisatie kan inspelen op de verwachte veranderingen in de vraag op basis van een meer diepgaande kennis van de klant en beter in staat is om nieuwe kansen te benutten.

Uitdagingen voor data mining

  • Big Data: data wordt in een snel tempo gegenereerd en biedt steeds meer kansen voor data mining. Gezien het hoge volume, de hoge snelheid en de grote verscheidenheid aan datastructuren en het toenemende volume aan ongestructureerde gegevens zijn echter moderne data mining tools nodig om betekenis uit Big Data te halen. Veel bestaande systemen hebben moeite om deze stortvloed aan input aan te pakken, op te slaan en te gebruiken.
  • Gebruikerscompetentie: Data mining- en analysetools zijn ontworpen om gebruikers en besluitvormers te helpen betekenis en coax betekenis en inzicht te krijgen vanuit massa's data. Hoewel ze zeer technisch zijn, zijn deze krachtige tools nu verpakt met een uitstekend ontwerp voor gebruikerservaring, zodat vrijwel iedereen deze tools met minimale training kan gebruiken. Om de voordelen echter volledig te kunnen benutten, moet de gebruiker de beschikbare gegevens begrijpen en de zakelijke context van de informatie die hij zoekt. Zij moeten ook, in ieder geval in het algemeen, weten hoe de instrumenten werken en wat ze kunnen doen. Dit valt niet buiten het bereik van de gemiddelde manager of leidinggevende, maar het is een leerproces en gebruikers moeten zich inspannen om deze nieuwe vaardigheden te ontwikkelen.
  • Kwaliteit en beschikbaarheid van gegevens: Met massa's nieuwe gegevens zijn er ook massa's onvolledige, onjuiste, misleidende, frauduleuze, beschadigde of gewoon nutteloze gegevens. De instrumenten kunnen dit alles helpen oplossen, maar de gebruikers moeten zich voortdurend bewust zijn van de bron van de gegevens en de geloofwaardigheid en betrouwbaarheid ervan. Privacykwesties zijn ook belangrijk, zowel met betrekking tot de verkrijging van de gegevens als de zorg en afhandeling als deze eenmaal in uw bezit is.
placeholder

Breid uw expertise op het gebied van datamanagement uit

Krijg inzicht in het datamanagementproces en de voordelen ervan.

Meer in deze reeks

Veelgestelde vragen over data mining

Data mining is het proces waarbij geavanceerde analytische tools worden gebruikt om nuttige informatie uit een accumulatie van gegevens te halen. Machine learning is een soort kunstmatige intelligentie (AI) waarmee systemen kunnen leren van ervaring. Data mining kan gebruikmaken van machine learning wanneer de analyseprogramma's hun functionaliteit kunnen aanpassen als reactie op de gegevensanalyse die ze uitvoeren.

Gegevensanalyse of -analyse zijn algemene termen voor de brede reeks praktijken die gericht zijn op het identificeren van nuttige informatie, het evalueren ervan en het geven van specifieke antwoorden. Data mining is één type data-analyse dat is gericht op het opgraven in grote, gecombineerde gegevenssets om patronen, trends en relaties te ontdekken die kunnen leiden tot inzichten en voorspellingen.

Data science is een term die veel informatietechnologieën omvat, waaronder statistieken, wiskunde en geavanceerde computationele technieken zoals toegepast op data. Data mining is een use case voor data science gericht op de analyse van grote datasets uit een breed scala aan bronnen.

Een datawarehouse is een verzameling gegevens, meestal uit meerdere bronnen (ERP, CRM, enzovoort) die een bedrijf zal combineren in het magazijn voor archiefopslag en brede analyses, zoals data mining.

SAP Insights nieuwsbrief

placeholder
Meld je vandaag nog aan

Meld je aan voor onze nieuwsbrief en krijg belangrijke inzichten.

Verder lezen

Terug naar boven