Wat is datamining?

Data mining is het proces waarbij geavanceerde analytische tools worden gebruikt om nuttige informatie uit een accumulatie van gegevens te halen.

Overzicht datamining

Data mining is het proces van het extraheren van nuttige informatie uit een accumulatie van gegevens, vaak uit een datawarehouse of verzameling van gekoppelde gegevenssets. Data mining tools omvatten krachtige statistische, wiskundige en analytics-functies die in de eerste plaats bedoeld zijn om grote gegevenssets te doorlopen om trends, patronen en relaties te identificeren om geïnformeerde besluitvorming en planning te ondersteunen.

 

Vaak wordt data mining, gekoppeld aan vragen van marketingafdelingen, door veel leidinggevenden gezien als een manier om de vraag beter te begrijpen en om te zien welk effect veranderingen in producten, prijzen of promoties hebben op de verkoop. Maar data mining heeft ook voor andere bedrijfsgebieden aanzienlijke voordelen. Engineers en ontwerpers kunnen de effectiviteit van productwijzigingen analyseren en zoeken naar mogelijke oorzaken van productsucces of -mislukking gerelateerd aan hoe, wanneer en waar producten worden gebruikt. Service- en reparatiebewerkingen kunnen de voorraad en bezetting van onderdelen beter plannen. Professionele serviceorganisaties kunnen data mining gebruiken om nieuwe kansen te identificeren als gevolg van veranderende economische trends en demografische verschuivingen.

 

Data mining wordt nuttiger en waardevoller met grotere datasets en meer gebruikerservaring. Logisch: hoe meer data, hoe meer inzichten en intelligentie daar begraven zouden moeten worden. Naarmate gebruikers meer vertrouwd raken met de tools en de database beter begrijpen, kunnen ze ook creatiever zijn met hun verkenning en analyses.

Waarom data mining gebruiken?

Het belangrijkste voordeel van data mining is haar vermogen om patronen en relaties in grote hoeveelheden gegevens uit meerdere bronnen te identificeren. Omdat er steeds meer data beschikbaar zijn – uit bronnen die zo gevarieerd zijn als sociale media, telesensoren en steeds gedetailleerdere rapporten over productbewegingen en marktactiviteiten – biedt data mining de tools om big data volledig te benutten en om te zetten in bruikbare intelligentie. Bovendien kan het fungeren als een mechanisme om "buiten de doos te denken".

 

Het data mining proces kan verrassende en intrigerende relaties en patronen detecteren in schijnbaar ongerelateerde stukjes informatie. Omdat informatie over het algemeen gecompartimentaliseerd is, is het historisch moeilijk of onmogelijk geweest om als geheel te analyseren. Er kan echter een verband bestaan tussen externe factoren – misschien demografische of economische factoren – en de prestaties van de producten van een bedrijf. En terwijl leidinggevenden regelmatig kijken naar verkoopnummers per rayon, productlijn, distributiekanaal en regio, ontbreekt het vaak aan externe context voor deze informatie. Hun analyse wijst op "wat er is gebeurd" maar doet weinig om de "waarom het op deze manier is gebeurd aan het licht te brengen." Data mining kan dit gat opvullen.

 

Data mining kan correlaties met externe factoren zoeken; hoewel correlatie niet altijd een oorzakelijk verband aangeeft, kunnen deze trends waardevolle indicatoren zijn om product-, kanaal- en productiebeslissingen te sturen. Dezelfde analyse profiteert van andere bedrijfsonderdelen, van productontwerp tot operationele efficiëntie en dienstverlening.

Historie van data mining

Mensen verzamelen en analyseren al duizenden jaren data en in veel opzichten is het proces hetzelfde gebleven: identificeer de benodigde informatie, zoek hoogwaardige databronnen, verzamel en combineer de data, gebruik de meest effectieve tools om de data te analyseren en benut wat je hebt geleerd. Naarmate computer- en gegevensgebaseerde systemen zijn gegroeid en geavanceerd, hebben we ook de tools voor het beheren en analyseren van data. Het echte buigpunt kwam in de jaren zestig met de ontwikkeling van relationele databasetechnologie en gebruikersgerichte natuurlijke taal query tools zoals Structured Query Language (SQL). Gegevens waren niet meer alleen beschikbaar via programma's met aangepaste codes. Met deze doorbraak kunnen zakelijke gebruikers interactief hun gegevens verkennen en de verborgen juweeltjes van intelligentie die erin begraven liggen, verwijderen.

 

Data mining is van oudsher een bijzondere skill set binnen data science. Elke nieuwe generatie analytische instrumenten vereist echter geavanceerde technische vaardigheden, maar ontwikkelt zich snel om toegankelijk te worden voor gebruikers. Interactiviteit – de mogelijkheid om de gegevens met u te laten spreken – is de belangrijkste vooruitgang. Stel een vraag; zie het antwoord. Stel op basis van wat je leert een andere vraag. Met dit soort ongestructureerde roaming via de data wordt de gebruiker buiten de grenzen van het toepassingsspecifieke database-ontwerp gebracht en kunnen relaties worden ontdekt die functionele en organisatorische grenzen overschrijden.

 

Data mining is een belangrijk onderdeel van Business Intelligence. Data mining tools zijn ingebouwd in management dashboards, waarmee inzicht wordt verkregen uit big data, waaronder data van social media, IoT-sensor feeds (Internet of Things), locatiebewuste apparaten, ongestructureerde tekst, video en meer. Moderne data mining is afhankelijk van de cloud en virtuele computing, evenals van in-memory databases, om data uit veel bronnen kosteneffectief te beheren en op aanvraag te schalen.

Hoe werkt data mining?

Er zijn ongeveer evenveel benaderingen van data mining als er data miners zijn. De aanpak hangt af van het soort vragen dat wordt gesteld en de inhoud en organisatie van de database of datasets die de grondstof voor de zoek- en analysedoeleinden leveren. Er zijn echter een aantal organisatorische en voorbereidende stappen die moeten worden voltooid om de gegevens, de hulpmiddelen en de gebruikers voor te bereiden:

  1. Begrijp het probleem – of in ieder geval het onderzoeksgebied. De beslisser van het bedrijf, die in de stoel van de bestuurder zou moeten zitten voor dit offroad-datamining avontuur, heeft een algemeen inzicht nodig in het domein waarin ze zullen werken – de soorten interne en externe gegevens die deel moeten uitmaken van deze verkenning. Aangenomen wordt dat ze intieme kennis hebben van het bedrijf en de betrokken functiegebieden.
  2. Verzamelen van gegevens. Begin met je interne systemen en databases. Koppel ze via hun datamodellen en verschillende relationele tools of verzamel de data in een datawarehouse. Dit omvat alle gegevens uit externe bronnen die deel uitmaken van je activiteiten, zoals buitendienst- en/of servicegegevens, IoT-gegevens of social media-gegevens. Zoek en verkrijg de rechten op externe gegevens, waaronder demografische gegevens, economische gegevens en marktinformatie, zoals trends in de branche en financiële benchmarks van handelsverenigingen en overheden. Breng ze in de gebruiksaanwijzing van de toolkit (breng ze in je datawarehouse of koppel ze aan data mining-omgeving).
  3. Gegevensvoorbereiding en -begrip. Gebruik de vakdeskundigen van je bedrijf om de gegevens te helpen definiëren, categoriseren en organiseren. Dit deel van het proces wordt soms data manipulatie of munging genoemd. Sommige gegevens moeten mogelijk worden schoongemaakt of opgeschoond om dubbele, inconsistenties, onvolledige records of verouderde indelingen te verwijderen. Gegevensvoorbereiding en -opschoning kunnen een voortdurende taak zijn als nieuwe projecten of gegevens uit nieuwe onderzoeksgebieden van belang worden.
  4. Gebruikerstraining. Je zou je tiener niet de sleutels geven aan de familie Ferrari zonder dat ze de opleiding van de bestuurder, de training op de weg en sommige training onder toezicht met een gelicentieerde bestuurder doorlopen. Zorg er dus voor dat je formele training geeft aan je toekomstige dataminers en enige training onder supervisie als ze vertrouwd raken met deze krachtige tools. Voortgezet onderwijs is ook een goed idee als ze de basis onder de knie hebben en verder kunnen gaan met meer geavanceerde technieken.

Data mining technieken

Houd er rekening mee dat data mining is gebaseerd op een toolkit in plaats van op een vaste routine of een vast proces. Specifieke data mining technieken die hier worden genoemd, zijn slechts voorbeelden van hoe de tools worden gebruikt door organisaties om hun data te verkennen op zoek naar trends, correlaties, intelligence en bedrijfsinzicht.

 

In het algemeen kunnen data mining benaderingen worden gecategoriseerd volgens de instructies (gericht op een specifiek gewenst resultaat) of ongeoriënteerd als een ontdekkingsproces. Andere verkenningen kunnen zijn gericht op het sorteren of classificeren van gegevens, zoals het groeperen van potentiële klanten op basis van bedrijfsattributen zoals branche, producten, grootte en locatie. Een vergelijkbare doelstelling, uitschieter- of afwijkingsdetectie, is een geautomatiseerde methode voor het herkennen van reële afwijkingen (in plaats van eenvoudige variabiliteit) binnen een set gegevens die identificeerbare patronen weergeeft.

 

Associatie

Een ander interessant doel is vereniging – het koppelen van twee schijnbaar ongerelateerde evenementen of activiteiten. Een klassiek verhaal uit de vroege dagen van analytics en data mining, misschien fictief, heeft een gemakswinkelketen die een correlatie ontdekt tussen de verkoop van bier en luiers. Speculerend dat nieuwe vaders die laat in de avond uitrennen om luiers te krijgen, kunnen een paar zespakjes pakken terwijl ze er zijn. De winkels positioneren het bier en de luiers in de buurt en verhogen daardoor de bierverkoop.

 

Clustering

Deze benadering is gericht op het groeperen van gegevens aan de hand van gelijkenissen in plaats van vooraf gedefinieerde aannames. Als je bijvoorbeeld de verkoopgegevens van je klanten in combinatie met externe consumentenkredieten en demografische gegevens gebruikt, kun je ontdekken dat jouw meest winstgevende klanten uit middelgrote steden komen. Vaak wordt datamining voortgezet ter ondersteuning van voorspellingen of prognoses. Hoe beter je patronen en gedragingen begrijpt, hoe beter je kunt anticiperen op toekomstige acties met betrekking tot oorzaken of correlaties.

 

Regressie

Een van de wiskundige technieken aangeboden in data mining tool kits, regressieanalyse voorspelt een aantal gebaseerd op historische patronen geprojecteerd in de toekomst. Verschillende andere patroondetectie- en volgalgoritmen bieden flexibele tools om gebruikers te helpen de gegevens en het gedrag dat het vertegenwoordigt beter te begrijpen. Dit zijn slechts enkele van de technieken en tools die beschikbaar zijn in datamining toolkits. De keuze van gereedschap of techniek is enigszins geautomatiseerd in die zin dat de technieken zullen worden toegepast afhankelijk van hoe de vraag wordt gesteld. In vroeger tijden werd datamining aangeduid als "segmenting and dicing" van de database, maar de praktijk is nu geavanceerder en termen als associatie, clustering en regressie zijn gemeengoed.

Use cases en voorbeelden

Data mining is essentieel voor sentimentanalyse, prijsoptimalisatie, databasemarketing, kredietrisicobeheer, training en ondersteuning, fraudedetectie, gezondheidszorg en medische diagnoses, risicobeoordeling, aanbevelingssystemen (“klanten die dit ook leuk hebben gekocht… ”) en nog veel meer. Het kan een effectief instrument zijn in alle sectoren, waaronder de detailhandel, de groothandel, de dienstensector, telecommunicatie, communicatie, verzekeringen, onderwijs, industrie, gezondheidszorg, bankwezen, wetenschap, engineering en online marketing of sociale media.

  • Productontwikkeling: bedrijven die fysieke producten ontwerpen, maken of distribueren, kunnen kansen aanwijzen om hun producten beter te richten door aankooppatronen te analyseren in combinatie met economische en demografische gegevens. Hun ontwerpers en ingenieurs kunnen ook klant- en gebruikersfeedback, reparatierecords en andere gegevens kruisverwijzen om productverbeteringsmogelijkheden te identificeren.

  • Productie: fabrikanten kunnen kwaliteitstrends, reparatiegegevens, productiesnelheden en productprestatiegegevens uit het veld volgen om productieproblemen te identificeren. Ze kunnen ook mogelijke procesupgrades herkennen die de kwaliteit verbeteren, tijd en kosten besparen, de productprestaties verbeteren en/of wijzen op de behoefte aan nieuwe of betere fabrieksuitrusting.

  • Dienstverleningssectoren: in servicebranches kunnen gebruikers vergelijkbare mogelijkheden voor productverbetering vinden door klantfeedback (rechtstreeks of via sociale media of andere bronnen) te kruisen met specifieke services, kanalen, peer performance data, regio, prijzen, demografische gegevens, economische gegevens en meer.

Tot slot moeten al deze bevindingen worden teruggevoerd naar prognoses en planning, zodat de hele organisatie wordt afgestemd op verwachte veranderingen in de vraag op basis van meer intieme kennis van de klant – en beter gepositioneerd zijn om nieuw geïdentificeerde kansen te benutten.

Uitdagingen voor data mining

  • Big Data: data wordt in een snel tempo gegenereerd en biedt steeds meer kansen voor data mining. Gezien het hoge volume, de hoge snelheid en de grote verscheidenheid aan datastructuren en het toenemende volume aan ongestructureerde gegevens zijn echter moderne data mining tools nodig om betekenis uit Big Data te halen. Veel bestaande systemen hebben moeite om deze stortvloed aan input aan te pakken, op te slaan en te gebruiken.

  • Gebruikerscompetentie: Datamining en analysetools zijn ontworpen om gebruikers en besluitvormers te helpen betekenis en inzicht te krijgen uit massa's data. Hoewel zeer technisch, zijn deze krachtige tools nu verpakt met een uitstekend ontwerp van de gebruikerservaring, zodat vrijwel iedereen deze tools met minimale training kan gebruiken. Om de voordelen volledig te benutten, moet de gebruiker echter de beschikbare gegevens en de zakelijke context van de informatie die hij zoekt begrijpen. Ze moeten ook, althans in het algemeen, weten hoe de instrumenten werken en wat ze kunnen doen. Dit is niet buiten het bereik van de gemiddelde manager of leidinggevende, maar het is een leerproces en gebruikers moeten enige moeite doen om deze nieuwe vaardigheden te ontwikkelen.

  • Gegevenskwaliteit en beschikbaarheid: Met massa's nieuwe gegevens zijn er ook massa's onvolledige, onjuiste, misleidende, frauduleuze, beschadigde of gewoon nutteloze gegevens. De tools kunnen dit allemaal helpen oplossen, maar de gebruikers moeten zich voortdurend bewust zijn van de bron van de gegevens en de geloofwaardigheid en betrouwbaarheid ervan. Privacyzorgen zijn ook belangrijk, zowel wat betreft de verkrijging van de gegevens als de zorg en behandeling zodra deze in je bezit is.

Veelgestelde vragen over data mining

Data mining is het proces waarbij geavanceerde analytische tools worden gebruikt om nuttige informatie uit een accumulatie van gegevens te halen. Machine learning is een soort kunstmatige intelligentie (AI) waarmee systemen kunnen leren van ervaring. Data mining kan gebruikmaken van machine learning wanneer de analyseprogramma's hun functionaliteit kunnen aanpassen als reactie op de gegevensanalyse die ze uitvoeren.

Gegevensanalyse of -analyse zijn algemene termen voor de brede reeks praktijken die gericht zijn op het identificeren van nuttige informatie, het evalueren ervan en het geven van specifieke antwoorden. Data mining is één type data-analyse dat is gericht op het opgraven in grote, gecombineerde gegevenssets om patronen, trends en relaties te ontdekken die kunnen leiden tot inzichten en voorspellingen.

Data science is een term die veel informatietechnologieën omvat, waaronder statistieken, wiskunde en geavanceerde computationele technieken zoals toegepast op data. Data mining is een use case voor data science gericht op de analyse van grote datasets uit een breed scala aan bronnen.

Een datawarehouse is een verzameling gegevens, meestal uit meerdere bronnen (ERP, CRM, enzovoort) die een bedrijf zal combineren in het magazijn voor archiefopslag en brede analyses, zoals data mining.

placeholder

Breid je expertise op het gebied van datamanagement uit

Krijg inzicht in het datamanagementproces en de voordelen ervan.

placeholder

Ideeën die u nergens anders zult vinden

Meld u aan voor een dosis business intelligence die rechtstreeks in uw inbox wordt bezorgd.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel