Wat is datamining?
Datamining is het extraheren van nuttige informatie uit grote datasets, met behulp van machine learning en andere tools om patronen, afwijkingen en inzichten voor besluitvorming te ontdekken.
default
{}
default
{}
primary
default
{}
secondary
Overzicht datamining
In dit digitale tijdperk verzamelen organisaties natuurlijk steeds grotere hoeveelheden data, en veel leidinggevenden zien het vandaag de dag als een schat aan bruikbare inzichten. Wat is datamining en hoe vergemakkelijkt het de extractie van waardevolle informatie uit datasets? Datamining is het proces van het ontdekken van nuttige informatie uit een accumulatie van data, vaak uit een datawarehouse of een verzameling van gekoppelde datasets. Datamining kan machine learning, statistische analyse en andere krachtige analysetools omvatten die worden gebruikt om grote gegevenssets te doorlopen om trends, verborgen patronen, anomalieën en relaties te identificeren om geïnformeerde besluitvorming en planning te ondersteunen.
Een van de minder voor de hand liggende voordelen van datamining - en een belangrijke reden waarom data mining tegenwoordig belangrijk is - is dat het de accumulatie van data, die dikwijls gepaard gaat met digitalisering, in een voordeel verandert. Naarmate organisaties hun activiteiten steeds meer moderniseren en digitaliseren, hebben ze de neiging om meer en meer data te genereren en te verzamelen. Voor een grote onderneming met enorme datasets biedt datamining dus een efficiënte manier om gebruik te maken van een schat aan informatie die ze al hebben.
Waarom is datamining belangrijk?
Datamining is belangrijk omdat de data van de organisatie een belangrijk onderdeel van business intelligence wordt. Datamining tools zijn ingebouwd in executive dashboards, het verzamelen van inzicht uit big data, waaronder data van sociale media, Internet of Things (IoT) sensorfeeds, locatiebewuste apparaten, ongestructureerde tekst, video en meer. Moderne datamining is gebaseerd op de cloud en virtuele computing, evenals in-memory databases, om data uit vele bronnen kosteneffectief te beheren en op aanvraag te schalen.
Dus wat voor bedrijfswaarde kan datamining bieden? Het belangrijkste voordeel van datamining is haar vermogen om patronen en relaties in grote hoeveelheden data uit meerdere bronnen te identificeren, waaronder sociale media, externe sensoren en andere monitoringapparatuur, steeds gedetailleerdere rapporten over productbeweging en marktactiviteit, en, van cruciaal belang, applicaties en andere software die door de organisatie wordt gebruikt.
Dit betekent twee dingen. Datamining kan mensen in verschillende rollen, in verschillende sectoren, helpen om buiten de kaders te denken door gebruik te maken van een breed scala aan bronnen en onduidelijke relaties en patronen te onthullen in schijnbaar niet-gerelateerde stukjes informatie. Dit maakt datamining belangrijk voor grote organisaties, in het bijzonder voor bedrijven waar informatie meestal wordt versnipperd.
Bovendien strekken de voordelen van datamining zich niet alleen uit tot de verkoop, maar ook tot andere bedrijfsgebieden: dankzij deze capaciteit voor het afbreken van silo's kan het een breed scala aan rollen mogelijk maken. Ingenieurs en ontwerpers kunnen de effectiviteit van productveranderingen analyseren en zoeken naar mogelijke oorzaken van productsucces of -falen. Service- en reparatieactiviteiten kunnen de voorraad en het personeel van onderdelen beter plannen. Professionele serviceorganisaties kunnen data mining gebruiken om nieuwe kansen te identificeren die ontstaan door veranderende economische trends en demografische verschuivingen. Data mining kan zelfs helpen fraude op te sporen, vooral in branches zoals financiën, retail en gezondheidszorg.
Met andere woorden, de potentiële voordelen van datamining omvatten het hele scala aan bedrijfsfuncties: van het helpen verhogen van de omzet en het verlagen van de kosten tot het verbeteren van klantrelaties, het voorkomen van fraude en het finetunen van verkoopprognoses.
Datamining is belangrijk omdat het aanzienlijke bedrijfswaarde kan opleveren voor een reeks doelen, bijvoorbeeld:
- Genereer bruikbare inzichten die je helpen geïnformeerde, datagedreven beslissingen te nemen
- Extra context bieden om planning en verkoopprognoses nauwkeuriger te maken
- Toon kansen om kosten te besparen, onnodige kosten te verminderen en knelpunten en inefficiënties in processen weg te nemen
- Identificeer patronen die wijzen op fraude en spot kwetsbaarheden voordat ze worden benut
- Personaliseer marketing en verbeter de klantervaring dankzij een beter inzicht in klantgedrag
Hoe werkt data mining?
Simpel gezegd werkt datamining door machine learning, statistische analyse en andere analytische tools te gebruiken om grote sets ruwe data te analyseren en verborgen patronen te ontdekken die kunnen worden gebruikt om bruikbare inzichten te verkrijgen. De feitelijke technieken en stappen voor datamining zijn afhankelijk van het soort vragen dat wordt gesteld en de inhoud en organisatie van de database of datasets die de grondstof leveren voor het zoeken en analyseren. Dat gezegd hebbende, zijn er enkele stappen die een datamining proces meestal omvat.
Het 5-stappenproces van datamining
1. Verzameling van data:
- Definieer welk probleem of welk gebied van onderzoek je verkent.
- Bedenk welke soorten externe en interne factoren relevant kunnen zijn voor het onderwerp van je verkenning.
- Verzamel onbewerkte data uit verschillende bronnen, waaronder de database van je organisatie en externe gegevens die deel uitmaken van je activiteiten, zoals buitenverkoop- en servicegegevens, IoT-gegevens of social media-gegevens.
2. Voorbewerking van data:
- Controleer de databronnen die je hebt verzameld en zorg ervoor dat je de rechten hebt om toegang te krijgen tot en gebruik te maken van de externe gegevens, waaronder demografische gegevens, economische gegevens en marktgegevens, zoals branchetrends en financiële benchmarks van brancheorganisaties en overheden. Regels voor dataprivacy kunnen aanzienlijk variëren, afhankelijk van de regio en kunnen worden gewijzigd, dus dit is een cruciale stap.
- Betrek vakdeskundigen om te helpen bij het definiëren, categoriseren en ordenen van de data. Dit deel van het proces wordt soms data wrangling of data munging genoemd.
- Schoon de verzamelde data op, verwijder duplicatie, inconsistenties, onvolledige records of verouderde indelingen.
3. Modelbouw:
- Selecteer relevante algoritmen en technieken (zoals beslissingsstructuren, regressie of clustering, meer over data mining technieken hieronder).
- Train meerdere modellen op jouw voorverwerkte data of verfijn hun parameters om de prestaties te optimaliseren.
- Test de nauwkeurigheid van het model met behulp van validatietechnieken om betrouwbare prestaties op nieuwe data te garanderen.
- Vergelijk verschillende modelleringsbenaderingen en identificeer de beste optie voor je specifieke doelen.
4. Evaluatie:
- Beoordeel de betrouwbaarheid van modellen voor belangrijke meetwaarden, zoals nauwkeurigheid, precisie en foutenpercentages.
- Identificeer potentiële problemen zoals vooroordelen, overaanpassing of zorgen over datakwaliteit.
5. Interpretatie:
- Bepaal welke datafactoren het meeste effect hebben op voorspellingen en resultaten - dit helpt om belangrijke bevindingen aan je stakeholders uit te leggen.
- Afhankelijk van de teamstructuur moet je modelbevindingen mogelijk vertalen naar inzichten en rapporten of visualisaties bieden die resultaten duidelijk maken voor niet-technische besluitvormers en andere stakeholders in de hele organisatie.
- Formuleer specifieke, bruikbare aanbevelingen voor bedrijfsstrategie, operaties en processen op basis van de ontdekte patronen.
- Selecteer relevante meetwaarden en stel een plan op om het effect te meten van de implementatie van aanbevelingen die zijn afgeleid van data mining.
Belangrijkste data mining technieken
Classificatie
Een veelvoorkomende techniek voor data mining is het sorteren van nieuwe gegevens in vooraf gedefinieerde categorieën op basis van patronen die zijn geleerd van historische data: bijvoorbeeld klanten groeperen op basis van de vraag of ze waarschijnlijk zullen terugkeren door hun winkelpatronen, betalingshistorie en betrokkenheidsniveaus te analyseren. Dit zou niet alleen helpen belangrijke klantsegmenten te onderscheiden, maar ook je inzicht van je klantrelaties te verdiepen.
Anomaliedetectie
Anomaliedetectie is vooral belangrijk voor doelen als fraudepreventie, netwerkbeveiliging en identiteitsverificatie. Deze data mining kan bijvoorbeeld helpen om ongebruikelijke creditcardactiviteiten op te sporen die afwijken van het typische gebruik van een klant, op basis van factoren zoals onverwachte locaties, ongebruikelijke online aankopen of ongebruikelijk grote bedragen. Maar data mining methoden kunnen ook helpen nieuwe voorspellers te ontdekken die niet minder voor de hand liggen, wat ons naar de volgende data mining techniek brengt.
Clustering
Clustering is een data mining techniek gericht op het ontdekken van natuurlijke groepen op basis van overeenkomsten in data in plaats van vooraf gedefinieerde aannames (in tegenstelling tot classificatie), die uiteindelijk verborgen patronen en relaties onthullen. In het voorbeeld van de creditcard kan clustering extra markeringen voor verdachte activiteit onthullen. Historische gegevens van accounts die slachtoffer zijn geweest van fraudeurs, kunnen bijvoorbeeld aantonen dat een statistisch significant deel van hen een andere overeenkomst heeft: misschien hebben ze allemaal een patroon laten zien van kleine testaankopen bij een bepaalde handelaar, gevolgd door grote transacties. In de toekomst zou dit patroon kunnen worden gebruikt om frauduleuze activiteiten in realtime op te sporen.
Associatieregels
Een andere belangrijke data miningtechniek is associatieregelmining: het koppelen van twee schijnbaar niet-gerelateerde gebeurtenissen of activiteiten. Stel je voor dat je productplaatsing in een supermarkt wilt optimaliseren om de verkoop te maximaliseren. Je hebt geen data mining nodig om te speculeren dat klanten die luiers kopen waarschijnlijk ook andere babyproducten kopen, zoals babydoekjes. Maar deze dataminingtechniek kan andere, minder voor de hand liggende, cross-selling mogelijkheden ontdekken: misschien zul je merken dat klanten die in de zomer wegwerpbestek in voorraad hebben, ook vaker insectenspray en marshmallows kopen. Deze producten zouden normaal gesproken in verschillende producteilanden zitten, maar data mining kan wijzen op een seizoensgebonden winkelmissie: het krijgen van benodigdheden om tijd buiten door te brengen. In dit scenario zou de techniek van de data mining van de associatieregel de detailhandelaar helpen om deze seizoenskans te benutten.
Regressie
Een van de wiskundige dataminingtechnieken, regressie-analyse voorspelt een getal op basis van historische patronen. Het is een klassieke tool die in veel velden en contexten wordt gebruikt, waaronder verkoopprognoses, voorraadprijsvoorspellingen en financiële analyses.
Merk op dat dit slechts een paar van de meest voorkomende soorten datamining technieken zijn die vaak beschikbaar zijn in data mining toolkits.
Toepassingen en voorbeelden van datamining
Voorbeelden van datamining zijn sentimentanalyse, prijsoptimalisatie, databasemarketing, kredietrisicobeheer, training en ondersteuning, fraudedetectie, gezondheidszorg en medische diagnoses, risicobeoordeling, cross-selling en upselling-aanbevelingssystemen, en nog veel meer. En het kan een effectief instrument zijn in vrijwel elke branche, van retail en groothandel tot productie, gezondheidszorg en financiën.
Belangrijkste use cases van datamining
Productontwikkeling
Bedrijven die fysieke producten ontwerpen, maken of distribueren, kunnen datamining gebruiken om kansen te vinden om hun producten beter te richten door inkooppatronen in combinatie met economische en demografische gegevens te analyseren. Ontwerpers en ingenieurs kunnen ook klant- en gebruikersfeedback, reparatierecords en andere gegevens kruisen om mogelijkheden voor productverbetering te identificeren. En zakelijke besluitvormers kunnen zelfs kiezen welke nieuwe soorten producten ze willen introduceren op basis van wat klanten meestal samen met de huidige producten willen kopen.
Voorbeelden van datamining die wordt gebruikt om productontwikkeling te sturen:
- Analyse van inkoopdata van klanten onthult een associatie: bij het winkelen voor fitnesstrackers zullen klanten waarschijnlijk ook andere accessoires kopen, zoals waterflessen of trainingskleding. Dit biedt de fabrikant van fitness tracker de mogelijkheid om te beginnen met het aanbieden van waterflessen met merknaam of om samen te werken met een fitnesskledingmerk voor een exclusieve merklijn.
- Uit de gebruiksdata van een smart home-apparaat blijkt dat maar weinig klanten de premium functie van dit product gebruiken, terwijl uit klantenquêtes blijkt dat velen moeite hebben om te achterhalen welke knop de functie inschakelt. Het veranderen van het ontwerp van het apparaat om de knop merkbaarder te maken, kan meer klanten aanmoedigen om de premium functie te gebruiken en daardoor hun perceptie van de prijs-kwaliteitverhouding van het product verbeteren.
Productie
Fabrikanten kunnen kwaliteitstrends, reparatiegegevens, productiesnelheden en productprestatiegegevens uit het veld volgen om productieproblemen te identificeren. Ze kunnen ook mogelijke procesupgrades herkennen die de kwaliteit verbeteren, tijd en middelen besparen, de productprestaties verbeteren en wijzen op de behoefte aan nieuwe of betere fabrieksuitrusting.
Voorbeelden van datamining die wordt gebruikt om productieprocessen te optimaliseren:
- Analyse van de geschiedenis van serviceverzoeken laat zien dat incidenten met apparatuurstoringen pieken in de koude maanden, wat suggereert dat sommige apparatuur gevoelig kan zijn voor temperatuurschommelingen. Investeren in een betere temperatuurregeling op de werkvloer zou de uitvaltijd kunnen verminderen en tijd kunnen besparen voor buitendienstmonteurs.
- Nauwkeurige analyse van de historische vraag naar reserveonderdelen en andere gegevens met betrekking tot het aanbod, kan perioden van waarschijnlijke tekorten aan kritieke onderdelen voorspellen, waardoor fabrikanten vooraf voorraden kunnen opslaan.
Dienstverleningssectoren
In dienstverleningssectoren kunnen bedrijven vergelijkbare kansen voor serviceverbetering vinden door klantfeedback (direct of via sociale media of andere bronnen) te kruisen met specifieke services, kanalen, klantondersteuningscases, prestatiegegevens van collega's, regio, prijzen, demografische gegevens, economische gegevens en andere factoren.
Voorbeelden van datamining die worden gebruikt om klantpersonalisering in de servicesectoren te waarborgen:
- Door verwijzing naar klantgegevens, bezoekrecords en klantrelatie-instellingen ontdekt een zorgverlener dat de no-show-tarieven voor afspraken verschillen per leeftijdscategorie van klanten, afhankelijk van de kanalen die worden gebruikt voor afspraakherinneringen. Het personaliseren van communicatie over aanstaande bezoeken aan elke leeftijdsgroep zou dan meer klanten helpen om hun afspraken te maken.
- Uit een analyse van vragen over klantenondersteuning blijkt dat patiënten die een herhaalrecept van bepaalde soorten medicijnen verwachten, vaker contact opnemen met ondersteuning voor een statusupdate over de bijvulling. Als de zorgverlener deze patiënten proactief benadert met automatische navulmeldingen, kan deze gepersonaliseerde communicatie zowel de klanttevredenheid verbeteren als de belasting op de klantenondersteuning verminderen.
- Uit een analyse van de klantbetrokkenheid met een digitale abonnementsservice blijkt dat een daling in het gebruik voorspellend is voor het opzeggen van een abonnement binnen dertig dagen. Het opnieuw aanspreken van de gebruiker met aangepaste aanbevelingen, tips voor gebruiksoptimalisatie of zelfs gepersonaliseerde kortingen kan helpen om het gebruik en de waardeperceptie te verbeteren en uiteindelijk de klant te behouden.
Salesprognoses
Ongeacht de branche is datamining van onschatbare waarde voor verkoopprognoses en -planning. Datagedreven inzichten kunnen helpen om schommelingen in de vraag te anticiperen, marktanalyses te verfijnen, prijswijzigingen te voorspellen en nog veel meer.
Voorbeelden van datamining die wordt gebruikt om verkoopprognoses te verfijnen:
- Een verzekeringsmaatschappij analyseert een breed scala aan datasets, zowel intern als extern, en ontdekt dat de rijomstandigheden naar verwachting zullen verslechteren in een bepaalde periode waarin slecht weer wordt verwacht, en tegelijkertijd is er een tijdelijk tekort aan winterbanden. Deze informatie helpt hen om een nauwkeurigere prognose te maken voor hun verkoop van autoverzekeringen, op basis van de verwachte toename van de vraag.
- Een producent van een middenklasse consumentenproduct analyseert de markt en komt erachter dat verschillende concurrenten luxeproductlijnen introduceren die premium worden verkocht. Sommige van hun klanten zijn teleurgesteld over de verandering en besluiten hun bedrijf naar een andere locatie te verplaatsen, waarbij ze naar het aanbod in het middensegment kijken. Deze fabrikant kan zijn verkoopstrategie aanpassen om te proberen om deze klanten voor zich te winnen.
Fraudeherkenning
Datamining wordt veel gebruikt bij fraudedetectie – het bovenstaande voorbeeld van creditcard is slechts een van de vele fraudepreventie-toepassingen van datamining. De anomaliedetectietechniek helpt verdachte uitschieters te markeren, maar andere datamining methoden zijn ook nuttig, ze helpen om nieuwe patronen bloot te leggen en de preventiemaatregelen voor fraude voortdurend te verfijnen.
Voorbeelden van datamining die worden gebruikt om fraudedetectie te verbeteren:
- Een verkoper van digitale goederen ziet een patroon van ongebruikelijke aankopen op de accounts die vanaf een nieuwe locatie worden geopend. Om ongeautoriseerde toegang tot accounts te verminderen, kan het bedrijf contact opnemen met accounthouders wanneer een dergelijk patroon optreedt, deze transacties markeren en bieden een eenvoudige manier om aankopen te annuleren of een accountbeveiliging bij te werken.
- Een organisatie kan een model trainen om phishing e-mails uit te filteren met behulp van de classificatie dataminingtechniek om bepaalde linguïstische markers (urgentie taal, spelling fouten, enz.) te associëren met het “phishing” label en te voorkomen dat die zelfs de inbox van de gebruikers bereiken.
Voordelen en uitdagingen van datamining
De meeste nadelen van datamining worden gecompenseerd door de voordelen, maar er zijn bepaalde uitdagingen van datamining waar organisaties zich bewust van moeten zijn.
Big data
Voordeel: er worden steeds meer data gegenereerd, waardoor steeds meer mogelijkheden worden geboden voor datamining en daardoor betere besluitvorming.
Uitdaging: Vanwege het hoge volume, de hoge snelheid en de grote verscheidenheid aan datastructuren, evenals de toenemende prevalentie van ongestructureerde data, hebben bestaande systemen moeite om deze stroom van input te verwerken, op te slaan en te gebruiken. Dus om betekenis uit Big Data te halen, hebben bedrijven geschikte, krachtige software nodig.
Gebruikerscompetentie
Voordeel: tools voor datamining en -analyse kunnen gebruikers en andere belanghebbenden helpen beter geïnformeerde, datagedreven beslissingen te nemen.
Uitdaging: Hoewel tools die worden gebruikt voor datamining veel gebruiksvriendelijker zijn geworden, kost het wel enige training om ze ten volle te benutten. Gebruikers moeten begrijpen welke data beschikbaar zijn, moeten ten minste een algemeen beeld hebben van hoe data mining werkt, en bekwaam zijn in de bedrijfscontext, evenals zorgen over regelgeving en compliance rond het gebruik van data, wat allemaal enige gebruikersopleiding vereist.
Dataprivacy en regelgevend toezicht
Voordeel: personalisering op basis van datagedreven inzichten kan de klantervaring verbeteren.
Uitdaging: Data, en met name gebruikersdata van particulieren, zijn onderworpen aan wettelijk toezicht. De feitelijke procedures en voorschriften op het gebied van gegevensbescherming verschillen echter per regio en zijn nog steeds vatbaar voor veranderingen, dus het kan een uitdaging zijn voor organisaties die gegevens verwerken om bij te blijven.
Kwaliteit en beschikbaarheid van data
Voordeel: Toenemend grote hoeveelheden en verscheidenheid aan beschikbare data maken data mining belangrijker dan ooit.
Uitdaging: Met volumes nieuwe data zijn er ook massa's van onvolledige, onjuiste, misleidende, frauduleuze, beschadigde of gewoon nutteloze data. Gebruikers moeten altijd op de hoogte zijn van de bron van de data, de geloofwaardigheid en betrouwbaarheid ervan, en zorgen met betrekking tot privacy en databescherming; en organisaties moeten verantwoordelijk nemen voor de bescherming van hun eigen data, én die van hun klanten, tegen datalekken en andere vormen van misbruik.
Datamining versus gerelateerde concepten
Datamining versus machine learning
Het verschil tussen datamining en machine learning is dat machine learning een set tools en algoritmen is die getraind zijn om patronen en correlaties te vinden in grote datasets, terwijl datamining het proces is waarbij nuttige informatie wordt gehaald uit een verzameling van data. Machine learning is een van de tools die in datamining wordt gebruikt om voorspellende modellen te bouwen, maar datamining is niet de enige applicatie van machine learning.
Datamining versus analytics
Er is een subtiel verschil tussen datamining en data analytics. Dataanalyse of -analyse zijn algemene termen voor het brede geheel aan praktijken die zijn gericht op het identificeren van nuttige informatie, het evalueren ervan en het geven van specifieke antwoorden. Datamining is een type data-analyse dat is gericht op het graven in grote, gecombineerde sets van data om patronen, trends en relaties te ontdekken die kunnen leiden tot inzichten en voorspellingen.
Datamining versus data science
Data science is niet hetzelfde als datamining, maar de concepten zijn gerelateerd. Data science is een term die veel informatietechnologieën omvat, waaronder statistieken, wiskunde en geavanceerde computertechnieken zoals toegepast op gegevens. Datamining is een use case voor data science gericht op de analyse van grote datasets uit een breed scala aan bronnen met als doel nuttige inzichten te ontdekken.
Datamining versus datawarehouse
Een datawarehouse is een verzameling gegevens, meestal uit meerdere bronnen (ERP, CRM, enzovoort) die een bedrijf samenbrengt in een datawarehouse voor archivering en brede analyses, zoals datamining.
Veelgestelde vragen
SAP PRODUCT
Vergroot de waarde van AI met data
Profiteer van je data voor betrouwbare en schaalbare prestaties met SAP Business Data Cloud.