Vad är datautvinning?
Data mining är extraktion av användbar information från stora dataset, med hjälp av maskininlärning och andra verktyg för att upptäcka mönster, anomalier och insikter för beslutsfattande.
default
{}
default
{}
primary
default
{}
secondary
Data mining-översikt
I denna digitala tidsålder ackumulerar organisationer naturligtvis allt större datavolymer, och många chefer ser det idag som en skatt av handlingskraftiga insikter. Så vad är datautvinning och hur underlättar det extrahering av värdefull information från datamängder? Data mining är processen att upptäcka användbar information från en ackumulering av data, ofta från ett datalager eller en samling länkade dataset. Datautvinning kan omfatta maskininlärning, statistisk analys och andra kraftfulla analysverktyg som används för att sålla igenom stora uppsättningar data för att identifiera trender, dolda mönster, avvikelser och relationer för att stödja välgrundat beslutsfattande och planering.
En av de mindre uppenbara fördelarna med datautvinning – och en stor anledning till att datautvinning är viktig idag – är att den förvandlar ackumuleringen av data, som ofta åtföljer digitaliseringen, till en fördel. I takt med att organisationer i allt högre grad moderniserar och digitaliserar sin verksamhet tenderar de att generera och ackumulera mer och mer data. Så för ett stort företag som har massiva datamängder erbjuder datautvinning ett effektivt sätt att använda en mängd information som de redan har.
Varför är datautvinning viktigt?
Datautvinning är viktigt eftersom det omvandlar organisationens data till en nyckelkomponent i business intelligence. Verktyg för datautvinning är inbyggda i exekutiva instrumentpaneler och fångar upp insikter från stora data, inklusive data från sociala medier, IoT-sensorflöden, platsmedvetna enheter, ostrukturerad text, video med mera. Modern datautvinning bygger på molnet och virtuell databehandling, samt in-memory-databaser, för att hantera data från många källor kostnadseffektivt och för att skala på begäran.
Så, vilken typ av affärsvärde kan datautvinning leverera? Den främsta fördelen med datautvinning är dess förmåga att identifiera mönster och relationer i stora volymer av data från flera källor, inklusive sociala medier, fjärrsensorer och annan övervakningsutrustning, allt mer detaljerade rapporter om produktrörelser och marknadsaktivitet, och, framför allt, applikationer och annan programvara som används av organisationen.
Det betyder två saker. Datautvinning kan hjälpa människor i olika roller, över branscher, att tänka utanför boxen genom att utnyttja ett brett spektrum av källor och avslöja otydliga relationer och mönster i till synes orelaterad information. Detta gör datautvinning viktigt för stora organisationer, särskilt företag där information tenderar att vara uppdelad – siloed.
Dessutom sträcker sig fördelarna med datautvinning inte bara till försäljning utan även till andra affärsområden: tack vare denna kapacitet för att bryta ner siloes kan den stärka ett brett spektrum av roller. Ingenjörer och konstruktörer kan analysera effektiviteten av produktförändringar och leta efter möjliga orsaker till produktframgång eller misslyckande. Service- och reparationsarbeten kan bättre planera reservdelsinventering och bemanning. Professionella serviceorganisationer kan använda datautvinning för att identifiera nya möjligheter som skapats av förändrade ekonomiska trender och demografiska förändringar. Datautvinning kan till och med hjälpa till att upptäcka bedrägerier, särskilt inom branscher som finans, detaljhandel och hälso- och sjukvård.
Med andra ord spänner de potentiella fördelarna med datautvinning över hela spektrumet av affärsfunktioner: från att bidra till att öka intäkterna och minska kostnaderna till att förbättra kundrelationerna, förhindra bedrägerier och finjustera försäljningsprognoserna.
Datautvinning är viktigt eftersom det kan ge betydande affärsvärde för en rad mål – till exempel:
- Producera handlingskraftiga insikter som hjälper till att fatta välgrundade, datadrivna beslut
- Tillhandahåll ytterligare kontext för att göra planering och försäljningsprognoser mer korrekta
- Visa möjligheter att minska kostnader, minska onödiga utgifter och undanröja flaskhalsar och ineffektivitet i processer
- Identifiera mönster som tyder på bedrägeri och upptäcka sårbarheter innan de utnyttjas
- Personanpassa marknadsföring och förbättra kundupplevelsen tack vare fördjupad förståelse för kundernas beteenden
Hur fungerar datautvinning?
Enkelt uttryckt fungerar data mining genom att använda maskininlärning, statistisk analys och andra analytiska verktyg för att parsa stora uppsättningar rådata och upptäcka dolda mönster som kan användas för att få utförbara insikter. De faktiska datautvinningsteknikerna och stegen beror på den typ av frågor som ställs och innehållet och organisationen av databasen eller datamängderna som tillhandahåller råmaterialet för sökning och analys. Som sagt, det finns några steg som en datautvinningsprocess vanligtvis involverar.
5-stegsprocessen för datautvinning
1. Datainsamling:
- Definiera vilket problem eller område för förfrågan du utforskar.
- Tänk på vilka typer av externa och interna faktorer som kan vara relevanta för ämnet för din utforskning.
- Samla in rådata från olika källor, inklusive organisationens databas och externa data som ingår i din verksamhet, som fältförsäljnings- och servicedata, IoT eller data från sociala medier.
2. Förbearbetning av data:
- Granska de datakällor du har samlat in och se till att du har rätt att få åtkomst till och använda externa data, inklusive demografi, ekonomiska data och marknadsinformation, såsom branschtrender och finansiella riktmärken från branschorganisationer och myndigheter. Dataskyddsregler kan variera avsevärt beroende på region och kan ändras, så detta är ett viktigt steg.
- Engagera ämnesexperter för att definiera, kategorisera och organisera data – den här delen av processen kallas ibland datagramning eller datamängdning.
- Rensa insamlade data, ta bort dubbletter, inkonsistenser, ofullständiga poster eller inaktuella format.
3. Modellbyggnad:
- Välj relevanta algoritmer och tekniker (till exempel beslutsträd, regression eller klustring – mer om datautvinningstekniker nedan).
- Träna flera modeller på dina förbearbetade data eller finjustera deras parametrar för att optimera prestanda.
- Testmodellens noggrannhet med hjälp av valideringstekniker för att säkerställa tillförlitlig prestanda på nya data.
- Jämför olika modelleringsmetoder och identifiera det bästa alternativet för dina specifika mål.
4. Utvärdering:
- Bedöm modellens tillförlitlighet över nyckelmått som noggrannhet, precision och felfrekvens.
- Identifiera potentiella problem som partiskhet, överlappning eller datakvalitetsproblem.
5. Tolkning:
- Identifiera vilka datafaktorer som har störst effekt på prognoser och resultat – detta hjälper dig att förklara viktiga resultat för intressenterna.
- Beroende på teamstruktur kan du behöva översätta modellresultat till insikter och tillhandahålla rapporter eller visualiseringar som gör resultaten tydliga för icke-tekniska beslutsfattare och andra intressenter i hela organisationen.
- Formulera specifika, utförbara rekommendationer för affärsstrategi, operationer och processer baserat på de upptäckta mönstren.
- Välj relevanta mått och upprätta en plan för att mäta effekten av att implementera rekommendationer härledda från data mining.
Viktiga datautvinningstekniker
Klassificering
En vanlig data mining teknik innebär sortering av nya data i fördefinierade kategorier baserat på mönster som lärts från historiska data: till exempel gruppering av kunder baserat på om de sannolikt kommer att återvända genom att analysera sina köpmönster, betalningshistorik och engagemangsnivåer. Detta skulle inte bara hjälpa till att urskilja viktiga kundsegment utan också fördjupa din förståelse för dina kundrelationer.
Avvikelsedetektering
Avvikelsedetektering är särskilt viktigt för mål som bedrägeribekämpning, nätverkssäkerhet och identitetsverifiering. Den här datautvinningstekniken kan till exempel hjälpa till att upptäcka ovanliga kreditkortsaktiviteter som avviker från en kunds typiska användning, baserat på faktorer som oväntade platser, ovanliga onlineköp eller okarakteristiskt stora belopp. Men datautvinningsmetoder kan också hjälpa till att upptäcka nya prediktorer som inte är lika självklara, vilket för oss till nästa datautvinningsteknik.
Klustring
Klustring är en datautvinning teknik som syftar till att upptäcka naturliga grupperingar baserade på likheter i data snarare än fördefinierade antaganden (i motsats till klassificering), i slutändan avslöja dolda mönster och relationer. I kreditkortsexemplet kunde klustring avslöja ytterligare flaggor för misstänkt aktivitet. Till exempel kan historiska data från konton som har drabbats av bedragare avslöja att en statistiskt signifikant andel av dem delar en annan likhet: kanske har de alla visat ett mönster av små testköp från en viss handlare, följt av stora transaktioner. Sedan, i framtiden, kan detta mönster användas för att upptäcka bedräglig aktivitet i realtid.
Associationsregler
En annan viktig datautvinningsteknik är associationsregelbrytning: att koppla samman två till synes orelaterade händelser eller aktiviteter. Föreställ dig att du försöker optimera produktplacering i ett snabbköp för att maximera försäljningen. Det krävs inte datautvinning för att spekulera i att kunder som köper blöjor också sannolikt köper andra babyprodukter, till exempel barnservetter. Men denna datautvinningsteknik kan upptäcka andra, mindre uppenbara, korsförsäljningsmöjligheter: kanske kommer du att märka att kunder som lagerför engångsbestick på sommaren också är mer benägna att köpa insektsmedel och marshmallow. Dessa produkter skulle normalt vara i olika produktöar, men datautvinning kan peka på ett säsongsmässigt köpuppdrag: att få leveranser för att spendera tid utomhus. I detta scenario skulle tekniken för associationsregeldatautvinning hjälpa återförsäljaren att utnyttja denna säsongsmöjlighet.
Regression
En av de matematiska datautvinningsteknikerna, regressionsanalys förutspår ett tal baserat på historiska mönster. Det är ett klassiskt verktyg som används inom många områden och kontexter, inklusive försäljningsprognoser, lagerprisprognoser och finansiell analys.
Observera att dessa är bara några av de vanligaste typerna av datautvinning tekniker som ofta finns i data mining verktygspaket.
Tillämpningar och exempel på datautvinning
Användningsfall av datautvinning inkluderar attitydanalys, prisoptimering, databasmarknadsföring, kreditriskhantering, utbildning och support, bedrägeridetektering, hälso- och sjukvårdsdiagnoser, riskbedömning, korsförsäljning och uppförsäljning rekommendationssystem, och mycket mer. Och det kan vara ett effektivt verktyg i nästan vilken bransch som helst, från detaljhandel och partihandel till tillverkning, sjukvård och finans.
Viktiga användningsfall för datautvinning
Produktutveckling
Företag som designar, tillverkar eller distribuerar fysiska produkter kan använda datautvinning för att identifiera möjligheter att bättre rikta sina produkter genom att analysera inköpsmönster i kombination med ekonomiska och demografiska data. Konstruktörer och ingenjörer kan också korsreferera kund- och användaråterkoppling, reparationsposter och andra data för att identifiera produktförbättringsmöjligheter. Företagets beslutsfattare kan även välja vilka nya typer av produkter som ska introduceras baserat på vad kunderna vanligtvis ser ut att köpa tillsammans med de aktuella produkterna.
Exempel på data mining som används för att vägleda produktutveckling:
- Analys av kundens inköpsdata avslöjar en förening: vid köp av fitness-trackers kommer kunderna också sannolikt att köpa andra tillbehör, som vattenflaskor eller träningskläder. Detta innebär en möjlighet för fitness-tracker-tillverkaren att börja erbjuda vattenflaskor eller att samarbeta med ett varumärke för träningskläder för en exklusiv klädkollektion.
- Användningsdata för smarta hemenheter visar att väldigt få kunder använder produktens premiumfunktion medan kundundersökningar visar att många har svårt att identifiera vilken knapp som aktiverar funktionen. Att ändra enhetens design för att göra knappen mer märkbar kan uppmuntra fler kunder att använda premiumfunktionen och därmed förbättra deras uppfattning om produktens värde för pengarna.
Tillverkning
Tillverkare kan spåra kvalitetstrender, reparationsdata, produktionstakt och produktprestandadata från fältet för att identifiera produktionsproblem. De kan också identifiera möjliga processuppgraderingar som skulle förbättra kvaliteten, spara tid och resurser, förbättra produktprestanda och peka på behovet av ny eller bättre fabriksutrustning.
Exempel på data mining som används för att optimera tillverkningsprocesser:
- Analys av historik över serviceanmodanden visar att incidenter av felfunktion av utrustning spikar under de kalla månaderna, vilket tyder på att viss utrustning kan vara känslig för temperaturfluktuationer. Att investera i bättre temperaturreglering på verkstadsgolvet kan minska stilleståndstiden och spara tid för fälttekniker.
- Korrekt analys av den historiska efterfrågan på reservdelar och andra uppgifter om utbudet kan förutsäga perioder av sannolika brister på kritiska delar, vilket gör det möjligt för tillverkarna att lagra i förväg.
Tjänstesektorn
Inom tjänstesektorn kan företag hitta liknande möjligheter till serviceförbättring genom att korshänvisa kundfeedback (direkt eller från sociala medier eller andra källor) med specifika tjänster, kanaler, kundsupportärenden, peer performance data, region, prissättning, demografi, ekonomiska data och andra faktorer.
Exempel på data mining som används för att säkerställa kundanpassning i servicebranscherna:
- Genom att korshänvisa kunddata, besöksregister och kundrelationsinställningar upptäcker en vårdgivare att andelen uteblivna möten skiljer sig åt mellan olika kundåldersgrupper, beroende på vilka kanaler som används för påminnelser om möten. Att anpassa kommunikationen om kommande besök i varje åldersgrupp skulle då hjälpa fler kunder att ta sig till sina möten.
- Analys av kundsupportfrågor visar att patienter som förväntar sig påfyllning av vissa typer av läkemedel är mer benägna att kontakta support för en statusuppdatering på påfyllningen. Om vårdgivaren proaktivt riktar in sig på dessa patienter med automatiska påfyllningsmeddelanden kan denna personliga kommunikation både förbättra kundnöjdheten och minska belastningen på kundsupporten.
- Analys av kundengagemang med en digital abonnemangstjänst visar att en viss minskning av användningen är förutsägande för uppsägning av abonnemang inom trettio dagar. Återaktivera användaren med anpassade rekommendationer, tips för användningsoptimering eller till och med personanpassade rabatter kan bidra till att förbättra användnings- och värdeuppfattningen och i slutändan behålla kunden.
Försäljningsprognos
Oavsett bransch är datautvinning ovärderligt för försäljningsprognoser och planering. Datadrivna insikter kan hjälpa till att förutse fluktuationer i efterfrågan, förfina marknadsanalys, förutsäga prisförändringar och så mycket mer.
Exempel på datautvinning som används för att förfina försäljningsprognoser:
- Ett försäkringsbolag analyserar ett brett spektrum av datamängder, både interna och externa, och upptäcker att körförhållandena beräknas förvärras under en viss period när dåligt väder förväntas – och samtidigt finns det en tillfällig brist på vinterdäck. Denna information hjälper dem att göra en mer exakt prognos för sin bilförsäkringsförsäljning, baserat på förväntad efterfrågeökning.
- En tillverkare av en mellanstor konsumentprodukt analyserar marknaden och får reda på att flera konkurrenter inför lyxproduktlinjer som säljs till en premie. Några av deras kunder är besvikna över förändringen och bestämmer sig för att ta sin verksamhet någon annanstans, och tittar på erbjudanden på mellannivå. Den här tillverkaren kan justera sin försäljningsstrategi för att försöka utnyttja denna möjlighet för att vinna över dessa kunder.
Upptäckt av bedrägeri
Datautvinning används ofta för att upptäcka bedrägerier – kreditkortsexemplet ovan är bara ett av många bedrägeriförebyggande fall av datautvinning. Tekniken för upptäckt av avvikelser hjälper till att flagga misstänkta avvikande värden, men även andra datautvinningsmetoder är användbara, vilket hjälper till att upptäcka nya mönster och kontinuerligt förfina bedrägeriförebyggande åtgärder.
Exempel på datautvinning som används för att förbättra upptäckten av bedrägerier:
- En digital varuförsäljare ser ett mönster av ovanliga inköp på de konton som nås från en ny plats. För att minska obehörig kontoåtkomst kan företaget kontakta kontoinnehavare när ett sådant mönster uppstår, flagga dessa transaktioner och erbjuda ett enkelt sätt att avbryta köp eller uppdatera kontosäkerhet.
- En organisation kan träna en modell för att filtrera bort phishing-e-post med hjälp av klassificeringsdata gruvteknik för att associera vissa språkliga markörer (brådskande språk, stavfel, etc.) med etiketten ”phishing” och hindra dem från att ens nå användarnas inkorg.
Fördelar och utmaningar med datautvinning
De flesta nackdelarna med datautvinning uppvägs av dess fördelar, men det finns vissa utmaningar med datautvinning som organisationer behöver vara medvetna om.
Stora data
Fördel: Mer och mer data genereras, vilket ger allt fler möjligheter till datautvinning och därmed bättre beslutsfattande.
Utmaning: På grund av den höga volymen, höga hastigheten och de många olika datastrukturerna, samt den ökande förekomsten av ostrukturerad data, kämpar befintliga system för att hantera, lagra och använda denna översvämning av input. Så, för att extrahera mening från Big Data, företag behöver lämplig, kraftfull programvara.
Användarkompetens
Fördel: Verktyg för datautvinning och analys kan hjälpa användare och andra intressenter att fatta bättre informerade, datadrivna beslut.
Utmaning: Även om verktyg som används för datautvinning har blivit mycket mer användarvänliga, krävs det viss träning för att använda dem till sin fulla potential. Användare måste förstå vilka data som är tillgängliga, har åtminstone en allmän uppfattning om hur datautvinning fungerar, och vara skickliga i affärskontexten, liksom regulatoriska och efterlevnadsfrågor kring användningen av data - som alla kräver viss användarutbildning.
Dataskydd och tillsyn
Fördel: Personanpassning aktiverad av datadrivna insikter kan förbättra kundupplevelsen.
Utmaning: Data, och särskilt användardata som tillhör privatpersoner, är föremål för tillsyn. De faktiska metoderna och reglerna för dataskydd varierar dock beroende på region och är fortfarande benägna att ändras, så det kan vara utmanande – men ändå avgörande – för organisationer som hanterar data att hålla jämna steg med.
Datakvalitet och tillgänglighet
Fördel: Allt större volymer och allt fler tillgängliga data gör datautvinning viktigare än någonsin.
Utmaning: Med volymer av nya data finns det också massor av ofullständiga, felaktiga, vilseledande, bedrägliga, skadade eller helt enkelt värdelösa data. Användare måste alltid vara medvetna om källan till data, dess trovärdighet och tillförlitlighet samt integritets- och dataskyddsfrågor; och organisationer måste vara ansvariga för att skydda sina, såväl som sina kunders, data från överträdelser och annan felaktig hantering.
Data mining kontra relaterade koncept
Data mining kontra maskininlärning
Skillnaden mellan datautvinning och maskininlärning är att maskininlärning är en uppsättning verktyg och algoritmer som tränats för att hitta mönster och korrelationer i stora dataset, medan datautvinning är processen att extrahera användbar information från en ackumulering av data. Maskininlärning är ett av de verktyg som används i data mining för att bygga prediktiva modeller, men det är inte det enda och inte heller datautvinning den enda tillämpningen av maskininlärning.
Data mining kontra analys
Det finns en subtil skillnad mellan datautvinning och dataanalys. Dataanalys eller analys är allmänna termer för den breda uppsättningen metoder som fokuserar på att identifiera användbar information, utvärdera den och ge specifika svar. Data mining är en typ av dataanalys som fokuserar på att gräva i stora, kombinerade uppsättningar data för att upptäcka mönster, trender och relationer som kan leda till insikter och förutsägelser.
Data mining kontra datavetenskap
Datavetenskap är inte samma sak som datautvinning, men begreppen är relaterade. Datavetenskap är en term som omfattar många informationsteknologier inklusive statistik, matematik och sofistikerade beräkningstekniker som tillämpas på data. Data mining är ett användningsfall för datavetenskap som fokuserar på analys av stora datamängder från ett brett spektrum av källor med målet att upptäcka användbara insikter.
Data mining jämfört med datalager
Ett datalager är en insamling av data, vanligtvis från flera källor (ERP, CRM och så vidare) som ett företag kommer att kombinera till lagret för arkivlagring och brett baserade analyser – som datautvinning.
Vanliga frågor
SAP PRODUCT
Förstärk värdet av AI med data
Dra nytta av dina data för att ge tillförlitlig och skalbar prestanda med SAP Business Data Cloud.