Vad är datautvinning?
Data mining är processen att använda avancerade analysverktyg för att extrahera användbar information från en ackumulering av data.
Data mining-översikt
Data mining är processen för att extrahera användbar information från en ackumulering av data, ofta från ett datalager eller insamling av länkade dataset. Data mining-verktyg inkluderar kraftfulla statistiska, matematiska och analytiska funktioner vars främsta syfte är att genom stora uppsättningar data identifiera trender, mönster och relationer för att stödja välgrundat beslutsfattande och planering.
Data mining ses ofta av många chefer som ett sätt att hjälpa dem att bättre förstå efterfrågan och se den effekt som förändringar i produkter, prissättning eller kampanjer har på försäljningen. Men datautvinning har stora fördelar även för andra affärsområden. Ingenjörer och designers kan analysera effektiviteten av produktförändringar och leta efter möjliga orsaker till produktframgång eller misslyckande relaterade till hur, när och var produkter används. Service- och reparationsoperationer kan bättre planera reservdelslager och bemanning. Professionella serviceorganisationer kan använda Data mining för att identifiera nya möjligheter från förändrade ekonomiska trender och demografiska förändringar.
Data mining blir mer användbart och värdefullt med större dataset och med mer användarupplevelse. Logiskt sett, ju mer data, desto mer insikter och intelligens bör begravas där. Dessutom, när användarna blir mer bekanta med verktygen och bättre förstår databasen, desto mer kreativa kan de vara med sina utforskningar och analyser.
Varför använda data mining?
Den främsta fördelen med datautvinning är dess förmåga att identifiera mönster och relationer i stora mängder data från flera källor. Med allt fler tillgängliga data – från så olika källor som sociala medier, fjärrsensorer och allt mer detaljerade rapporter om produktrörelser och marknadsaktivitet – erbjuder datautvinning verktyg för att fullt ut utnyttja Big Data och omvandla det till genomförbar intelligens. Dessutom kan det fungera som en mekanism för att ”tänka utanför boxen”.
Data mining-processen kan upptäcka överraskande och spännande relationer och mönster i till synes orelaterade bitar av information. Eftersom information tenderar att vara splittrad har det historiskt varit svårt eller omöjligt att analysera som helhet. Det kan dock finnas ett samband mellan externa faktorer – kanske demografiska eller ekonomiska faktorer – och ett företags produkters prestanda. Och medan chefer regelbundet tittar på försäljningsnummer per område, produktlinje, distributionskanal och region, saknar de ofta extern kontext för denna information. Deras analys pekar ut “vad som hände” men gör inte mycket för att avslöja ”varför det hände på det här sättet”. Data mining kan fylla denna lucka.
Data mining kan söka efter samband med externa faktorer, medan korrelation inte alltid indikerar orsakssamband, men dessa trender kan vara värdefulla indikatorer för att vägleda produkt-, kanal- och produktionsbeslut. Samma analys gynnar andra delar av verksamheten från produktdesign till operativ effektivitet och leverans av tjänster.
Historik för datautvinning
Människor har samlat in och analyserat data i tusentals år och på många sätt har processen förblivit densamma: identifiera den information som behövs, hitta datakällor av hög kvalitet, samla in och kombinera data, använda de mest effektiva verktygen för att analysera data och utnyttja det du har lärt dig. I takt med att data- och databaserade system har vuxit och avancerat, så har verktygen för att hantera och analysera data. Den verkliga böjningspunkten kom på 1960-talet i och med utvecklingen av relationsdatabasteknik och användarorienterade frågeverktyg för naturligt språk som Strucated Query Language (SQL). Inte längre var data endast tillgängliga via anpassade kodade program. Med detta genombrott kunde företagsanvändare interaktivt utforska sina data och ta fram de dolda pärlorna av intelligens begravda inuti.
Data mining har traditionellt varit en specialkompetens inom datavetenskap. Varje ny generation av analysverktyg börjar dock kräva avancerade tekniska färdigheter, men utvecklas snabbt för att bli tillgänglig för användarna. Interaktivitet – förmågan att låta data tala med dig – är det viktigaste avancemanget. Ställ en fråga, se svaret. Baserat på vad du lär dig, ställ en annan fråga. Denna typ av ostrukturerad roaming genom data tar användaren bortom gränserna för den applikationsspecifika databasdesignen och möjliggör upptäckt av relationer som överskrider funktionella och organisatoriska gränser.
Data mining är en nyckelkomponent i business intelligence. Data mining-verktyg är inbyggda i exekutiva instrumentpaneler, skördar insikter från Big Data, inklusive data från sociala medier, Internet of Things (IoT) sensorflöden, platsmedvetna enheter, ostrukturerad text, video med mera. Modern datautvinning är beroende av molnet och virtuella datorer, liksom in-memory-databaser, för att hantera data från många källor kostnadseffektivt och skala på begäran.
Hur fungerar data mining?
Det finns ungefär lika många metoder för datautvinning som det finns datautvinning. Metoden beror på vilken typ av frågor som ställs och innehållet i och organisationen av databasen eller dataset som tillhandahåller råmaterialet för sökning och analys. Det finns dock några organisatoriska och förberedande steg som bör slutföras för att förbereda data, verktyg och användare:
- Förstå problemet – eller åtminstone utredningsområdet. Beslutsfattaren, som bör sitta i förarsätet för denna data mining off-road äventyr, behöver en allmän förståelse för den domän de kommer att arbeta i – de typer av interna och externa data som ska vara en del av denna utforskning. Det antas att de har intim kunskap om verksamheten och de funktionsområden som är inblandade.
- Datainsamling. Börja med dina interna system och databaser. Länka dem genom sina datamodeller och olika relationsverktyg eller samla ihop data till ett datalager. Detta inkluderar alla data från externa källor som ingår i din verksamhet, som fältförsäljnings- och/eller tjänstedata, IoT eller sociala mediedata. Söka efter och förvärva rättigheter till externa data, inklusive demografi, ekonomiska data och marknadsinformation, såsom branschtrender och finansiella riktmärken från branschorganisationer och regeringar. Ta med dem i verktygssatsens purview (ta med dem till ditt datalager eller länka dem till data mining-miljö).
- Förberedelse och förståelse av data. Använd ditt företags ämnesexperter för att definiera, kategorisera och organisera data. Denna del av processen kallas ibland datagräning eller mungning. Vissa data kan behöva rensas eller "rensas" för att ta bort dubbletter, inkonsistenser, ofullständiga poster eller inaktuella format. Förberedelse och rensning av data kan vara en pågående uppgift i takt med att nya projekt eller data från nya undersökningsområden blir av intresse.
- Användarutbildning. Du skulle inte ge din tonåring nycklarna till familjen Ferrari utan att låta dem gå igenom förarens utbildning, utbildning på väg, och viss övervakad praxis med en licensierad förare – så se till att ge formell utbildning till dina framtida datautöpare samt viss övervakad praxis när de börjar bekanta sig med dessa kraftfulla verktyg. Fortbildning är också en bra idé när de har behärskat grunderna och kan gå vidare till mer avancerade tekniker.
Datautvinningstekniker
Tänk på att datautvinning baseras på en verktygssats snarare än en fast rutin eller process. Specifika datautvinningstekniker som nämns här är bara exempel på hur verktygen används av organisationer för att utforska deras data i sökandet efter trender, korrelationer, intelligens och affärsinsikter.
Generellt sett kan datautvinningsmetoder kategoriseras som riktade – fokuserade på ett specifikt önskat resultat – eller omdirigerade som en upptäcktsprocess. Andra utforskningar kan syfta till att sortera eller klassificera data, till exempel gruppera potentiella kunder efter affärsattribut som bransch, produkter, storlek och plats. En liknande objektiv, outlier eller anomali upptäckt, är en automatiserad metod för att känna igen verkliga anomalier (snarare än enkel variabilitet) inom en uppsättning data som visar identifierbara mönster.
Association
Ett annat intressant mål är förening – att knyta samman två till synes orelaterade evenemang eller aktiviteter. En klassisk historia från de tidiga dagarna av analys och datautvinning, kanske fiktiv, har en närbutik kedja som upptäcker en korrelation mellan försäljning av öl och blöjor. Spekulerar över att plågade nya pappor som springer ut sent på kvällen för att få blöjor kan ta ett par sex-pack medan de är där. Butikerna placerar ölen och blöjorna på nära håll och ökar därmed ölförsäljningen.
Klustring
Denna metod syftar till att gruppera data efter likheter snarare än förutbestämda antaganden. När du till exempel utvinner din kundförsäljningsinformation i kombination med externa konsumentkrediter och demografiska data kan du upptäcka att dina mest lönsamma kunder kommer från medelstora städer. En stor del av tiden bedrivs datautvinning som stöd för prognostisering eller prognostisering. Ju bättre du förstår mönster och beteenden, desto bättre jobb kan du göra för att förutse framtida åtgärder relaterade till orsakssamband eller korrelationer.
Regression
En av de matematiska tekniker som erbjuds i verktygssatser för datautvinning förutsäger regressionsanalys ett antal baserat på historiska mönster som projiceras in i framtiden. Olika andra algoritmer för mönsterdetektering och spårning ger flexibla verktyg för att hjälpa användare att bättre förstå data och det beteende den representerar. Detta är bara några av de tekniker och verktyg som finns i verktygssatser för datautvinning. Valet av verktyg eller teknik är något automatiserat genom att teknikerna kommer att tillämpas utifrån hur frågan ställs. Tidigare benämndes datautvinning som ”skärning och diktering” av databasen, men bruket är mer sofistikerat nu och begrepp som förening, klustring och regression är vanligt förekommande.
Användningsfall och exempel
Data mining är nyckeln till attitydanalys, prisoptimering, databasmarknadsföring, kreditriskhantering, utbildning och support, bedrägeridetektering, hälso- och sjukvård och medicinska diagnoser, riskbedömning, rekommendationssystem (”kunder som köpte detta också gillade...”), och mycket mer. Det kan vara ett effektivt verktyg i nästan vilken bransch som helst, inklusive detaljhandel, partihandel, tjänstesektorer, telekom, kommunikation, försäkringar, utbildning, tillverkning, sjukvård, bank, vetenskap, teknik och onlinemarknadsföring eller sociala medier.
Produktutveckling: Företag som designar, tillverkar eller distribuerar fysiska produkter kan identifiera möjligheter att bättre rikta sina produkter genom att analysera inköpsmönster i kombination med ekonomiska och demografiska data. Deras konstruktörer och ingenjörer kan också korsreferera kund- och användarfeedback, reparationsposter och andra data för att identifiera produktförbättringsmöjligheter.
Tillverkning: Tillverkare kan spåra kvalitetstrender, reparationsdata, produktionstakt och produktprestandadata från fältet för att identifiera produktionsproblem. De kan också känna igen möjliga processuppgraderingar som skulle förbättra kvaliteten, spara tid och kostnader, förbättra produktprestanda och/eller peka på behovet av ny eller bättre fabriksutrustning.
Servicebranscher: Inom tjänstesektorn kan användare hitta liknande möjligheter till produktförbättringar genom att korsreferera kundfeedback (direkt eller från sociala medier eller andra källor) med specifika tjänster, kanaler, peer performance data, region, prissättning, demografi, ekonomiska data med mera.
Slutligen bör alla dessa resultat återföras till prognoser och planering så att hela organisationen anpassas till förväntade förändringar i efterfrågan baserat på mer intim kunskap om kunden – och vara bättre positionerad för att utnyttja nyidentifierade möjligheter.
Utmaningar i samband med datautvinning
Big data: Data genereras i snabb takt och erbjuder allt fler möjligheter till datautvinning. Moderna datautvinningsverktyg krävs dock för att extrahera mening från Big Data, med tanke på den höga volymen, höga hastigheten och det stora utbudet av datastrukturer samt den ökande volymen av ostrukturerade data. Många befintliga system kämpar för att hantera, lagra och använda sig av denna översvämning av input.
Användarkompetens: Data mining och analysverktyg är utformade för att hjälpa användare och beslutsfattare att förstå och coax mening och insikt från massor av data. Även om de är mycket tekniska, är dessa kraftfulla verktyg nu förpackade med utmärkt användarupplevelse design så att praktiskt taget vem som helst kan använda dessa verktyg med minimal utbildning. För att kunna dra full nytta av fördelarna måste användaren dock förstå tillgängliga data och affärskontexten för den information de söker. De måste också, åtminstone generellt, veta hur verktygen fungerar och vad de kan göra. Detta är inte utom räckhåll för den genomsnittlige chefen eller chefen, men det är en utbildningsprocess och användarna måste anstränga sig för att utveckla denna nya kompetensgrupp.
Datakvalitet och tillgänglighet: Med massor av nya data finns det också massor av ofullständiga, felaktiga, vilseledande, bedrägliga, skadade eller helt enkelt värdelösa data. Verktygen kan hjälpa till att reda ut allt detta, men användarna måste ständigt vara medvetna om källan till uppgifterna och dess trovärdighet och tillförlitlighet. Sekretessfrågor är också viktiga, både när det gäller inhämtning av data och vård och hantering när de väl är i din ägo.
Vanliga frågor om Data mining
Idéer som du inte hittar någon annanstans
Registrera dig för en dos business intelligence som levereras direkt till din inkorg.