Hvad er data mining?

Data mining er processen med at bruge avancerede analytiske værktøjer til at udtrække nyttige oplysninger fra en akkumulering af data.

Data mining-oversigt

Data mining er processen med at udtrække nyttige oplysninger fra en akkumulering af data, ofte fra et datawarehouse eller indsamling af forbundne datasæt. Data mining-værktøjer omfatter effektive statistiske, matematiske og analytiske funktioner, hvis primære formål er at gennemgå store datasæt for at identificere tendenser, mønstre og relationer for at understøtte informeret beslutningstagning og planlægning.

 

Ofte forbundet med marketingafdelingens forespørgsler, ses data mining af mange ledere som en måde at hjælpe dem med bedre at forstå efterspørgslen og at se den effekt, som ændringer i produkter, priser eller kampagne har på salget. Men datamining har også betydelige fordele for andre forretningsområder. Ingeniører og designere kan analysere effektiviteten af produktændringer og lede efter mulige årsager til produktsucces eller fejl relateret til hvordan, hvornår og hvor produkter anvendes. Service- og reparationsoperationer kan bedre planlægge reservedelsbeholdning og bemanding. Professionelle serviceorganisationer kan bruge data mining til at identificere nye muligheder fra skiftende økonomiske tendenser og demografiske ændringer.

 

Data mining bliver mere nyttig og værdifuld med større datasæt og med mere brugeroplevelse. Logisk set bør jo flere data, jo mere indsigt og intelligens begraenses der. Og i takt med at brugerne bliver mere fortrolige med værktøjerne og bedre forstår databasen, desto mere kreative kan de være med deres udforskning og analyser.

Hvorfor bruge data mining?

Den primære fordel ved data mining er dens evne til at identificere mønstre og relationer i store mængder af data fra flere kilder. Med flere og flere tilgængelige data – fra så forskellige kilder som sociale medier, fjernsensorer og stadig mere detaljerede rapporter om produktbevægelser og markedsaktivitet – tilbyder data mining værktøjerne til fuldt ud at udnytte Big Data og gøre det til handlingsrettet intelligens. Hvad mere er, kan det fungere som en mekanisme til at "tænke uden for boksen."

 

Data mining-processen kan opdage overraskende og spændende relationer og mønstre i tilsyneladende urelaterede bits af information. Fordi information har en tendens til at være opdelt, har det historisk været vanskeligt eller umuligt at analysere som helhed. Der kan dog være en sammenhæng mellem eksterne faktorer – måske demografiske eller økonomiske faktorer – og en virksomheds produkters ydeevne. Og mens ledere regelmæssigt ser på salgsnumre efter område, produktlinje, distributionskanal og region, mangler de ofte ekstern kontekst for disse oplysninger. Deres analyse peger på "hvad der skete", men gør ikke meget for at afdække "hvorfor det skete på denne måde." Data mining kan udfylde dette hul.

 

Data mining kan søge efter korrelationer med eksterne faktorer; mens korrelation ikke altid indikerer årsagssammenhæng, kan disse tendenser være værdifulde indikatorer til at styre produkt-, kanal- og produktionsbeslutninger. Samme analyse gavner andre dele af forretningen fra produktdesign til driftseffektivitet og servicelevering.

Historik for data mining

Folk har indsamlet og analyseret data i tusindvis af år, og på mange måder har processen været den samme: identificere de nødvendige oplysninger, finde datakilder af høj kvalitet, indsamle og kombinere data, bruge de mest effektive værktøjer til at analysere dataene og udnytte det, du har lært. I takt med at computer- og databaserede systemer er vokset og avancerede, har de også værktøjerne til at styre og analysere data. Det virkelige bøjningspunkt kom i 1960'erne med udviklingen af relationel databaseteknologi og brugerorienterede naturlige sprogforespørgselsværktøjer som Struktureret Forespørgselssprog (SQL). Ikke længere var data kun tilgængelige via brugerdefinerede kodede programmer. Med dette gennembrud kunne forretningsbrugere interaktivt udforske deres data og drille de skjulte ædelstene af intelligens begravet inde.

 

Data mining har traditionelt været et speciale inden for datavidenskab. Hver ny generation af analytiske værktøjer begynder imidlertid med at kræve avancerede tekniske færdigheder, men udvikler sig hurtigt for at blive tilgængelige for brugerne. Interaktivitet – evnen til at lade dataene tale med dig – er det vigtigste fremskridt. Stil et spørgsmål; se svaret. Ud fra det, du lærer, skal du stille et andet spørgsmål. Denne form for ustruktureret roaming gennem dataene tager brugeren ud over grænserne for det applikationsspecifikke databasedesign og giver mulighed for at opdage relationer, der krydser funktionelle og organisatoriske grænser.

 

Data mining er en vigtig komponent i Business Intelligence. Data mining værktøjer er indbygget i executive dashboards, høste indsigt fra Big Data, herunder data fra sociale medier, Internet of Things (IoT) sensor feeds, placering-bevidste enheder, ustruktureret tekst, video og meget mere. Moderne data mining er afhængig af cloud og virtuel databehandling, samt in-memory-databaser, til at håndtere data fra mange kilder omkostningseffektivt og til at skalere efter behov.

Hvordan fungerer data mining?

Der er omkring lige så mange tilgange til data mining som der er data minearbejdere. Tilgangen afhænger af den type spørgsmål, der stilles, og indholdet og organiseringen af databasen eller datasæt, der leverer råmaterialet til søgning og analyse. Når det er sagt, er der nogle organisatoriske og forberedende trin, der skal fuldføres for at forberede dataene, værktøjerne og brugerne:

  1. Forstå problemet – eller i det mindste undersøgelsesområdet. Virksomhedens beslutningstager, der bør være i førersædet for denne data mining off-road eventyr, har brug for en generel forståelse af det domæne, de vil arbejde i - de typer af interne og eksterne data, der skal være en del af denne udforskning. Det antages, at de har et indgående kendskab til virksomheden og de funktionsområder, der er involveret.
  2. Dataindsamling. Start med dine interne systemer og databaser. Sammenkæd dem via deres datamodeller og forskellige relationelle værktøjer, eller saml dataene i et datawarehouse. Dette omfatter alle data fra eksterne kilder, der er en del af dine aktiviteter, f.eks. feltsalgs- og/eller servicedata, IoT eller data på sociale medier. Opsøge og erhverve rettighederne til eksterne data, herunder demografi, økonomiske data og markedsinformation, såsom branchetendenser og finansielle benchmarks fra brancheorganisationer og regeringer. Bring dem ind i værktøjssættet (bringe dem ind i dit datawarehouse eller linke dem til data mining miljø).
  3. Forberedelse og forståelse af data. Brug din virksomheds emneeksperter til at hjælpe med at definere, kategorisere og organisere dataene. Denne del af processen kaldes sommetider for dataterrynker eller munging. Nogle af dataene skal muligvis renses eller "ryddes" for at fjerne dubletter, uoverensstemmelser, ufuldstændige poster eller forældede formater. Dataforberedelse og -rensning kan være en løbende opgave i takt med, at nye projekter eller data fra nye undersøgelsesområder bliver af interesse.
  4. Brugeruddannelse. Du ville ikke give din teenager nøglerne til familien Ferrari uden at få dem til at gå gennem chaufføruddannelse, on-the-road træning, og nogle overvåget praksis med en autoriseret chauffør - så sørg for at give formel træning til dine fremtidige data minearbejdere samt nogle overvåget praksis, som de begynder at blive fortrolig med disse kraftfulde værktøjer. Efter- og videreuddannelse er også en god idé, når de har mestret de grundlaeggende og kan gå videre til mere avancerede teknikker.

Data mining-teknikker

Husk på, at data mining er baseret på et værktøjssæt snarere end en fast rutine eller proces. Specifikke data mining teknikker citeret her er blot eksempler på, hvordan værktøjerne bliver brugt af organisationer til at udforske deres data i søgen efter tendenser, korrelationer, intelligens og forretningsindsigt.

 

Generelt kan datamining tilgange kategoriseres som rettet – fokuseret på et specifikt ønsket resultat – eller udirigeret som en opdagelsesproces. Andre udforskninger kan have til formål at sortere eller klassificere data, fx gruppering af potentielle kunder i henhold til driftsøkonomiske attributter som industri, produkter, størrelse og lokation. En lignende objektiv, afvigende eller unormal detektion er en automatiseret metode til at genkende reelle uregelmæssigheder (snarere end simpel variabilitet) inden for et sæt data, der viser identificerbare mønstre.

 

Tilknytning

Et andet interessant mål er associering – at forbinde to tilsyneladende urelaterede begivenheder eller aktiviteter. En klassisk historie fra de tidlige dage med analyser og datamining, måske fiktiv, har en dagligvarebutikskæde, der opdager en sammenhæng mellem salg af øl og bleer. Spekulerer på, at chikanerede nye faedre, der løber ud sent på aftenen for at få bleer, kan få fat i et par seks-pakker, mens de er der. Butikkerne placerer øl og bleer i umiddelbar nærhed og øger salget af øl som følge heraf.

 

Klyngedannelse

Denne tilgang har til formål at gruppere data efter ligheder snarere end foruddefinerede antagelser. Når du f.eks. udskiller dine kundesalgsoplysninger kombineret med eksterne forbrugerkreditter og demografiske data, kan du opdage, at dine mest rentable kunder er fra mellemstore byer. Meget af tiden forfølges datamining til støtte for forudsaetninger eller prognoser. Jo bedre du forstår mønstre og adfærd, jo bedre kan du gøre for at forudsige fremtidige handlinger relateret til årsagssammenhænge eller korrelationer.

 

Regression

En af de matematiske teknikker, der tilbydes i data mining værktøjssæt, regression analyse forudsiger et antal baseret på historiske mønstre projiceret ind i fremtiden. Forskellige andre mønster registrering og sporing algoritmer giver fleksible værktøjer til at hjælpe brugerne bedre forstå de data og den adfærd, det repræsenterer. Dette er blot nogle få af de teknikker og værktøjer, der er tilgængelige i data mining værktøjssæt. Valget af værktøj eller teknik er noget automatiseret, idet teknikkerne vil blive anvendt i henhold til, hvordan spørgsmålet stilles. I tidligere tider blev data mining omtalt som “slicing and dicing” databasen, men praksis er mere sofistikeret nu og termer som associering, klyngedannelse og regression er almindelige.

Anvendelseseksempler

Data mining er nøglen til følelsesanalyse, prisoptimering, database markedsføring, kreditrisikostyring, uddannelse og support, afsløring af svindel, sundhedspleje og medicinske diagnoser, risikovurdering, anbefalingssystemer ("kunder, der købte dette også kunne lide...") og meget mere. Det kan være et effektivt værktøj i næsten enhver industri, herunder detailhandel, engrosdistribution, serviceindustrier, telekommunikation, kommunikation, forsikring, uddannelse, produktion, sundhedspleje, bankvæsen, videnskab, teknik og online markedsføring eller sociale medier.

  • Produktudvikling: Virksomheder, der designer, fremstiller eller distribuerer fysiske produkter, kan identificere muligheder for bedre at målrette deres produkter ved at analysere indkøbsmønstre kombineret med økonomiske og demografiske data. Deres designere og ingeniører kan også krydsreferere kunde- og brugerfeedback, reparationsoptegnelser og andre data for at identificere produktforbedringsmuligheder.

  • Produktion: Producenter kan spore kvalitetstendenser, reparationsdata, produktionsrater og produktperformance-data fra feltet for at identificere produktionsproblemer. De kan også genkende mulige procesopgraderinger, der vil forbedre kvaliteten, spare tid og omkostninger, forbedre produktets ydeevne og / eller pege på behovet for nyt eller bedre fabriksudstyr.

  • Servicebrancher: I servicebrancher kan brugerne finde lignende muligheder for produktforbedring ved at krydshenvise kundefeedback (direkte eller fra sociale medier eller andre kilder) med specifikke tjenester, kanaler, peer performance data, region, priser, demografi, økonomiske data og meget mere.

Endelig bør alle disse resultater føres tilbage til prognoser og planlægning, så hele organisationen er afstemt efter forventede ændringer i efterspørgslen baseret på et mere intimt kendskab til kunden – og være bedre positioneret til at udnytte nyidentificerede muligheder.

Udfordringer i forbindelse med dataminering

  • Big Data: Data genereres i et hastigt stigende tempo, hvilket giver stadig flere muligheder for datamining. Men moderne data mining værktøjer er nødvendige for at udtrække mening fra Big Data, i betragtning af den høje volumen, høj hastighed, og bred vifte af datastrukturer samt den stigende mængde af ustrukturerede data. Mange eksisterende systemer kæmper for at håndtere, lagre og gøre brug af denne strøm af input.

  • Brugerkompetence: Data mining og analyse værktøjer er designet til at hjælpe brugere og beslutningstagere med at skabe mening og indsigt fra masser af data. Selvom de er meget tekniske, er disse kraftfulde værktøjer nu pakket med fremragende brugeroplevelsesdesign, så stort set alle kan bruge disse værktøjer med minimal træning. Men for fuldt ud at opnå fordelene skal brugeren forstå de tilgængelige data og forretningskonteksten for de oplysninger, de søger. De skal også vide, i det mindste generelt, hvordan værktøjerne fungerer, og hvad de kan gøre. Dette ligger ikke uden for den gennemsnitlige leders eller ledelses rækkevidde, men det er en læringsproces, og brugerne skal gøre en indsats for at udvikle dette nye kvalifikationssæt.

  • Datakvalitet og tilgængelighed: Med masser af nye data er der også masser af ufuldstændige, ukorrekte, vildledende, bedrageriske, beskadigede eller bare enkle ubrugelige data. Værktøjerne kan hjælpe med at sortere alt dette, men brugerne skal hele tiden være opmærksomme på kilden til dataene og deres troværdighed og pålidelighed. Fortrolighedsspørgsmål er også vigtige, både med hensyn til indsamling af data og pleje og håndtering, når de er i din besiddelse.

Ofte stillede spørgsmål om dataminering

Data mining er processen med at bruge avancerede analytiske værktøjer til at udtrække nyttige oplysninger fra en akkumulering af data. Maskinindlæring er en type kunstig intelligens (AI), der gør det muligt for systemer at lære af erfaring. Data mining kan gøre brug af maskinindlæring, når analyseprogrammerne har evnen til at tilpasse deres funktionalitet som svar på den dataanalyse, de udfører.

Dataanalyse eller analyse er generelle vilkår for det brede sæt af praksisser, der fokuserer på at identificere nyttige oplysninger, evaluere dem og give specifikke svar. Data mining er en type dataanalyse, der fokuserer på at grave ned i store, kombinerede datasæt for at opdage mønstre, tendenser og relationer, der kan føre til indsigt og forudsigelser.

Datalogi er et begreb, der omfatter mange informationsteknologier, herunder statistik, matematik og sofistikerede beregningsteknikker som anvendt på data. Data mining er et anvendelseseksempel for datavidenskab med fokus på analyse af store datasæt fra en bred vifte af kilder.

Et datawarehouse er en samling af data, normalt fra flere kilder (ERP, CRM osv.), som en virksomhed vil kombinere i lageret til arkivlagring og bredt baserede analyser som data mining.

placeholder

Udvid din ekspertise inden for datastyring

Forstå datastyringsprocessen og dens fordele.

placeholder

Ideer, du ikke finder andre steder

Tilmeld dig en dosis business intelligence leveret direkte i din indbakke.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel