Hva er datautvinning?
Datautvinning er prosessen med å bruke avanserte analytiske verktøy for å trekke ut nyttig informasjon fra en akkumulering av data.
Oversikt over datautvinning
Datautvinning er prosessen med å ekstrahere nyttig informasjon fra en akkumulering av data, ofte fra et datalager eller innsamling av koblede datasett. Datautvinningsverktøy inkluderer kraftige statistiske, matematiske og analytiske funksjoner hvis primære formål er å sikte gjennom store sett med data for å identifisere trender, mønstre og relasjoner for å støtte informert beslutningstaking og planlegging.
Ofte knyttet til henvendelser fra markedsavdelingen, blir datautvinning sett på av mange ledere som en måte å hjelpe dem med å forstå etterspørselen bedre og se effekten av at endringer i produkter, prissetting eller kampanje har på salg. Men datautvinning har også en betydelig fordel for andre forretningsområder. Ingeniører og designere kan analysere effektiviteten av produktendringer og se etter mulige årsaker til produktsuksess eller feil knyttet til hvordan, når og hvor produkter brukes. Service- og reparasjonsoperasjoner kan planlegge reservedelsbeholdning og bemanning bedre. Profesjonelle serviceorganisasjoner kan bruke datautvinning til å identifisere nye muligheter fra endrede økonomiske trender og demografiske endringer.
Datautvinning blir mer nyttig og verdifull med større datasett og med mer brukeropplevelse. Logisk sett, jo mer data, jo mer innsikt og intelligens bør begraves der. I tillegg, etter hvert som brukerne blir mer kjent med verktøyene og bedre forstår databasen, jo mer kreativ kan de være med sine utforskninger og analyser.
Hvorfor bruke datautvinning?
Den primære fordelen med datautvinning er dens makt til å identifisere mønstre og relasjoner i store datamengder fra flere kilder. Med flere og flere tilgjengelige data – fra kilder som er like varierte som sosiale medier, eksterne sensorer og stadig mer detaljerte rapporter om produktbevegelse og markedsaktivitet – tilbyr datautvinning verktøyene for å utnytte Big Data fullt ut og gjøre det om til praktisk intelligens. I tillegg kan det fungere som en mekanisme for å «tenke utenfor boksen».
Datautvinningsprosessen kan oppdage overraskende og spennende relasjoner og mønstre i tilsynelatende urelaterte biter av informasjon. Fordi informasjon har en tendens til å bli inndelt i avdelinger, har det historisk vært vanskelig eller umulig å analysere som helhet. Det kan imidlertid være en sammenheng mellom eksterne faktorer – kanskje demografiske eller økonomiske faktorer – og ytelsen til et selskaps produkter. Og mens ledere regelmessig ser på salgsnumre etter område, produktlinje, distribusjonskanal og region, mangler de ofte ekstern kontekst for denne informasjonen. Deres analyse peker på "hva som skjedde", men gjør lite for å avdekke "hvorfor det skjedde på denne måten." Datautvinning kan fylle dette gapet.
Datautvinning kan se etter korrelasjoner med eksterne faktorer; selv om korrelasjon ikke alltid indikerer årsakssammenheng, kan disse trendene være verdifulle indikatorer for å veilede produkt-, kanal- og produksjonsbeslutninger. Den samme analysen drar nytte av andre deler av virksomheten fra produktdesign til driftseffektivitet og servicelevering.
Historikk for datautvinning
Folk har samlet inn og analysert data i tusenvis av år, og på mange måter har prosessen forblitt den samme: identifisere informasjonen som trengs, finne kvalitetsdatakilder, samle inn og kombinere dataene, bruke de mest effektive verktøyene som er tilgjengelige for å analysere dataene, og utnytte det du har lært. Etter hvert som databehandlings- og databaserte systemer har vokst og avanserte, så har de verktøyene for å administrere og analysere data. Det virkelige bøyningspunktet kom på 1960-tallet med utviklingen av relasjonsdatabaseteknologi og brukerorienterte verktøy for naturlig språkspørring som Strukturert spørringsspråk (SQL). Data var ikke lenger tilgjengelig bare gjennom egendefinerte kodede programmer. Med dette gjennombruddet kan forretningsbrukere interaktivt utforske dataene sine og utslette de skjulte perlene av intelligens begravet på innsiden.
Datautvinning har tradisjonelt vært en spesialkompetanse innen datavitenskap. Hver ny generasjon analyseverktøy, derimot, begynner å kreve avanserte tekniske ferdigheter, men utvikler seg raskt til å bli tilgjengelig for brukerne. Interaktivitet – muligheten til å la dataene snakke med deg – er det viktigste fremskrittet. Still et spørsmål; se svaret. Basert på hva du lærer, kan du stille et annet spørsmål. Denne typen ustrukturert roaming gjennom dataene tar brukeren utover begrensningene av den applikasjonsspesifikke databasedesignen og tillater oppdagelse av relasjoner som krysser funksjonelle og organisatoriske grenser.
Datautvinning er en viktig komponent i Business Intelligence. Verktøy for datautvinning er innebygd i lederdashbord, og henter innsikt fra Big Data, inkludert data fra sosiale medier, sensordata for Internett of Things (IoT), lokaliseringsbevisste enheter, ustrukturert tekst, video og mer. Moderne datautvinning er avhengig av skyen og virtuell databehandling, samt in-memory-databaser, for å administrere data fra mange kilder kostnadseffektivt og skalere etter behov.
Hvordan fungerer datautvinning?
Det er omtrent like mange tilnærminger til datautvinning som det er datautvinnere. Tilnærmingen avhenger av typen spørsmål som stilles, og innholdet og organiseringen av databasen eller datasettene som gir råmaterialet for søket og analysen. Når det er sagt, er det noen organisatoriske og forberedende trinn som bør fullføres for å forberede dataene, verktøyene og brukerne:
- Forstå problemet - eller i det minste området av forespørsel. Bedriftens beslutningstaker, som skal være i førersetet for dette datautvinningseventyret, trenger en generell forståelse av domenet de skal jobbe i – hvilke typer interne og eksterne data som skal være en del av denne utforskningen. Det antas at de har intim kunnskap om virksomheten og de involverte funksjonsområdene.
- Datainnsamling. Start med interne systemer og databaser. Koble dem sammen gjennom datamodeller og ulike relasjonsverktøy, eller samle dataene til et datalager. Dette inkluderer data fra eksterne kilder som er en del av driften din, for eksempel feltsalgs- og/eller tjenestedata, IoT eller data for sosiale medier. Oppsøk og erverv rettighetene til eksterne data, inkludert demografi, økonomiske data og markedsinformasjon, for eksempel bransjetrender og finansielle referanseverdier fra bransjeorganisasjoner og regjeringer. Ta dem med i verktøysettets purview (ta dem med i datalageret ditt eller koble dem til datautvinningsmiljøet).
- Dataklargjøring og -forståelse. Bruk virksomhetens fageksperter til å definere, kategorisere og organisere dataene. Denne delen av prosessen kalles noen ganger datakrangling eller munging. Noen av dataene kan trenge rengjøring eller "rensing" for å fjerne duplisering, inkonsistens, ufullstendige poster eller utdaterte formater. Data forberedelse og rensing kan være en pågående oppgave som nye prosjekter eller data fra nye felt av forespørsel blir av interesse.
- Brukeropplæring. Du ville ikke gi tenåringen nøklene til familien Ferrari uten å få dem til å gå gjennom sjåførens utdanning, opplæring på veien, og noen overvåket praksis med en lisensiert sjåfør - så sørg for å gi formell opplæring til dine fremtidige data gruvearbeidere samt noen overvåket praksis som de begynner å bli kjent med disse kraftige verktøyene. Fortsatt utdanning er også en god idé når de har mestret det grunnleggende og kan gå videre til mer avanserte teknikker.
Datautvinningsteknikker
Husk at datautvinning er basert på et verktøysett i stedet for en fast rutine eller prosess. Spesifikke datautvinningsteknikker som er sitert her, er bare eksempler på hvordan verktøyene brukes av organisasjoner til å utforske sine data på jakt etter trender, korrelasjoner, intelligens og forretningsinnsikt.
Generelt sett kan datautvinningstilnærminger kategoriseres som rettet – fokusert på et bestemt ønsket resultat – eller ustyrt som en oppdagelsesprosess. Andre utforskninger kan være rettet mot sortering eller klassifisering av data, for eksempel gruppering av potensielle kunder i henhold til forretningsattributter som bransje, produkter, størrelse og lokalisering. En lignende objektiv, avvikende eller avvikende deteksjon, er en automatisert metode for å gjenkjenne reelle anomalier (snarere enn enkel variabilitet) innenfor et sett av data som viser identifiserbare mønstre.
Tilknytning
Et annet interessant mål er å knytte sammen to tilsynelatende urelaterte hendelser eller aktiviteter. En klassisk historie fra de tidlige dagene med analyse og datautvinning, kanskje fiktiv, har en nærbutikkjede som oppdager en sammenheng mellom salg av øl og bleier. Spekulerende som rammet nye fedre som løper ut sent på kvelden for å få bleier kan ta et par seks-pakker mens de er der. Butikkene plasserer øl og bleier i umiddelbar nærhet og øker ølsalget som et resultat.
Clustering
Denne tilnærmingen er rettet mot å gruppere data ved hjelp av likheter i stedet for forhåndsdefinerte forutsetninger. Når du for eksempel graverer kundens salgsinformasjon kombinert med eksterne forbrukerkreditt og demografiske data, kan du oppdage at de mest lønnsomme kundene dine er fra mellomstore byer. Mye av tiden er datautvinning forfulgt for å støtte prediksjon eller prognostisering. Jo bedre du forstår mønstre og atferd, jo bedre jobb kan du gjøre for å forutsi fremtidige handlinger knyttet til årsaker eller korrelasjoner.
Regresjon
En av de matematiske teknikkene som tilbys i datautvinningsverktøysett, regresjonsanalyse forutsier et tall basert på historiske mønstre projisert inn i fremtiden. Ulike andre mønsterdeteksjons- og sporingsalgoritmer gir fleksible verktøy for å hjelpe brukerne med å forstå dataene bedre og atferden den representerer. Dette er bare noen få av teknikkene og verktøyene som er tilgjengelige i datautvinningsverktøysett. Valget av verktøy eller teknikk er noe automatisert ved at teknikkene vil bli anvendt i henhold til hvordan spørsmålet blir stilt. I tidligere tider ble datautvinning referert til som "snitting og dicing" databasen, men praksisen er mer sofistikert nå og begreper som assosiasjon, clustering og regresjon er vanlig.
Brukstilfeller og eksempler
Datautvinning er nøkkelen til stemningsanalyse, prisoptimalisering, databasemarkedsføring, kredittrisikostyring, opplæring og støtte, svindeldeteksjon, helsevesen og medisinske diagnoser, risikovurdering, anbefalingssystemer («kunder som kjøpte dette likte også…»), og mye mer. Det kan være et effektivt verktøy i omtrent hvilken som helst bransje, inkludert detaljhandel, engroshandel, servicebransjer, telekommunikasjon, forsikring, utdanning, produksjon, helse, bank, vitenskap, ingeniørfag og online markedsføring eller sosiale medier.
Produktutvikling: Selskaper som designer, lager eller distribuerer fysiske produkter, kan finne muligheter til bedre å målrette produktene sine ved å analysere innkjøpsmønstre kombinert med økonomiske og demografiske data. Deres designere og ingeniører kan også kryssreferere kunde- og brukertilbakemeldinger, reparasjonsoppføringer og andre data for å identifisere produktforbedringsmuligheter.
Produksjon: Produsenter kan spore kvalitetstrender, reparasjonsdata, produksjonshastigheter og produktytelsesdata fra feltet for å identifisere produksjonsproblemer. De kan også gjenkjenne mulige prosessoppgraderinger som ville forbedre kvaliteten, spare tid og kostnader, forbedre produktytelsen og/eller peke på behovet for nytt eller bedre fabrikkutstyr.
Tjenestebransjer: I tjenestebransjer kan brukere finne lignende muligheter for produktforbedring ved å krysreferere til tilbakemeldinger fra kunder (direkte eller fra sosiale medier eller andre kilder) med spesifikke tjenester, kanaler, ytelsesdata for likeverdige, regioner, priser, demografi, økonomiske data og mer.
Til slutt bør alle disse funnene tilbakeføres til prognoser og planlegging, slik at hele organisasjonen er oppmerksomme på forventede endringer i etterspørselen basert på mer intim kunnskap om kunden – og være bedre posisjonert for å utnytte nyidentifiserte muligheter.
Utfordringer knyttet til datautvinning
Big Data: Data genereres i et raskt akselererende tempo, og gir stadig flere muligheter for datautvinning. Moderne datautvinningsverktøy er imidlertid nødvendig for å trekke ut mening fra Big Data, gitt det høye volum, høye hastighet og store utvalg av datastrukturer samt det økende volumet av ustrukturerte data. Mange eksisterende systemer sliter med å håndtere, lagre og gjøre bruk av denne flommen av innspill.
Brukerkompetanse: Datautvinning og analyseverktøy er utformet for å hjelpe brukere og beslutningstakere til å forstå mening og innsikt fra masser av data. Mens de er svært tekniske, er disse kraftige verktøyene nå pakket med utmerket brukeropplevelse design, slik at nesten alle kan bruke disse verktøyene med minimal trening. For å få fullt utbytte av fordelene må brukeren imidlertid forstå dataene som er tilgjengelige og forretningskonteksten til informasjonen de søker. De må også vite, i det minste generelt, hvordan verktøyene fungerer og hva de kan gjøre. Dette er ikke utenfor rekkevidden til den gjennomsnittlige lederen eller lederen, men det er en læringsprosess og brukere må legge litt innsats i å utvikle dette nye ferdighetssettet.
Datakvalitet og tilgjengelighet: Med masser av nye data er det også masser av ufullstendige, uriktige, misvisende, bedragerske, skadede eller bare ubrukelige data. Verktøyene kan bidra til å sortere alt dette, men brukerne må kontinuerlig være klar over kilden til dataene og dens troverdighet og pålitelighet. Det er også viktig med hensyn til personvern, både når det gjelder innhenting av data og omsorg og håndtering når de er i din besittelse.
Ofte stilte spørsmål om datautvinning
Utvid ekspertisen for dataadministrasjon
Forstå databehandlingsprosessen og fordelene med den.
Ideer du ikke finner noe annet sted
Registrer deg for en dose Business Intelligence levert rett til innboksen din.