Ce este data mining?

Extragerea datelor este procesul de utilizare a instrumentelor analitice avansate pentru a extrage informații utile dintr-o acumulare de date.

Imagine generală data mining

Extragerea datelor este procesul de extragere a informațiilor utile dintr-o acumulare de date, adesea dintr-un depozit de date sau din colectarea de seturi de date legate. Instrumentele de data mining includ capacități puternice de statistică, matematică și analitică, al căror scop principal este de a trece prin seturi mari de date pentru a identifica tendințe, modele și relații pentru a sprijini luarea deciziilor și planificarea în cunoștință de cauză.

 

Adesea asociat cu anchetele departamentului de marketing, data mining este văzut de mulți directori ca o modalitate de a-i ajuta să înțeleagă mai bine cererea și să vadă efectul pe care modificările în produse, prețuri sau promovare îl au asupra vânzărilor. Însă extragerea datelor are beneficii considerabile și pentru alte domenii de activitate. Inginerii și designerii pot analiza eficacitatea modificărilor de produs și pot căuta posibile cauze ale succesului sau eșecului produsului legate de modul, momentul și locul în care sunt utilizate produsele. Operațiile de service și reparație pot planifica mai bine inventarul de piese și ocuparea. Organizațiile de servicii profesionale pot utiliza extragerea datelor pentru a identifica noi oportunități de la tendințele economice în schimbare și schimbările demografice.

 

Extragerea datelor devine mai utilă și mai valoroasă cu seturi de date mai mari și cu mai multă experiență de utilizator. În mod logic, cu cât sunt mai multe date, cu atât mai multe informații și informații ar trebui îngropate acolo. De asemenea, pe măsură ce utilizatorii se familiarizează mai bine cu instrumentele și înțeleg mai bine baza de date, cu atât mai creativi pot fi cu explorările și analizele lor.

De ce să utilizați extragerea datelor?

Beneficiul principal al extragerii datelor este puterea sa de a identifica modele și relații în volume mari de date din surse multiple. Cu tot mai multe date disponibile - din surse la fel de variate ca social media, senzori de la distanță și rapoarte din ce în ce mai detaliate despre mișcarea produselor și activitatea de piață - data mining oferă instrumentele pentru a exploata pe deplin Big Data și pentru a le transforma în inteligență acționabilă. Mai mult, poate acționa ca un mecanism de „gândire în afara cutiei”.

 

Procesul de data mining poate detecta relații și modele surprinzătoare și intrigante în fragmente de informații aparent fără legătură. Deoarece informația tinde să fie compartimentată, din punct de vedere istoric a fost dificil sau imposibil de analizat ca întreg. Cu toate acestea, poate exista o relație între factorii externi – poate factori demografici sau economici – și performanța produselor unei companii. Și în timp ce directorii se uită în mod regulat la numerele de vânzări în funcție de teritoriu, linia de produse, canalul de distribuție și regiune, de multe ori le lipsește contextul extern pentru aceste informații. Analiza lor arată „ce s-a întâmplat”, dar nu face prea multe pentru a descoperi „de ce s-a întâmplat astfel”. Extragerea de date poate completa această discontinuitate.

 

Extragerea datelor poate căuta corelații cu factorii externi; în timp ce corelația nu indică întotdeauna cauzalitatea, aceste tendințe pot fi indicatori valoroși pentru a ghida deciziile de produs, canal și producție. Aceeași analiză aduce beneficii și altor părți ale afacerii, de la proiectarea produsului până la eficiența operațională și livrarea serviciilor.

Istoricul extragerii datelor

Oamenii colectează și analizează datele de mii de ani și, din multe puncte de vedere, procesul a rămas același: identificarea informațiilor necesare, găsirea surselor de date de calitate, colectarea și combinarea datelor, utilizarea celor mai eficiente instrumente disponibile pentru analiza datelor și valorificarea a ceea ce ați învățat. Pe măsură ce sistemele informatice și bazate pe date au crescut și au avansat, la fel și instrumentele pentru gestionarea și analizarea datelor. Adevăratul punct de inflexiune a apărut în anii 1960, odată cu dezvoltarea tehnologiei bazelor de date relaționale și a instrumentelor de interogare a limbajului natural orientate către utilizator, cum ar fi Structura Query Language (SQL). Nu mai sunt disponibile date doar prin programe codificate definite de utilizator. Cu această descoperire, utilizatorii de afaceri ar putea explora interactiv datele lor și ar putea elimina nestematele ascunse ale inteligenței îngropate în interior.

 

Extragerea datelor a fost în mod tradițional o competență de specialitate stabilită în știința datelor. Cu toate acestea, fiecare nouă generație de instrumente analitice începe să necesite competențe tehnice avansate, dar evoluează rapid pentru a deveni accesibilă utilizatorilor. Interactivitatea – abilitatea de a lăsa datele să vorbească cu tine – este avansarea cheie. Pune o întrebare; vezi răspunsul. Pe baza a ceea ce înveți, pune o altă întrebare. Acest tip de roaming nestructurat prin intermediul datelor duce utilizatorul dincolo de limitele proiectării bazei de date specifice aplicației și permite descoperirea unor relații care depășesc limitele funcționale și organizaționale.

 

Data mining este o componentă cheie a business intelligence. Instrumentele de data mining sunt integrate în tablouri de bord executive, colectând informații de la Big Data, inclusiv date de pe rețelele sociale, fluxuri de senzori Internet of Things (IoT), dispozitive care țin cont de locație, text nestructurat, video și multe altele. Extragerea modernă a datelor se bazează pe cloud și pe computerele virtuale, precum și pe bazele de date in-memory, pentru a gestiona datele din multe surse în mod rentabil și pentru a scala la cerere.

Cum funcționează extragerea datelor?

Există cam tot atâtea abordări ale extragerii datelor cât există mineri de date. Abordarea depinde de tipul de întrebări adresate și de conținutul și organizarea bazei de date sau a seturilor de date care furnizează materia primă pentru căutare și analiză. Acestea fiind spuse, există câteva etape organizaționale și pregătitoare care ar trebui să fie finalizate pentru a pregăti datele, instrumentele și utilizatorii:

  1. Înțelegeți problema – sau cel puțin domeniul de anchetă. Factorul de decizie în afaceri, care ar trebui să fie pe locul șoferului pentru această aventură off-road de data mining, are nevoie de o înțelegere generală a domeniului în care va lucra – tipurile de date interne și externe care vor face parte din această explorare. Se presupune că aceștia au cunoștințe intime despre mediul de afaceri și domeniile funcționale implicate.
  2. Colectarea datelor. Începeți cu sistemele și bazele dvs. de date interne. Legați-le prin modelele lor de date și diverse instrumente relaționale sau adunați datele într-un depozit de date. Acestea includ orice date din surse externe care fac parte din operațiile dvs., precum datele de vânzări și/sau servicii pe teren, IoT sau datele de pe rețelele sociale. Să caute și să dobândească drepturile la date externe, inclusiv demografice, date economice și informații despre piață, cum ar fi tendințele din industrie și indicii financiari de la asociațiile comerciale și guverne. Aduceți-le în modul de utilizare al kitului de instrumente (aduceți-le în depozitul dvs. de date sau legați-le la mediul de data mining).
  3. Pregătirea și înțelegerea datelor. Utilizați experții în materie ai companiei dvs. pentru a ajuta la definirea, clasificarea și organizarea datelor. Această parte a procesului este uneori numită dispută sau muniție a datelor. Este posibil ca unele date să necesite curățare sau „curățare” pentru a elimina duplicările, inconsistențele, înregistrările incomplete sau formatele învechite. Pregătirea și curățarea datelor poate fi o sarcină continuă, deoarece noi proiecte sau date din noi domenii de anchetă devin interesante.
  4. Instruirea utilizatorilor. Nu i-ați da adolescentului cheile familiei Ferrari fără a le face să treacă prin educația șoferului, prin instruirea pe șosea și prin unele practici supravegheate cu un șofer licențiat – deci asigurați-vă că oferiți instruire formală viitorilor mineri de date, precum și unele practici supravegheate pe măsură ce încep să se familiarizeze cu aceste instrumente puternice. Educația continuă este, de asemenea, o idee bună odată ce au stăpânit elementele de bază și pot trece la tehnici mai avansate.

Tehnici de data mining

Rețineți că extragerea datelor se bazează pe un kit de instrumente, mai degrabă decât pe o rutină sau un proces fix. Tehnicile specifice de data mining citate aici sunt doar exemple ale modului în care instrumentele sunt utilizate de organizații pentru a-și explora datele în căutarea tendințelor, a corelațiilor, a inteligenței și a perspectivei de afaceri.

 

În general, abordările de data mining pot fi clasificate ca direcționate – axate pe un anumit rezultat dorit – sau nedirecționate ca un proces de descoperire. Alte explorări pot viza sortarea sau clasificarea datelor, precum gruparea clienților potențiali în funcție de atribute de afaceri precum sectorul industrial, produsele, dimensiunea și locația. Un obiectiv similar, detecția anomaliilor sau a anomaliilor este o metodă automată de recunoaștere a anomaliilor reale (mai degrabă decât simpla variabilitate) în cadrul unui set de date care afișează modele identificabile.

 

Asociere

Un alt obiectiv interesant este asocierea – legarea a două evenimente sau activități aparent neînrudite. O poveste clasică din primele zile de analiză și data mining, poate fictivă, are un lanț de magazine convenabil care descoperă o corelație între vânzările de bere și scutece. Speculând că noii tați hărțuiți care au rămas afară seara târziu pentru a obține scutece pot apuca câteva pachete de șase în timp ce sunt acolo. Magazinele poziționează berea și scutecele în imediata apropiere și cresc vânzările de bere ca rezultat.

 

Clustering

Această abordare vizează gruparea datelor prin similarități, mai degrabă decât prin ipoteze predefinite. De exemplu, atunci când extrageți informațiile despre vânzări ale clienților, combinate cu datele demografice și de credit de consum externe, puteți descoperi că cei mai profitabili clienți sunt din orașele mijlocii. O mare parte din timp, extragerea datelor este continuată în sprijinul previziunilor sau previziunilor. Cu cât înțelegeți mai bine tiparele și comportamentele, cu atât puteți face mai bine să prognozați acțiuni viitoare legate de cauze sau corelații.

 

Regresie

Una dintre tehnicile matematice oferite în kiturile de instrumente de data mining, analiza de regresie prezice un număr bazat pe modele istorice proiectate în viitor. Diverse alte algoritmi de detectare și urmărire a modelelor oferă instrumente flexibile pentru a ajuta utilizatorii să înțeleagă mai bine datele și comportamentul pe care îl reprezintă. Acestea sunt doar câteva dintre tehnicile și instrumentele disponibile în kiturile de instrumente de data mining. Alegerea instrumentului sau a tehnicii este oarecum automatizată prin faptul că tehnicile vor fi aplicate în funcție de modul în care este pusă întrebarea. În vremurile anterioare, data mining a fost numit „felierea și dictarea” bazei de date, dar practica este mai sofisticată acum și termeni precum asociere, clustering și regresie sunt obișnuiți.

Utilizați cazuri și exemple

Extragerea datelor este esențială pentru analiza sentimentelor, optimizarea prețurilor, marketingul bazelor de date, gestionarea riscului de credit, instruirea și suportul, detectarea fraudelor, diagnosticarea sănătății și a medicilor, evaluarea riscurilor, sistemele de recomandare („clienții care au cumpărat acest lucru, de asemenea, au apreciat… ”) și multe altele. Acesta poate fi un instrument eficient în aproape orice industrie, inclusiv cu amănuntul, distribuție angro, industria serviciilor, telecomunicații, comunicații, asigurări, educație, producție, sănătate, servicii bancare, știință, inginerie și marketing online sau social media.

  • Dezvoltarea de produse: Companiile care proiectează, produc sau distribuie produse fizice pot identifica oportunități de a viza mai bine produsele lor prin analizarea modelelor de achiziție, împreună cu datele economice și demografice. Designerii și inginerii lor pot, de asemenea, să facă referințe încrucișate cu feedback-ul clienților și utilizatorilor, înregistrări de reparații și alte date pentru a identifica oportunitățile de îmbunătățire a produselor.

  • Producție: Producătorii pot urmări tendințele de calitate, datele de reparare, ratele de producție și datele de performanță a produsului din teren pentru a identifica preocupările de producție. De asemenea, pot recunoaște posibilele upgrade-uri de proces care ar îmbunătăți calitatea, ar economisi timp și costuri, ar îmbunătăți performanța produselor și/sau ar indica necesitatea unor echipamente noi sau mai bune din fabrică.

  • Industriile serviciilor: În industriile serviciilor, utilizatorii pot găsi oportunități similare de îmbunătățire a produselor prin corelarea feedback-ului clienților (direct sau din social media sau din alte surse) cu servicii, canale, date de performanță inter pares, regiune, prețuri, date demografice, date economice și multe altele.

În cele din urmă, toate aceste constatări ar trebui să fie alimentate înapoi la previzionare și planificare, astfel încât întreaga organizație să fie atașată la schimbările anticipate ale cererii bazate pe cunoștințe mai intime ale clientului - și să fie mai bine poziționată pentru a exploata oportunitățile nou identificate.

Provocări legate de data mining

  • Big Data: Datele sunt generate într-un ritm accelerat, oferind din ce în ce mai multe oportunități pentru extragerea datelor. Cu toate acestea, instrumentele moderne de data mining sunt necesare pentru a extrage semnificația din Big Data, având în vedere volumul mare, viteza mare și marea varietate de structuri de date, precum și volumul în creștere de date nestructurate. Multe sisteme existente se luptă să gestioneze, să stocheze și să utilizeze acest potop de intrare.

  • Competența utilizatorilor: Instrumentele de extragere a datelor și de analiză sunt concepute pentru a ajuta utilizatorii și factorii de decizie să aibă sens și să coaxeze semnificația și înțelegerea maselor de date. Deși sunt extrem de tehnice, aceste instrumente puternice sunt acum ambalate cu un design excelent al experienței utilizatorului, astfel încât aproape oricine poate utiliza aceste instrumente cu instruire minimă. Cu toate acestea, pentru a obține pe deplin beneficiile, utilizatorul trebuie să înțeleagă datele disponibile și contextul de afaceri al informațiilor pe care le caută. Trebuie, de asemenea, să știe, cel puțin în general, cum funcționează instrumentele și ce pot face. Acest lucru nu este dincolo de capacitatea managerului sau executivului mediu, dar este un proces de învățare și utilizatorii trebuie să depună un efort pentru a dezvolta acest nou set de competențe.

  • Calitatea și disponibilitatea datelor: cu mase de date noi, există, de asemenea, mase de date incomplete, incorecte, înșelătoare, frauduloase, deteriorate sau pur și simplu inutile. Instrumentele pot ajuta la rezolvarea tuturor acestor probleme, dar utilizatorii trebuie să fie în permanență conștienți de sursa datelor și de credibilitatea și fiabilitatea acestora. Preocupările legate de confidențialitate sunt, de asemenea, importante, atât în ceea ce privește achiziționarea datelor, cât și îngrijirea și manipularea odată ce acestea se află în posesia dvs.

Întrebări frecvente data mining

Extragerea datelor este procesul de utilizare a instrumentelor analitice avansate pentru a extrage informații utile dintr-o acumulare de date. Învățarea automată este un tip de inteligență artificială (IA) care permite sistemelor să învețe din experiență. Extragerea datelor poate utiliza învățarea automată atunci când programele analitice au capacitatea de a-și adapta funcționalitatea ca răspuns la analiza de date pe care o efectuează.

Analiza sau analiza datelor sunt termeni generali pentru un set larg de practici axate pe identificarea informațiilor utile, evaluarea acestora și furnizarea de răspunsuri specifice. Extragerea de date este un tip de analiză a datelor care se concentrează pe săparea în seturi mari și combinate de date pentru a descoperi modele, tendințe și relații care pot duce la perspective și previziuni.

Știința datelor este un termen care include multe tehnologii ale informației, inclusiv statistici, matematică și tehnici sofisticate de calcul, așa cum se aplică datelor. Extragerea datelor este un caz de utilizare pentru știința datelor axată pe analiza seturilor mari de date dintr-o gamă largă de surse.

Un depozit de date este o colecție de date, de obicei din mai multe surse (ERP, CRM etc.) pe care o companie le va combina în depozit pentru stocarea arhivelor și analize extinse, precum data mining.

placeholder

Extindeți-vă expertiza în gestionarea datelor

Înțelegeți procesul de gestionare a datelor și beneficiile acestuia.

placeholder

Idei pe care nu le vei găsi nicăieri altundeva

Înregistrați-vă pentru o doză de business intelligence livrată direct în căsuța dvs. de mesaje primite.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel