Čo je to dolovanie dát?
Dolovanie dát je proces používania pokročilých analytických nástrojov na extrakciu užitočných informácií z hromadenia dát.
Prehľad dolovania dát
Dolovanie údajov je proces extrakcie užitočných informácií zo zhromažďovania údajov, často z dátového skladu alebo zberu prepojených súborov údajov. Nástroje na dolovanie údajov zahŕňajú výkonné štatistické, matematické a analytické funkcie, ktorých primárnym účelom je prechádzať cez veľké súbory údajov na identifikáciu trendov, vzorov a vzťahov na podporu informovaného rozhodovania a plánovania.
Často sa spája s dopytom marketingového oddelenia, dolovanie dát vníma mnoho vedúcich pracovníkov ako spôsob, ako im pomôcť lepšie pochopiť dopyt a vidieť, aký vplyv majú zmeny v produktoch, cenách alebo propagácii na predaj. Vyťažovanie údajov má však značný prínos aj pre ostatné oblasti podnikania. Inžinieri a dizajnéri môžu analyzovať účinnosť zmien produktov a hľadať možné príčiny úspechu produktu alebo zlyhania súvisiace s tým, ako, kedy a kde sa výrobky používajú. Servisné a opravárenské operácie môžu lepšie plánovať zásoby dielov a personálne obsadenie. Profesionálne servisné organizácie môžu pomocou dolovania dát identifikovať nové príležitosti vyplývajúce z meniacich sa ekonomických trendov a demografických zmien.
Ťažba dát sa stáva užitočnejšou a cennejšou vďaka väčším súborom dát a s väčšou používateľskou skúsenosťou. Logicky, čím viac údajov, tým viac postrehov a inteligencie by sa tam malo pochovať. Tiež, keď sa používatelia lepšie zoznámia s nástrojmi a lepšie pochopia databázu, tým kreatívnejší môžu byť s ich prieskumami a analýzami.
Prečo používať Data Mining?
Prvoradým prínosom dolovania dát je jeho schopnosť identifikovať vzory a vzťahy vo veľkých objemoch dát z viacerých zdrojov. S čoraz väčším počtom dostupných údajov – od rôznych zdrojov, ako sú sociálne médiá, diaľkové snímače a čoraz podrobnejšie správy o pohybe produktov a trhovej činnosti – ponúka dátová ťažba nástroje na úplné využitie veľkých dát a ich premenu na použiteľnú inteligenciu. Navyše môže pôsobiť ako mechanizmus „myslenia mimo krabice“.
Proces dolovania dát dokáže odhaliť prekvapujúce a zaujímavé vzťahy a vzory v zdanlivo nesúvisiacich bitoch informácií. Pretože informácie zvyknú byť roztrieštené, historicky bolo ťažké alebo nemožné analyzovať ako celok. Môže však existovať vzťah medzi vonkajšími faktormi – možno demografickými alebo ekonomickými faktormi – a výkonnosťou produktov spoločnosti. A zatiaľ čo vedúci pracovníci pravidelne sledujú čísla predaja podľa oblasti, produktovej línie, distribučného kanála a regiónu, často im chýba externý kontext pre tieto informácie. Ich analýza poukazuje na „čo sa stalo“, ale len málo odhaľuje „prečo sa to takto stalo“. Mining dát môže túto medzeru vyplniť.
Mining dát môže hľadať korelácie s vonkajšími faktormi; hoci korelácia nie vždy naznačuje príčinnú súvislosť, tieto trendy môžu byť cennými ukazovateľmi, ktoré usmerňujú rozhodnutia o produkte, kanáli a výrobe. Z tej istej analýzy profitujú aj ďalšie časti podniku od návrhu produktu až po prevádzkovú efektivitu a dodávku služieb.
História dolovania dát
Ľudia zhromažďujú a analyzujú údaje už tisíce rokov a v mnohých ohľadoch tento proces zostal rovnaký: identifikujte potrebné informácie, nájdite kvalitné zdroje údajov, zhromažďujte a kombinujte údaje, použite najúčinnejšie nástroje, ktoré sú k dispozícii na analýzu údajov, a využite to, čo ste sa naučili. Ako výpočtové a dátové systémy rástli a pokročili, tak majú nástroje na správu a analýzu dát. Skutočný inflektový bod prišiel v 60. rokoch 20. storočia s vývojom relačnej databázovej technológie a používateľsky orientovaných nástrojov na vyhľadávanie prirodzeného jazyka, ako je štruktúrovaný jazyk dotazov (SQL). Už neboli údaje dostupné len prostredníctvom vlastných kódovaných programov. S týmto prelomom mohli podnikoví používatelia interaktívne skúmať svoje údaje a vytrhnúť skryté drahokamy inteligencie pochované vo vnútri.
Data Mining je tradične špecializovaný súbor zručností v oblasti dátovej vedy. Každá nová generácia analytických nástrojov však začína vyžadovať pokročilé technické zručnosti, ale rýchlo sa vyvíja tak, aby sa stali dostupnými pre používateľov. Kľúčovým pokrokom je interaktivita – schopnosť nechať dáta komunikovať s vami. Opýtajte sa, pozrite si odpoveď. Na základe toho, čo sa naučíte, položte inú otázku. Tento druh neštruktúrovaného roamingu prostredníctvom dát posúva používateľa za hranice databázového návrhu špecifického pre aplikáciu a umožňuje objavovanie vzťahov, ktoré presahujú funkčné a organizačné hranice.
Dolovanie dát je kľúčovou zložkou business intelligence. Nástroje na dolovanie dát sú zabudované do výkonných dashboardov, získavanie informácií z Big Data, vrátane dát zo sociálnych médií, senzorových kanálov Internet of Things (IoT), zariadení s informáciou o polohe, neštruktúrovaného textu, videa a ďalších. Moderná ťažba údajov sa spolieha na cloud a virtuálnu výpočtovú techniku, ako aj na in-memory databázy, hospodárne spravovanie údajov z mnohých zdrojov a škálovanie na požiadanie.
Ako funguje dolovanie dát?
Existuje približne toľko prístupov k vyťažovaniu dát, koľko je dátových baníkov. Prístup závisí od druhu položených otázok a obsahu a organizácie databázy alebo súborov údajov, ktoré poskytujú surovinu na vyhľadávanie a analýzu. Existuje však niekoľko organizačných a prípravných krokov, ktoré by sa mali dokončiť na prípravu údajov, nástrojov a používateľov:
- Pochopte problém – alebo aspoň oblasť vyšetrovania. Orgán s rozhodovacou právomocou, ktorý by mal byť v sedle vodiča pre toto terénne dobrodružstvo, potrebuje všeobecné pochopenie oblasti, v ktorej budú pracovať – typy interných a externých údajov, ktoré majú byť súčasťou tohto prieskumu. Predpokladá sa, že majú intímne vedomosti o podnikaní a príslušných funkčných oblastiach.
- Zhromažďovanie údajov. Začnite s vašimi internými systémami a databázami. Prepojte ich prostredníctvom svojich dátových modelov a rôznych relačných nástrojov alebo zhromažďujte údaje do dátového skladu. To zahŕňa všetky údaje z externých zdrojov, ktoré sú súčasťou vašich operácií, ako sú údaje o predaji v teréne a/alebo službách, IoT alebo údaje sociálnych médií. Vyhľadajte a získajte práva na externé údaje vrátane demografických údajov, ekonomických údajov a informácií o trhu, ako sú trendy v odvetví a finančné referenčné hodnoty od obchodných združení a vlád. Preneste ich do purpuru súpravy nástrojov (preneste ich do dátového skladu alebo ich prepojte s prostredím Data Mining).
- Príprava a pochopenie údajov. Použite odborníkov na predmet vašej firmy, aby ste pomohli definovať, kategorizovať a organizovať údaje. Táto časť procesu sa niekedy nazýva dátový wrangling alebo munging. Niektoré údaje môžu vyžadovať očistenie alebo „čistenie“ na odstránenie duplicity, nekonzistencií, neúplných záznamov alebo zastaraných formátov. Príprava a čistenie údajov môže byť prebiehajúcou úlohou, pretože sa stávajú zaujímavé nové projekty alebo údaje z nových vyšetrovacích oblastí.
- Školenie používateľa. Nedali by ste svojmu tínedžerovi kľúče od rodiny Ferrari bez toho, aby ste ich absolvovali školením vodiča, školením na cestách a niektorými kontrolovanými praktikami s licencovaným vodičom – takže nezabudnite poskytnúť formálne školenie vašim budúcim baníkom s údajmi, ako aj niektoré kontrolované postupy, keď sa začnú oboznamovať s týmito mocnými nástrojmi. Pokračujúce vzdelávanie je tiež dobrý nápad, keď zvládnu základy a môžu prejsť na pokročilejšie techniky.
Techniky dolovania údajov
Majte na pamäti, že dolovanie údajov je založené skôr na súprave nástrojov, než na pevnej rutine alebo procese. Špecifické techniky dolovania údajov, ktoré sú tu uvedené, sú len príklady toho, ako organizácie používajú nástroje na skúmanie svojich údajov pri hľadaní trendov, korelácií, spravodajských informácií a obchodných poznatkov.
Všeobecne povedané, prístupy k dolovaniu údajov možno kategorizovať podľa smerovania – zamerané na konkrétny požadovaný výsledok – alebo neusmerňovať ako proces objavovania. Ďalšie prieskumy môžu byť zamerané na triedenie alebo klasifikáciu údajov, ako je zoskupovanie potenciálnych zákazníkov podľa obchodných atribútov, ako je odvetvie, produkty, veľkosť a lokácia. Podobný cieľ, odľahlá alebo anomálna detekcia, je automatizovaná metóda rozpoznávania skutočných anomálií (nie jednoduchej variability) v rámci súboru údajov, ktoré zobrazujú identifikovateľné vzory.
Asociácia
Ďalším zaujímavým cieľom je asociácia – prepojenie dvoch zdanlivo nesúvisiacich podujatí či aktivít. Klasický príbeh z prvých dní analýzy a vyťažovania dát, možno fiktívny, má reťazec pohodlných predajní, ktorý odhaľuje koreláciu medzi predajom piva a plienok. Špekulácia o tom, že obťažovali nových otcov, ktorí vypršali neskoro večer, aby dostali plienky, môže chytiť pár šiestich balení, kým sú tam. Predajne umiestňujú pivo a plienky v tesnej blízkosti a v dôsledku toho zvyšujú predaj piva.
Klastrovanie
Tento prístup je zameraný na zoskupovanie údajov podľa podobností, nie podľa vopred stanovených predpokladov. Keď napríklad vyťažíte informácie o predaji zákazníkov v kombinácii s externými spotrebiteľskými úvermi a demografickými údajmi, môžete zistiť, že vaši najziskovejší zákazníci pochádzajú zo stredne veľkých miest. Väčšinu času sa dolovanie dát uskutočňuje na podporu predpovedí alebo prognóz. Čím lepšie pochopíte vzory a správanie, tým lepšiu prácu môžete vykonať pri prognózovaní budúcich akcií súvisiacich s príčinnými súvislosťami alebo koreláciami.
Regresia
Jedna z matematických techník ponúkaných v balíkoch nástrojov na dolovanie dát, regresná analýza predpovedá číslo založené na historických vzoroch premietnutých do budúcnosti. Rôzne ďalšie algoritmy detekcie a sledovania vzorov poskytujú flexibilné nástroje, ktoré používateľom pomáhajú lepšie pochopiť údaje a správanie, ktoré predstavujú. Ide len o niekoľko techník a nástrojov, ktoré sú k dispozícii v súpravách nástrojov na dolovanie údajov. Výber nástroja alebo techniky je trochu automatizovaný v tom, že techniky budú aplikované podľa toho, ako je položená otázka. V skorších časoch bola databáza označovaná ako „krájanie a diktovanie“, ale prax je teraz sofistikovanejšia a bežné sú pojmy ako asociácia, zhlukovanie a regresia.
Prípady použitia a príklady
Ťažba dát je kľúčom k analýze sentimentu, optimalizácii cien, databázovému marketingu, riadeniu úverového rizika, školeniam a podpore, odhaľovaniu podvodov, zdravotnej a lekárskej diagnóze, hodnoteniu rizík, odporúčacím systémom („zákazníkom, ktorí si to kúpili aj… “) a oveľa viac. Môže byť účinným nástrojom v každom odvetví vrátane maloobchodu, veľkoobchodu, odvetvia služieb, telekomunikácií, komunikácií, poisťovníctva, vzdelávania, výroby, zdravotníctva, bankovníctva, vedy, inžinierstva a online marketingu alebo sociálnych médií.
Vývoj produktov: Spoločnosti, ktoré navrhujú, vyrábajú alebo distribuujú fyzické produkty, môžu určiť príležitosti na lepšie zacielenie svojich produktov analýzou nákupných modelov v spojení s ekonomickými a demografickými údajmi. Ich dizajnéri a inžinieri môžu tiež odkazovať na spätnú väzbu zákazníkov a používateľov, záznamy opráv a ďalšie údaje na identifikáciu príležitostí na zlepšenie produktov.
Výroba: Výrobcovia môžu sledovať trendy v oblasti kvality, údaje o opravách, miery výroby a údaje o výkonnosti výrobkov z danej oblasti, aby identifikovali problémy s výrobou. Môžu tiež rozpoznať možné inovácie procesov, ktoré by zlepšili kvalitu, ušetrili čas a náklady, zlepšili výkon produktu a/alebo poukázali na potrebu nových alebo lepších továrenských zariadení.
Odvetvia služieb: V odvetviach služieb môžu používatelia nájsť podobné príležitosti na zlepšenie produktov krížovým odkazom na spätnú väzbu od zákazníkov (priamo alebo zo sociálnych médií alebo iných zdrojov) s konkrétnymi službami, kanálmi, údajmi o výkonnosti partnerov, regiónom, cenotvorbou, demografickými údajmi, ekonomickými údajmi atď.
Napokon, všetky tieto zistenia by sa mali vrátiť k prognózovaniu a plánovaniu, aby sa celá organizácia prispôsobila očakávaným zmenám v dopyte na základe dôvernejších znalostí zákazníka – a aby mohla lepšie využívať novo identifikované príležitosti.
Výzvy na dolovanie údajov
Veľké dáta: Dáta sa generujú rýchlo zrýchľujúcim tempom a ponúkajú stále viac príležitostí na ťažbu dát. Na extrahovanie významu z Big Data sú však potrebné moderné nástroje na dolovanie dát vzhľadom na vysoký objem, vysokú rýchlosť a širokú škálu dátových štruktúr, ako aj rastúci objem neštruktúrovaných dát. Mnohé existujúce systémy majú problém zvládnuť, uložiť a využiť túto povodeň vstupu.
Kompetencia používateľa: Nástroje na dolovanie a analýzu údajov sú navrhnuté tak, aby používateľom a rozhodovateľom pomohli zmysluplný a koaxiálny význam a prehľad z masy údajov. Hoci sú vysoko technické, tieto výkonné nástroje sú teraz balené s vynikajúcim dizajnom používateľských skúseností, takže prakticky každý môže používať tieto nástroje s minimálnym školením. Ak však chcete plne získať výhody, používateľ musí pochopiť dostupné údaje a obchodný kontext informácií, ktoré hľadá. Musia tiež aspoň všeobecne vedieť, ako nástroje fungujú a čo dokážu. Nie je to mimo dosahu priemerného manažéra alebo exekutívy, ale je to proces výučby a používatelia musia vynaložiť určité úsilie na rozvoj tohto nového súboru zručností.
Kvalita a dostupnosť údajov: S masami nových údajov sú aj masy neúplných, nesprávnych, zavádzajúcich, podvodných, poškodených alebo len obyčajných zbytočných údajov. Nástroje to všetko môžu pomôcť vyriešiť, ale používatelia si musia byť neustále vedomí zdroja údajov a ich dôveryhodnosti a spoľahlivosti. Obavy týkajúce sa ochrany osobných údajov sú tiež dôležité, pokiaľ ide o získavanie údajov, ako aj starostlivosť a zaobchádzanie s nimi, keď sú vo vašej držbe.
Často kladené otázky týkajúce sa dolovania údajov
Rozšírte svoju odbornosť v oblasti správy údajov
Pochopenie procesu správy údajov a jeho výhod.
Nápady nenájdete nikde inde
Zaregistrujte sa na dávku business intelligence doručenú priamo do vašej schránky.