flex-height
text-black

Dáta burzy

Čo je dolovanie údajov?

dolovanie dát je extrakcia užitočných informácií z veľkých množín dát pomocou strojového učenia a iných nástrojov na objavovanie vzorov, anomálií a prehľadov pre rozhodovanie.

default

{}

default

{}

primary

default

{}

secondary

Prehľad Data Mining

V tomto digitálnom veku sa organizácie prirodzene hromadia čoraz rozsiahlejšie objemy dát a mnohí vedúci pracovníci to dnes vnímajú ako poklad praktických pohľadov. Čo je to teda dolovanie údajov a ako uľahčuje získavanie cenných informácií zo súborov údajov? Data Mining je proces objavovania užitočných informácií z akumulácie dát, často z dátového skladu alebo zbierky prepojených dátových súborov. dolovanie dát môže zahŕňať strojové učenie, štatistickú analýzu a ďalšie výkonné analytické nástroje používané na presúvanie veľkých množín údajov na identifikáciu trendov, skrytých vzorov, anomálií a vzťahov na podporu informovaného rozhodovania a plánovania.

Jedným z menej zrejmých výhod dolovania dát – a hlavným dôvodom, prečo je dnes ťažba dát dôležitá – je to, že hromadenie dát, ktoré často sprevádza digitalizáciu, mení na výhodu. Keďže organizácie čoraz viac modernizujú a digitalizujú svoje operácie, majú tendenciu generovať a zhromažďovať čoraz viac dát. Takže pre veľký podnik, ktorý má masívne dátové súbory, ponúka dátová ťažba efektívny spôsob, ako využiť množstvo informácií, ktoré už disponujú.

Prečo je dôležité dolovanie dát?

Dolovanie dát je dôležité, pretože mení dáta organizácie na kľúčovú zložku business intelligence. Nástroje na dolovanie dát sú zabudované do výkonných dashboardov, zhromažďujú prehľad z veľkých dát vrátane dát zo sociálnych médií, informačných kanálov senzorov Internet of Things (IoT), zariadení, ktoré si uvedomujú polohu, neštruktúrovaného textu, videa a ďalších. Moderná dátová ťažba sa spolieha na cloud a virtuálne výpočty, ako aj na databázy in-memory, aby spravovali údaje z mnohých zdrojov nákladovo efektívne a rozšírili sa na dopyt.

Akú obchodnú hodnotu teda môže priniesť dolovanie dát? Primárnym prínosom dátovej ťažby je jej schopnosť identifikovať vzory a vzťahy vo veľkom objeme dát z viacerých zdrojov, vrátane sociálnych médií, vzdialených senzorov a iných monitorovacích zariadení, čoraz podrobnejších správ o pohybe produktov a trhovej činnosti, a predovšetkým aplikácií a iného softvéru používaného organizáciou.

To znamená dve veci. Ťažba dát môže pomôcť ľuďom v rôznych úlohách, naprieč odvetviami, premýšľať mimo krabice tým, že čerpá zo širokej škály zdrojov a odhaľuje neprehliadnuteľné vzťahy a vzory v zdanlivo nesúvisiacich bitoch informácií. Vďaka tomu je ťažba dát dôležitá pre veľké organizácie, najmä pre podniky, kde majú informácie tendenciu byť roztrieštené - siloed.

Okrem toho výhody dátovej ťažby siahajú nielen do predaja, ale aj do iných obchodných oblastí: vďaka tejto schopnosti rozkladať silá môže posilniť širokú škálu úloh. Inžinieri a dizajnéri môžu analyzovať účinnosť zmien produktov a hľadať možné príčiny úspechu alebo zlyhania produktu. Prevádzka servisu a opráv môže lepšie plánovať inventár dielov a personálne obsadenie. Profesionálne servisné organizácie môžu využiť dolovanie dát na identifikáciu nových príležitostí vytvorených zmenou ekonomických trendov a demografických zmien. Ťažba údajov môže dokonca pomôcť odhaliť podvody, najmä v odvetviach, ako sú financie, maloobchod a zdravotníctvo.

Inými slovami, potenciálne výhody ťažby dát siahajú do celej škály obchodných funkcií: od pomoci pri zvyšovaní výnosov a znižovaní nákladov až po zlepšenie vzťahov so zákazníkmi, predchádzanie podvodom a doladenie prognóz predaja.

Ťažba dát je dôležitá, pretože môže priniesť podstatnú obchodnú hodnotu pre celý rad cieľov – napríklad:

Ako funguje dolovanie údajov?

Jednoducho povedané, dolovanie údajov funguje pomocou strojového učenia, štatistickej analýzy a ďalších analytických nástrojov na analýzu veľkých množín nespracovaných údajov a objavovanie skrytých vzorov, ktoré možno použiť na získanie použiteľných prehľadov. Skutočné techniky a kroky dolovania dát závisia od druhu kladených otázok a od obsahu a organizácie databázy alebo dátových súborov poskytujúcich surovinu na vyhľadávanie a analýzu. Existujú však niektoré kroky, ktoré proces dolovania údajov zvyčajne zahŕňa.

5-krokový proces dolovania dát

1. Zhromažďovanie údajov:

2. Predbežné spracovanie údajov:

3. Modelová budova:

4. Hodnotenie:

5. Interpretácia:

Techniky dolovania kľúčových údajov

Klasifikácia

Jedna spoločná technika dolovania údajov zahŕňa triedenie nových údajov do preddefinovaných kategórií na základe vzorov získaných z historických údajov: napríklad zoskupovanie zákazníkov na základe toho, či sa pravdepodobne vrátia analýzou svojich nákupných vzorov, histórie platieb a úrovní zapojenia. Pomohlo by to nielen rozlíšiť dôležité segmenty zákazníkov, ale aj prehĺbiť vaše chápanie vzťahov so zákazníkmi.

Detekcia anomálie

Detekcia anomálie je obzvlášť dôležitá pre ciele, ako je prevencia podvodov, bezpečnosť siete a overovanie identity. Táto technika dolovania údajov môže napríklad pomôcť odhaliť nezvyčajnú aktivitu kreditnej karty, ktorá sa líši od typického používania zákazníkom na základe faktorov, ako sú neočakávané miesta, neobvyklé nákupy online alebo necharakteristické veľké čiastky. Metódy dolovania dát však môžu tiež pomôcť objaviť nové prediktory, ktoré nie sú také zrejmé, čo nás privádza k ďalšej technike dolovania dát.

Klastrovanie

Klastrovanie je technika dolovania dát zameraná na objavovanie prirodzených zoskupení založených skôr na podobnostiach v dátach než na vopred definovaných predpokladoch (na rozdiel od klasifikácie), v konečnom dôsledku odhaľujúca skryté vzory a vzťahy. V príklade kreditnej karty by klastrovanie mohlo odhaliť ďalšie príznaky podozrivej činnosti. Napríklad historické údaje z účtov, ktoré utrpeli podvodníci, môžu odhaliť, že štatisticky významný podiel z nich má inú podobnosť: možno všetci ukázali vzor malých testovacích nákupov od konkrétneho obchodníka, po ktorom nasledujú veľké transakcie. Potom by sa v budúcnosti tento model mohol použiť na odhalenie podvodnej činnosti v reálnom čase.

Pravidlá asociácie

Ďalšou kľúčovou technikou dolovania dát je ťažba asociačných pravidiel: prepojenie dvoch zdanlivo nesúvisiacich udalostí alebo činností. Predstavte si, že sa snažíte optimalizovať umiestňovanie produktov v supermarkete, aby ste maximalizovali predaj. Na špekuláciu o tom, že zákazníci, ktorí si plienky kupujú, si pravdepodobne kúpia aj iné detské výrobky, ako sú detské obrúsky, neberie do úvahy ťažbu dát. Táto technika získavania údajov však môže objaviť iné, menej zrejmé príležitosti krížového predaja: možno si všimnete, že zákazníci, ktorí v lete skladujú na jednorazových príboroch, si tiež častejšie kupujú repelenty proti hmyzu a marshmallows. Tieto produkty by sa zvyčajne nachádzali v rôznych zónach produktov, ale ťažba údajov by mohla poukazovať na sezónnu nákupnú misiu: získavanie zásob na trávenie času vonku. V tomto scenári by technika dolovania dát asociačného pravidla pomohla obchodníkovi využiť túto sezónnu príležitosť.

Regresia

Jedna z matematických techník dolovania dát, regresná analýza predpovedá číslo založené na historických vzorcoch. Je to klasický nástroj používaný v mnohých oblastiach a kontextoch vrátane prognózy predaja, prognóz akciových cien a finančnej analýzy.

Všimnite si, že ide len o niekoľko najbežnejších typov techník dolovania dát, ktoré sú často dostupné v súpravách nástrojov na dolovanie dát.

Aplikácie a príklady dolovania dát

Prípady použitia dolovania dát zahŕňajú analýzu nálady, optimalizáciu cien, marketing databáz, riadenie úverových rizík, školenie a podporu, odhaľovanie podvodov, zdravotnú a lekársku diagnostiku, hodnotenie rizík, systémy odporúčaní krížového predaja a upsellingu a oveľa viac. A môže to byť účinný nástroj v každom odvetví, od maloobchodu a veľkoobchodnej distribúcie až po výrobu, zdravotnú starostlivosť a financie.

Kľúčové prípady použitia dolovania dát

Vývoj produktov

Spoločnosti, ktoré navrhujú, vyrábajú alebo distribuujú fyzické produkty, môžu využívať dolovanie údajov na určenie príležitostí na lepšie zacielenie svojich produktov analýzou nákupných modelov spolu s ekonomickými a demografickými údajmi. Návrhári a inžinieri môžu tiež odkazovať na zákazníkov a používateľov, záznamy opráv a ďalšie údaje na identifikáciu príležitostí na zlepšenie produktov. A tí, ktorí rozhodujú o podnikaní, si dokonca môžu vybrať, ktoré nové typy produktov sa majú zaviesť na základe toho, čo zákazníci zvyčajne chcú kúpiť spolu so súčasnými produktmi.

Príklady dolovania údajov, ktoré sa používajú na usmernenie vývoja produktov:

Výroba

Výrobcovia môžu sledovať trendy kvality, údaje o opravách, výrobné sadzby a údaje o výkonnosti produktu z danej oblasti, aby identifikovali obavy týkajúce sa výroby. Môžu tiež rozpoznať možné inovácie procesov, ktoré by zlepšili kvalitu, ušetrili čas a zdroje, zlepšili výkon produktu a poukázali na potrebu nových alebo lepších továrenských zariadení.

Príklady data miningu používaného na optimalizáciu výrobných procesov:

Odvetvia služieb

V odvetviach služieb môžu spoločnosti nájsť podobné príležitosti na zlepšenie služieb krížovým odkazom na spätnú väzbu zákazníkov (priamu alebo zo sociálnych médií alebo iných zdrojov) so špecifickými službami, kanálmi, prípadmi podpory zákazníkov, údajmi o výkonnosti partnerov, regiónom, cenotvorbou, demografiou, ekonomickými údajmi a ďalšími faktormi.

Príklady dolovania dát, ktoré sa používajú na zabezpečenie personalizácie zákazníka v odvetviach služieb:

Prognóza predaja

Bez ohľadu na odvetvie je dolovanie dát neoceniteľné pre prognózovanie a plánovanie predaja. Analýzy založené na údajoch môžu pomôcť predvídať výkyvy dopytu, spresniť analýzu trhu, predpovedať zmeny cien a ešte oveľa viac.

Príklady dolovania dát používané na spresnenie prognózy predaja:

Zisťovanie podvodov

Pri odhaľovaní podvodov sa vo veľkej miere používa dolovanie dát – vyššie uvedený príklad kreditnej karty je len jedným z mnohých prípadov použitia vyťažovania dát na predchádzanie podvodom. Technika detekcie anomálií pomáha odhaliť podozrivé odľahlé hodnoty, ale užitočné sú aj iné metódy dolovania údajov, ktoré pomáhajú odhaliť nové vzory a neustále zdokonaľovať opatrenia na predchádzanie podvodom.

Príklady vyťažovania údajov používané na zlepšenie odhaľovania podvodov:

Výhody a výzvy v oblasti dolovania údajov

Väčšina nevýhod dátovej ťažby je prevážená jej výhodami, ale existujú určité výzvy dátovej ťažby, o ktorých si organizácie musia byť vedomé.

Veľké dáta

Prínos: Vytvára sa čoraz viac údajov, ktoré ponúkajú čoraz viac príležitostí na dolovanie údajov a v dôsledku toho aj lepšie rozhodovanie.

Výzva: Vďaka veľkému objemu, vysokej rýchlosti a širokej škále dátových štruktúr, ako aj rastúcej prevalencii neštruktúrovaných dát sa existujúce systémy snažia zvládnuť, skladovať a využívať túto záplavu vstupu. Takže, ak chcete extrahovať význam z Big Data, spoločnosti potrebujú vhodný, výkonný softvér.

Kompetencia používateľa

Prínos: Nástroje na dolovanie a analýzu údajov môžu používateľom a ďalším zainteresovaným stranám pomôcť pri prijímaní lepšie informovaných rozhodnutí založených na údajoch.

Výzva: Hoci nástroje používané na dolovanie dát sa stali oveľa užívateľsky ústretovejšími, vyžaduje si určité školenia, aby ich využili na svoj plný potenciál. Používatelia musia pochopiť, aké údaje sú k dispozícii, mať aspoň všeobecnú predstavu o tom, ako funguje dolovanie údajov a byť zdatní v obchodnom kontexte, ako aj regulačné otázky a obavy o dodržiavanie predpisov týkajúce sa používania údajov – to všetko si vyžaduje určité vzdelávanie používateľov.

Ochrana osobných údajov a regulačný dohľad

Výhoda: Personalizácia aktivovaná analýzami založenými na údajoch môže zlepšiť zákaznícku skúsenosť.

Výzva: Údaje a najmä údaje používateľov, ktoré patria súkromným osobám, podliehajú regulačnému dohľadu. Skutočné postupy a nariadenia v oblasti ochrany údajov sa však líšia v závislosti od regiónu a stále sú náchylné na zmenu, takže pre organizácie, ktoré manipulujú s údajmi, môžu byť náročné, avšak rozhodujúce.

Kvalita a dostupnosť údajov

Prínos: Čoraz väčšie objemy a rozmanitosť dostupných údajov spôsobujú, že ťažba dát je dôležitejšia ako kedykoľvek predtým.

Výzva: Pri objemoch nových údajov sa vyskytujú aj masy neúplných, nesprávnych, zavádzajúcich, podvodných, poškodených alebo len obyčajných zbytočných údajov. Používatelia si musia byť vždy vedomí zdroja údajov, ich dôveryhodnosti a spoľahlivosti a obavy týkajúce sa ochrany súkromia a údajov; a organizácie musia byť zodpovedné za ochranu ich, ako aj ich zákazníkov, údajov pred porušeniami a iným nesprávnym zaobchádzaním.

Dolovanie dát vs. súvisiace koncepty

Dolovanie dát verzus strojové učenie

Rozdiel medzi data miningom a strojovým učením je, že strojové učenie je súbor nástrojov a algoritmov vyškolených na vyhľadávanie vzorov a korelácií vo veľkých množinách dát, zatiaľ čo dolovanie dát je proces extrakcie užitočných informácií z akumulácie dát. Strojové učenie je jedným z nástrojov používaných pri dolovaní údajov na vytváranie prediktívnych modelov, ale nie je jediným nástrojom, a nie je ani dolovaním údajov jedinou aplikáciou strojového učenia.

Dolovanie dát verzus analýza

Medzi data miningom a dátovou analytikou je jemný rozdiel. Analýza alebo analýza údajov sú všeobecné pojmy pre širokú škálu postupov zameraných na identifikáciu užitočných informácií, ich hodnotenie a poskytovanie konkrétnych odpovedí. dolovanie údajov je jeden typ analýzy údajov, ktorý je zameraný na kopanie do veľkých kombinovaných množín údajov na objavovanie vzorov, trendov a vzťahov, ktoré môžu viesť k prehľadom a predpovediam.

dolovanie údajov verzus veda o údajoch

Dátová veda nie je rovnaká ako dolovanie dát, ale pojmy súvisia. Dátová veda je pojem, ktorý zahŕňa mnoho informačných technológií vrátane štatistík, matematiky a sofistikovaných výpočtových techník aplikovaných na dáta. Data Mining je prípad použitia pre dátovú vedu zameranú na analýzu veľkých dátových súborov zo širokej škály zdrojov s cieľom odhaliť užitočné pohľady.

Dolovanie dát verzus dátový sklad

Dátový sklad je súbor údajov, zvyčajne z viacerých zdrojov (ERP, CRM atď.), ktoré spoločnosť skombinuje do skladu pre archívne ukladanie a široké analýzy, ako je napríklad dolovanie dát.

Často kladené otázky

Je dolovanie dát zlé?
Ťažba dát nie je dobrá ani zlá – je to nástroj a podobne ako väčšina nástrojov môže byť užitočná pri bezpečnej a správnej manipulácii. Inými slovami, dolovanie dát môže byť pre organizáciu veľmi prospešné, ale môže zahŕňať manipuláciu s citlivými typmi údajov vrátane zákazníckych údajov, takže si vyžaduje prísne dodržiavanie predpisov o ochrane údajov a primerané zabezpečenie na ochranu údajov.
Aké sú najčastejšie techniky dolovania dát?
Najbežnejšie techniky dolovania dát sú asociačné pravidlá, detekcia anomálií (tiež nazývaná detekcia odľahlých hodnôt), klasifikácia, klastrovanie a regresia.
V akých odvetviach sa používa dolovanie údajov?
Dátová ťažba sa používa v oblasti vzdelávania, zdravotníctva, financií a investícií, výroby, maloobchodu, servisného priemyslu, telekomunikácií, IT a mnohých ďalších odvetví. V tomto digitálnom veku je dátová ťažba dôležitá a môže byť užitočným nástrojom práve pre každý priemysel.
Aké sú najčastejšie použitia na dolovanie dát?
Najbežnejším využívaním pri dolovaní dát sú informovanie rozhodujúcich činiteľov a zlepšovanie stratégií a plánovania, takže má širokú škálu aplikácií v oblasti vývoja produktov, marketingu a komunikácie, predaja, riadenia dodávateľského reťazca (SCM), predchádzania podvodom, zákazníckych služieb a zákazníckych skúseností a ľudských zdrojov (HR). Jednoducho povedané, dolovanie dát môže byť užitočné vo väčšine oblastí podnikania.