Co je to dolování dat?
Dolování dat je proces využití pokročilých analytických nástrojů pro získávání užitečných informací z akumulace dat.
Přehled Data Mining
Dolování dat je proces získávání užitečných informací z akumulace dat, často z datového skladu nebo ze sběru propojených datových souborů. Nástroje pro dolování dat zahrnují výkonné statistické, matematické a analytické funkce, jejichž primárním účelem je prosadit velké množiny dat za účelem identifikace trendů, vzorů a vztahů na podporu informovaného rozhodování a plánování.
Mnozí vedoucí pracovníci často považují dolování dat za způsob, jak lépe porozumět poptávce a vidět vliv změn v produktech, cenách nebo propagaci na prodej, často spojené s dotazy marketingového oddělení. Vytěžování dat má však značný přínos i pro další obchodní oblasti. Inženýři a návrháři mohou analyzovat účinnost změn produktů a hledat možné příčiny úspěchu nebo selhání produktu v souvislosti s tím, jak, kdy a kde se produkty používají. Servisní a opravárenské operace mohou lépe plánovat zásoby dílů a personální obsazení. Profesionální servisní organizace mohou využít dolování dat k identifikaci nových příležitostí z měnících se ekonomických trendů a demografických posunů.
Vytěžování dat se stává užitečnějším a cennějším díky větším datovým sadám a větším uživatelským zkušenostem. Logicky platí, že čím více dat, tím více poznatků a inteligence by tam mělo být pohřbeno. Také, jak se uživatelé více seznámí s nástroji a lépe porozumějí databázi, tím kreativnější mohou být se svými průzkumy a analýzami.
Proč používat dolování dat?
Primárním přínosem dolování dat je jeho schopnost identifikovat vzory a vztahy ve velkých objemech dat z více zdrojů. Díky stále většímu počtu dostupných dat – ze zdrojů tak rozmanitých, jako jsou sociální média, vzdálené senzory a stále podrobnější zprávy o pohybu produktů a tržních aktivitách – nabízí dolování dat nástroje k plnému využití velkých dat a jejich přeměně na použitelnou inteligenci. Navíc může fungovat jako mechanismus pro „myšlení mimo krabici“.
Proces dolování dat dokáže odhalit překvapivé a zajímavé vztahy a vzory ve zdánlivě nesouvisejících informacích. Vzhledem k tomu, že informace mají tendenci být kompartmentalizovány, bylo historicky obtížné nebo nemožné analyzovat jako celek. Může však existovat vztah mezi vnějšími faktory – možná demografickými či ekonomickými – a výkonností produktů společnosti. A zatímco vedoucí pracovníci se pravidelně dívají na prodejní čísla podle oblasti, produktové řady, distribučního kanálu a regionu, často pro tyto informace postrádají externí kontext. Jejich analýza poukazuje na „to, co se stalo“, ale dělá málo pro odhalení „proč se to stalo tímto způsobem“. Dolování dat může tuto mezeru zaplnit.
Dolování dat může hledat korelace s vnějšími faktory; zatímco korelace ne vždy naznačuje příčinu, tyto trendy mohou být cennými ukazateli pro rozhodování o produktu, kanálu a výrobě. Stejná analýza je přínosem pro ostatní části podnikání od návrhu produktu až po provozní efektivitu a poskytování služeb.
Historie dolování dat
Lidé shromažďují a analyzují data již tisíce let a v mnoha ohledech zůstává proces stejný: identifikovat potřebné informace, najít kvalitní zdroje dat, shromažďovat a kombinovat data, používat nejefektivnější dostupné nástroje pro analýzu dat a využívat to, co jste se naučili. Jak výpočetní a datové systémy rostly a pokročily, tak mají nástroje pro správu a analýzu dat. Skutečný inflekční bod přišel v 60. letech s vývojem relačních databázových technologií a uživatelsky orientovaných nástrojů pro dotazování přirozeného jazyka, jako je Strukturovaný dotazovací jazyk (SQL). Již nebyla data dostupná pouze prostřednictvím vlastních kódovaných programů. Díky tomuto průlomu mohli podnikoví uživatelé interaktivně prozkoumávat svá data a odstraňovat skryté drahokamy inteligence pohřbené uvnitř.
Dolování dat je tradičně specializovaným souborem dovedností v rámci datové vědy. Každá nová generace analytických nástrojů však začíná vyžadovat pokročilé technické dovednosti, ale rychle se vyvíjí, aby se stala přístupnou pro uživatele. Klíčovým pokrokem je interaktivita – schopnost nechat data mluvit s vámi. Položte otázku; viz odpověď. Na základě toho, co se naučíte, položte další otázku. Tento druh nestrukturovaného roamingu prostřednictvím dat přesahuje uživatele za hranice návrhu databáze specifické pro aplikaci a umožňuje odhalit vztahy, které překračují funkční a organizační hranice.
Dolování dat je klíčovou složkou business intelligence. Nástroje pro dolování dat jsou integrovány do řídicích panelů vedoucích pracovníků, které shromažďují přehledy z velkých objemů dat, včetně dat ze sociálních médií, informačních kanálů senzorů internetu věcí (Internet of Things, IoT), zařízení na základě polohy, nestrukturovaného textu, videa a dalších. Moderní vytěžování dat se spoléhá na cloud a virtuální výpočetní techniku, stejně jako in-memory databáze, pro správu dat z mnoha zdrojů nákladově efektivních a škálovatelných na vyžádání.
Jak funguje dolování dat?
Existuje asi tolik přístupů k datovému dolování, jako jsou datoví horníci. Přístup závisí na druhu kladených otázek a obsahu a organizaci databáze nebo datových souborů poskytujících surovinu pro vyhledávání a analýzu. To znamená, že existují některé organizační a přípravné kroky, které by měly být dokončeny pro přípravu dat, nástrojů a uživatelů:
- Pochopte problém – nebo alespoň oblast šetření. Osoba, která rozhoduje o podnikání a která by měla být v místě řidiče při tomto dobrodružství s vytěžováním dat, potřebuje obecné pochopení oblasti, ve které budou pracovat – typů interních a externích dat, které mají být součástí tohoto průzkumu. Předpokládá se, že mají intimní znalosti o podnikání a funkčních oblastech, kterých se to týká.
- Shromažďování dat. Začněte s interními systémy a databázemi. Propojte je prostřednictvím jejich datových modelů a různých relačních nástrojů nebo shromažďujte data společně do datového skladu. To zahrnuje všechna data z externích zdrojů, která jsou součástí vašich operací, jako jsou data prodeje v terénu a/nebo data služeb, IoT nebo data sociálních médií. Vyhledání a získání práv na externí data včetně demografických, ekonomických a tržních informací, jako jsou průmyslové trendy a finanční měřítka od obchodních sdružení a vlád. Přineste je do náčiní sady nástrojů (přiveďte je do vašeho datového skladu nebo je propojte s prostředím Data Mining).
- Příprava a pochopení dat. K definování, kategorizaci a organizaci dat použijte odborníky na tematické oblasti vašeho podniku. Tato část procesu se někdy nazývá wranglování dat nebo munging. Některá data mohou vyžadovat čištění nebo „očištění“ k odstranění duplicit, nekonzistencí, neúplných záznamů nebo zastaralých formátů. Příprava a očištění dat může být trvalým úkolem, protože nové projekty nebo data z nových oblastí šetření se stanou zajímavými.
- Školení uživatelů. Svým teenagerům byste nedali klíče k rodinnému Ferrari, aniž byste je nechali projít řidičským vzděláním, školením na silnici a nějakou praxí pod dohledem s licencovaným řidičem – proto se ujistěte, že poskytnete formální školení svým budoucím datovým horníkům i některým dohlíženým praktikám, jak se s těmito výkonnými nástroji seznámí. Další vzdělávání je také dobrý nápad, jakmile zvládnou základy a mohou přejít k pokročilejším technikám.
Techniky dolování dat
Mějte na paměti, že dolování dat je založeno spíše na sadě nástrojů než na pevné rutině nebo procesu. Specifické techniky dolování dat, které jsou zde uvedeny, jsou pouze příklady toho, jak organizace používají nástroje k prozkoumání svých dat při hledání trendů, korelací, inteligence a obchodních poznatků.
Obecně lze přístupy k dolování dat kategorizovat podle pokynů – zaměřené na konkrétní požadovaný výsledek – nebo neorientované jako proces zjišťování. Jiné průzkumy mohou být zaměřeny na třídění nebo klasifikaci dat, jako je seskupení potenciálních zákazníků podle obchodních atributů, jako je odvětví, produkty, velikost a lokace. Podobný cíl, detekce odlehlých hodnot nebo anomálií, je automatizovaná metoda rozpoznávání reálných anomálií (spíše než jednoduchá variabilita) v rámci množiny dat, která zobrazuje identifikovatelné vzory.
Asociace
Dalším zajímavým cílem je sdružení – propojení dvou zdánlivě nesouvisejících akcí či aktivit. Klasický příběh z počátků analytiky a vytěžování dat, možná fiktivní, má obchodní řetězec, který objevuje korelaci mezi prodejem piva a plenky. Spekulovat o tom, že vyčerpaní noví otcové, kteří vyběhnou pozdě večer, aby dostali plenky, může chytit pár šesti balení, zatímco tam jsou. Prodejny umísťují pivo a plenky v těsné blízkosti a díky tomu zvyšují prodej piva.
Clustering
Tento přístup je zaměřen spíše na seskupování dat podle podobností než předem definovaných předpokladů. Když například vytěžíte informace o prodeji svých zákazníků v kombinaci s externími spotřebitelskými úvěry a demografickými daty, můžete zjistit, že vaši nejziskovější zákazníci jsou ze středních měst. Velkou část času probíhá dolování dat na podporu predikce nebo prognózy. Čím lépe rozumíte vzorcům a chování, tím lepší práci můžete dělat při předvídání budoucích akcí souvisejících s příčinami nebo korelacemi.
Regrese
Jedna z matematických technik nabízených v nástrojových sadách pro dolování dat, regresní analýza předpovídá množství založené na historických vzorech promítnutých do budoucnosti. Různé další algoritmy pro detekci a sledování vzorů poskytují flexibilní nástroje, které pomáhají uživatelům lépe porozumět datům a chování, které představují. To je jen několik technik a nástrojů dostupných v sadách nástrojů pro dolování dat. Volba nástroje nebo techniky je poněkud automatizovaná v tom, že techniky budou aplikovány podle toho, jak je otázka položena. V dřívějších dobách bylo dolování dat označováno jako „krájení a diktování“ databáze, ale praxe je nyní sofistikovanější a výrazy jako asociace, shlukování a regrese jsou samozřejmostí.
Použití případů a příkladů
Vytěžování dat je klíčem k analýze sentimentu, optimalizaci cen, databázovému marketingu, řízení úvěrových rizik, školení a podpoře, odhalování podvodů, zdravotní a lékařské diagnóze, hodnocení rizik, systémům doporučení („zákazníkům, kteří si koupili také…“) a mnoho dalšího. Může být účinným nástrojem v jakémkoli odvětví, včetně maloobchodu, velkoobchodní distribuce, služeb, telekomunikací, pojišťovnictví, vzdělávání, výroby, zdravotnictví, bankovnictví, vědy, inženýrství a online marketingu nebo sociálních médií.
Vývoj produktů: Společnosti, které navrhují, vyrábějí nebo distribuují fyzické produkty, mohou identifikovat příležitosti k lepšímu zacílení svých produktů prostřednictvím analýzy nákupních vzorů spojených s ekonomickými a demografickými daty. Jejich návrháři a inženýři mohou také odkazovat zpětnou vazbu zákazníků a uživatelů, záznamy o opravách a další data pro identifikaci příležitostí ke zlepšení produktu.
Výroba: Výrobci mohou sledovat trendy kvality, data oprav, míry výroby a údaje o výkonnosti produktů z terénu, aby identifikovali obavy o výrobu. Mohou také rozpoznat možné upgrady procesů, které by zlepšily kvalitu, ušetřily čas a náklady, zlepšily výkonnost produktu a/nebo poukazovaly na potřebu nového nebo lepšího továrního vybavení.
Odvětví služeb: V odvětví služeb mohou uživatelé najít podobné příležitosti ke zlepšení produktů tím, že budou poskytovat zpětnou vazbu od zákazníků (přímo nebo ze sociálních médií či jiných zdrojů) se specifickými službami, kanály, údaji o vzájemném výkonu, regionem, stanovením cen, demografickými, ekonomickými daty a dalšími.
A konečně, všechna tato zjištění by se měla vrátit k prognózám a plánování tak, aby byla celá organizace přizpůsobena očekávaným změnám poptávky založeným na intimnější znalosti zákazníka – a měla by být lépe připravena využít nově zjištěné příležitosti.
Problémy s dolováním dat
Big Data: Data jsou vytvářena rychle se zrychlujícím tempem a nabízejí stále více příležitostí pro dolování dat. Nicméně, moderní nástroje pro dolování dat jsou nutné k získání významu z Big Data, vzhledem k vysokému objemu, vysoké rychlosti a široké škále datových struktur, stejně jako rostoucí objem nestrukturovaných dat. Mnoho stávajících systémů má potíže s manipulací, skladováním a využíváním této záplavy vstupů.
Kompetence uživatelů: Nástroje pro dolování a analýzu dat jsou navrženy tak, aby pomáhaly uživatelům a osobám s rozhodovací pravomocí dávat smysl a koaxiální význam a vhled z masy dat. I když jsou vysoce technické, tyto výkonné nástroje jsou nyní zabaleny s vynikajícím designem uživatelského prostředí, takže prakticky každý může používat tyto nástroje s minimálním vzděláním. Aby však uživatel plně využil výhod, musí porozumět dostupným údajům a obchodnímu kontextu informací, o které usiluje. Musí také alespoň obecně vědět, jak nástroje fungují a co umí. To není mimo dosah průměrného manažera nebo exekutora, ale je to proces učení a uživatelé musí vynaložit určité úsilí na vývoj tohoto nového souboru dovedností.
Kvalita a dostupnost dat: S masami nových dat se vyskytují i masy neúplných, nesprávných, zavádějících, podvodných, poškozených nebo jen prostých neužitečných dat. Nástroje mohou pomoci to všechno vyřešit, ale uživatelé si musí být neustále vědomi zdroje dat a jejich důvěryhodnosti a spolehlivosti. Důležité jsou také obavy o ochranu soukromí, a to jak z hlediska získávání dat, tak péče a nakládání s nimi, jakmile jsou ve vašem držení.
Časté dotazy k dolování dat
Rozšiřte své odborné znalosti v oblasti správy dat
Porozumějte procesu správy dat a jeho přínosům.
Nápady, které jinde nenajdete
Zaregistrujte se pro dávku business intelligence doručenou přímo do vaší schránky.