Čo je to modelovanie dát?
Modelovanie údajov je proces vytvárania diagramov tokov údajov.
Prehľad modelovania dát
Modelovanie údajov je proces vytvárania diagramov tokov údajov. Pri vytváraní novej alebo alternatívnej štruktúry databázy dizajnér začína diagramom toho, ako budú údaje prúdiť do databázy a von z nej. Tento vývojový diagram sa používa na definovanie charakteristík formátov údajov, štruktúr a funkcií spracovania databázy, aby sa efektívne podporili požiadavky na tok údajov. Po vytvorení a nasadení databázy sa model údajov stáva dokumentáciou a odôvodnením, prečo databáza existuje a ako boli navrhnuté toky údajov.
Dátový model, ktorý je výsledkom tohto procesu, poskytuje rámec vzťahov medzi údajovými prvkami v rámci databázy, ako aj príručku pre použitie údajov. Dátové modely sú základným prvkom vývoja a analýzy softvéru. Poskytujú štandardizovanú metódu na definovanie a formátovanie obsahu databázy konzistentne naprieč systémami, čo umožňuje rôznym aplikáciám zdieľať rovnaké údaje.
Prečo je modelovanie údajov dôležité?
Komplexný a optimalizovaný dátový model pomáha vytvoriť zjednodušenú logickú databázu, ktorá eliminuje redundanciu, znižuje požiadavky na ukladanie a umožňuje efektívne načítanie. Zároveň vybavuje všetky systémy „jediným zdrojom pravdy“, ktorý je nevyhnutný pre efektívnu prevádzku a preukázateľný súlad s predpismi a regulačnými požiadavkami. Modelovanie údajov je kľúčovým krokom v dvoch dôležitých funkciách digitálneho podniku.
Projekty vývoja softvéru (nové alebo prispôsobenia) vykonávané profesionálmi v oblasti IT
Pred návrhom a výstavbou akéhokoľvek softvérového projektu musí existovať zdokumentovaná vízia toho, ako bude finálny produkt vyzerať a ako sa bude správať. Veľkou časťou tejto vízie je súbor obchodných pravidiel, ktoré riadia požadovanú funkčnosť. Druhou časťou je popis údajov – toky údajov (alebo dátový model) a návrh databázy na jeho podporu.
Modelovanie údajov zaznamenáva víziu a poskytuje plán pre softvérových dizajnérov. Pri plne definovanej a zdokumentovanej databáze a tokoch údajov a systémoch vyvinutých podľa týchto špecifikácií by systémy mali poskytovať očakávané funkcie potrebné na zachovanie presnosti údajov (za predpokladu, že postupy boli riadne dodržané).
Analýza a vizualizácia – alebo business intelligence – primárny rozhodovací nástroj pre používateľov
S rastúcim objemom údajov a rastúcim počtom používateľov potrebujú organizácie spôsob, ako premeniť nespracované údaje na použiteľné informácie pre rozhodovanie. Nečudo, že dopyt po dátovej analytike dramaticky vzrástol. Vizualizácia dát robí dáta ešte dostupnejšími pre užívateľov grafickým prezentovaním dát.
Dnešné modely údajov transformujú nespracované údaje na užitočné informácie, ktoré je možné zmeniť na dynamické vizualizácie. Modelovanie údajov pripravuje údaje na analýzu: čistenie údajov, definovanie ukazovateľov a dimenzií a rozšírenie údajov vytvorením hierarchií, nastavením jednotiek a mien a pridaním vzorcov.
Aké sú typy modelovania údajov?
Tri typy primárneho dátového modelu sú relačný, dimenzionálny a vzťah entít (E-R). Existuje aj niekoľko ďalších, ktoré sa vo všeobecnosti nepoužívajú, vrátane hierarchického, sieťového, objektovo orientovaného a multihodnotového. Typ modelu definuje logickú štruktúru – ako sa dáta logicky ukladajú – a teda ako sa ukladajú, organizujú a získavajú.
- Relačné: Hoci „starší“ prístup, najbežnejším databázovým modelom, ktorý sa stále používa, sú relačné, ktoré ukladajú údaje do záznamov vo fixnom formáte a usporiadajú údaje v tabuľkách s riadkami a stĺpcami. Najzákladnejší typ dátového modelu má dva prvky: ukazovatele a dimenzie. Ukazovatele sú číselné hodnoty, ako sú množstvá a výnosy, používané v matematických výpočtoch, ako je súčet alebo priemer. Dimenzie môžu byť textové alebo číselné. Nepoužívajú sa vo výpočtoch a zahŕňajú popisy alebo lokácie. Prvotné údaje sú definované ako ukazovateľ alebo dimenzia. Iná terminológia používaná pri návrhu relačných databáz zahŕňa „vzťahy“ (tabuľka s riadkami a stĺpcami), „atribúty“ (stĺpce), „n-tice“ (riadky) a „doménu“ (množina hodnôt povolená v stĺpci). Hoci existujú dodatočné podmienky a štrukturálne požiadavky, ktoré definujú relačnú databázu, dôležitým faktorom sú vzťahy definované v rámci tejto štruktúry. Spoločné dátové prvky (alebo kľúče) prepájajú tabuľky a súbory údajov. Tabuľky môžu byť tiež explicitne prepojené, napríklad nadradené a podradené vzťahy vrátane vzťahov jedna k jednej, jedna k mnohým alebo many-to-many.
- Dimenzionálne: menej prísne a štruktúrované, dimenzionálny prístup uprednostňuje štruktúru kontextových dát, ktorá viac súvisí s obchodným použitím alebo kontextom. Táto štruktúra databázy je optimalizovaná pre online dotazy a nástroje skladovania údajov. Kritické údajové prvky, ako napríklad množstvo transakcie, sa nazývajú „fakty“ a sú sprevádzané referenčnými informáciami nazývanými „dimenzie“, či už ide o ID produktu, jednotkovú cenu alebo dátum transakcie. Tabuľka faktov je primárna tabuľka v dimenzionálnom modeli. Načítanie môže byť rýchle a efektívne – s dátami pre konkrétny typ aktivity uloženými spoločne – ale nedostatok prepojení vzťahov môže skomplikovať analytické načítanie a použitie údajov. Keďže štruktúra dát je naviazaná na podnikovú funkciu, ktorá vytvára a používa dáta, kombinácia dát vytvorených odlišnými systémami (napríklad v dátovom sklade) môže byť problematická.
- Entity-Rich (E-R): Model E-R predstavuje štruktúru obchodných údajov v grafickej podobe obsahujúcu polia rôznych tvarov, ktoré predstavujú činnosti, funkcie alebo „entity“ a čiary na znázornenie asociácií, závislostí alebo „vzťahov“. Model E-R sa potom použije na vytvorenie relačnej databázy, pričom každý riadok predstavuje entitu a polia v tomto riadku obsahujú atribúty. Rovnako ako vo všetkých relačných databázach sa na prepojenie tabuliek používajú „kľúčové“ dátové prvky.
Aké sú tri úrovne abstrakcie údajov?
Existuje mnoho typov dátových modelov s rôznymi typmi možných rozložení. Komunita spracovania údajov identifikuje tri druhy modelovania, ktoré predstavujú úrovne myslenia pri vývoji modelov.
Koncepčný dátový model
Ide o „komplexný“ model, ktorý predstavuje celkovú štruktúru a obsah, ale nie podrobnosti o dátovom pláne. Je to typický východiskový bod pre modelovanie údajov, ktorý identifikuje rôzne množiny údajov a tok údajov v rámci organizácie. Koncepčným modelom je koncepcia na vysokej úrovni pre vývoj logických a fyzických modelov a je dôležitou súčasťou dokumentácie dátovej architektúry.
Logický dátový model
Druhou úrovňou detailov je logický dátový model. Najbližšie súvisí so všeobecnou definíciou „dátového modelu“ v tom, že popisuje tok údajov a obsah databázy. Logický model pridáva detaily do celkovej štruktúry v koncepčnom modeli, ale neobsahuje špecifikácie pre samotnú databázu, pretože model je možné aplikovať na rôzne databázové technológie a produkty. (Všimnite si, že koncepčný model nemusí existovať, ak sa projekt týka jednej aplikácie alebo iného obmedzeného systému.)
Fyzický dátový model
Fyzický databázový model popisuje špecifiká spôsobu realizácie logického modelu. Musí obsahovať dostatok podrobností, aby mohli technologici vytvoriť skutočnú databázovú štruktúru v hardvéri a softvéri na podporu aplikácií, ktoré ju budú používať. Fyzický dátový model je samozrejme špecifický pre určený databázový softvérový systém. Môže existovať viacero fyzických modelov odvodených z jedného logického modelu, ak sa použijú rôzne databázové systémy.
Postup a techniky modelovania údajov
Modelovanie údajov je vo svojej podstate proces zhora nadol, počnúc koncepčným modelom na stanovenie celkovej vízie, potom postupuje k logickému modelu a nakoniec k podrobnému návrhu obsiahnutému vo fyzickom modeli.
Zostavenie koncepčného modelu je väčšinou proces premeny myšlienok do grafickej podoby, ktorá pripomína vývojársky diagram programátora.
Moderné nástroje modelovania údajov vám môžu pomôcť definovať a vytvoriť vaše logické a fyzické modely údajov a databázy. Tu je niekoľko typických techník a krokov modelovania údajov:
Stanovte entity a vytvorte diagram vzťahov entít (ERD). Subjekty možno lepšie opísať ako „údajové prvky, ktoré vás zaujímajú“. Napríklad „zákazník“ by bola entita. “Predaj” by bol iný. V ERD dokumentujete, ako tieto rôzne entity navzájom súvisia vo vašom podniku a aké prepojenia na vysokej úrovni medzi nimi existujú.
Definujte svoje fakty, ukazovatele a dimenzie. Faktom je časť vašich údajov, ktorá označuje konkrétny výskyt alebo transakciu, ako je predaj produktu. Vaše ukazovatele sú kvantitatívne, napríklad množstvo, výnosy, náklady atď. Vaše dimenzie sú kvalitatívne ukazovatele, ako sú popisy, umiestnenia a dátumy.
Vytvorte prepojenie na zobrazenie údajov pomocou grafického nástroja alebo prostredníctvom dotazov SQL. Ak nie ste oboznámení s SQL, grafický nástroj je najintuitívnejšou možnosťou, ktorá vám umožňuje presúvať prvky do modelu a vizuálne vytvárať pripojenia. Pri vytváraní zobrazenia máte možnosť kombinovať tabuľky a dokonca aj iné zobrazenia do jedného výstupu. Keď vyberiete zdroj v grafickom zobrazení a presuniete ho na hornú časť zdroja, ktorý je už priradený k výstupu, budete mať možnosť buď spojiť alebo vytvoriť zjednotenie týchto tabuliek.
Moderné analytické riešenia vám tiež môžu pomôcť vybrať, filtrovať a prepojiť zdroje údajov pomocou grafického zobrazenia presunutia myšou. Rozšírené nástroje sú k dispozícii pre odborníkov na údaje, ktorí zvyčajne pracujú v IT, ale používatelia si môžu tiež vytvoriť vlastné príbehy vizuálnym vytvorením dátového modelu a organizovaním tabuliek, grafov, máp a iných objektov na rozprávanie príbehu na základe prehľadov údajov.
Príklady modelovania údajov
Pre každú aplikáciu – či už obchodné, zábavné, osobné alebo iné – je modelovanie dát nevyhnutným raným krokom pri navrhovaní systému a definovaní infraštruktúry potrebnej na umožnenie systému. To zahŕňa akýkoľvek typ transakčného systému, sady aplikácií na spracovanie údajov alebo balíka, alebo akýkoľvek iný systém, ktorý zhromažďuje, vytvára alebo používa údaje.
Modelovanie údajov je pre uchovávanie údajov nevyhnutné, pretože dátový sklad je úložiskom údajov získaných z viacerých zdrojov, ktoré pravdepodobne majú podobné alebo súvisiace údaje v rôznych formátoch. Najskôr je potrebné zmapovať skladové formáty a štruktúru, aby bolo možné určiť, ako s každou vstupnou dátovou sadou manipulovať tak, aby zodpovedala potrebám návrhu skladu – aby dáta boli užitočné pre analýzu a dolovanie dát. Dátový model je potom dôležitým nástrojom pre analytické nástroje, výkonné informačné systémy (dashboardy), dolovanie údajov a integráciu s akýmikoľvek a všetkými dátovými systémami a aplikáciami.
V počiatočných fázach návrhu akéhokoľvek systému je modelovanie údajov kľúčovým predpokladom, že všetky ostatné kroky a fázy závisia od vytvorenia základov, na ktoré sa spoliehajú všetky programy, funkcie a nástroje. Dátový model je ako bežný jazyk, ktorý umožňuje systémom komunikovať prostredníctvom ich porozumenia a akceptácie údajov, ako je popísané v modeli. To je dôležitejšie ako kedykoľvek predtým v dnešnom svete Big Data, strojového učenia, umelej inteligencie, cloudovej konektivity, IoT a distribuovaných systémov vrátane edge computingu.
Vývoj modelovania údajov
Vo veľmi reálnom zmysle sa modelovanie dát pohybuje približne tak dlho, ako spracovanie dát, ukladanie dát a počítačové programovanie, hoci samotný pojem sa pravdepodobne začal bežne používať až v čase, keď sa systémy správy databáz začali vyvíjať v 60. rokoch 20. storočia. V koncepte plánovania a architektúry novej štruktúry nie je nič nové ani inovatívne. Samotné modelovanie údajov sa stalo štruktúrovanejším a formalizovanejším, pretože sa objavilo viac údajov, viac databáz a viac odrôd údajov.
V súčasnosti je modelovanie dát dôležitejšie ako kedykoľvek predtým, keď technologici zápasia s novými zdrojmi dát (IoT senzory, zariadenia s orientáciou na umiestnenie, clickstreamy, sociálne médiá) spolu s náhlym prenosom neštruktúrovaných dát (text, audio, video, surový výstup snímača) – pri objemoch a rýchlosti, ktoré prekračujú možnosti tradičných systémov. V súčasnosti existuje neustály dopyt po nových systémoch, inovatívnych databázových štruktúrach a technikách a nových dátových modeloch, aby sa toto nové vývojové úsilie spojilo.
Čo je ďalšie pri modelovaní dát?
Informačná konektivita a veľké množstvo dát z toľkých rôznych zdrojov – vrátane senzorov, hlasu, videa, e-mailu a ďalších – rozširujú rozsah modelovacích projektov pre IT profesionálov. Internet je, samozrejme, jedným z predpokladov tejto evolúcie. Cloud je hlavnou súčasťou riešenia, pretože je jedinou dostatočne veľkou výpočtovou infraštruktúrou, dostatočne škálovateľnou a dostatočne pružnou na to, aby riešila súčasné a budúce požiadavky v rozširujúcom sa svete konektivity.
Menia sa aj možnosti pre návrh databázy. Pred desiatimi rokmi bola dominantnou databázovou štruktúrou row-orientovaná relačná databáza využívajúca tradičnú technológiu ukladania diskov. Dáta pre typickú hlavnú knihu ERP alebo riadenie zásob boli uložené v desiatkach rôznych tabuliek, ktoré je potrebné aktualizovať a modelovať. Moderné ERP riešenia dnes ukladajú aktívne dáta do pamäte pomocou stĺpcového dizajnu pre dramatické zníženie počtu tabuliek a zvýšenie rýchlosti a efektivity.
Pre odborníkov z podnikateľskej sféry sa budú nové samoobslužné nástroje, ktoré sú dnes k dispozícii, naďalej zlepšovať. Zavedú sa nové nástroje, vďaka ktorým bude modelovanie dát a vizualizácia ešte jednoduchšie a viac kolaboratívne.
Súhrn
Dobre premyslený a kompletný dátový model je kľúčom k vývoju skutočne funkčnej, užitočnej, bezpečnej a presnej databázy. Začnite s koncepčným modelom, aby ste rozložili všetky komponenty a funkcie dátového modelu. Potom spresnite tieto plány do logického dátového modelu, ktorý opisuje toky údajov a objasňuje definíciu, ktoré údaje sú potrebné a ako sa získajú, spracujú, uchovávajú a distribuujú. Logický dátový model riadi fyzický dátový model, ktorý je špecifický pre databázový produkt, a je podrobným návrhom dokumentu, ktorý vedie k vytvoreniu databázového a aplikačného softvéru.
Dobré modelovanie údajov a návrh databáz sú nevyhnutné pre vývoj funkčných, spoľahlivých a bezpečných aplikačných systémov a databáz, ktoré dobre fungujú s dátovými skladmi a analytickými nástrojmi – a uľahčujú výmenu dát s obchodnými partnermi a medzi viacerými aplikačnými sadami. Dobre premyslené modely údajov pomáhajú zabezpečiť integritu údajov, vďaka čomu sú údaje vašej spoločnosti ešte cennejšie a spoľahlivejšie.
Preskúmajte moderné nástroje na modelovanie údajov
Spojte údaje s obchodným kontextom, aby ste umožnili podnikovým používateľom odblokovať analýzy.
Nápady nenájdete nikde inde
Zaregistrujte sa na dávku business intelligence doručenú priamo do vašej schránky.