Co je to modelování dat?
Modelování dat je proces diagramování datových toků.
Přehled modelování dat
Modelování dat je proces diagramování datových toků. Při vytváření nové nebo alternativní struktury databáze návrhář začíná diagramem, jak budou data proudit do databáze a z ní. Tento vývojový diagram se používá k definování charakteristik datových formátů, struktur a funkcí zpracování databáze pro efektivní podporu požadavků datového toku. Po vytvoření a nasazení databáze datový model žije, aby se stal dokumentací a zdůvodněním, proč databáze existuje a jak byly datové toky navrženy.
Datový model, který je výsledkem tohoto procesu, poskytuje rámec vztahů mezi datovými prvky v databázi a také návod pro použití dat. Datové modely jsou základním prvkem vývoje a analýzy softwaru. Poskytují standardizovanou metodu pro konzistentní definování a formátování obsahu databáze napříč systémy, což umožňuje různým aplikacím sdílet stejná data.
Proč je modelování dat důležité?
Komplexní a optimalizovaný datový model pomáhá vytvořit zjednodušenou logickou databázi, která eliminuje redundanci, snižuje požadavky na úložiště a umožňuje efektivní vyhledávání. Rovněž vybavuje všechny systémy „jediným zdrojem pravdy“, který je nezbytný pro efektivní provoz a prokazatelný soulad s předpisy a regulačními požadavky. Modelování dat je klíčovým krokem ve dvou zásadních funkcích digitálního podniku.
Projekty vývoje softwaru (nové nebo přizpůsobené) prováděné IT profesionály
Před návrhem a sestavením jakéhokoliv softwarového projektu musí existovat zdokumentovaná vize, jak bude konečný produkt vypadat a jak se bude chovat. Velkou součástí této vize je soubor obchodních pravidel, kterými se řídí požadovaná funkčnost. Druhou částí je popis dat – datové toky (nebo datový model) a návrh databáze pro jeho podporu.
Modelování dat vede záznamy o vizi a poskytuje itinerář pro softwarové návrháře. S plně definovanými a zdokumentovanými databázovými a datovými toky a systémy vyvinutými podle těchto specifikací by systémy měly poskytovat očekávanou funkčnost potřebnou k udržení přesnosti dat (za předpokladu, že byly řádně dodrženy postupy).
Analytika a vizualizace – nebo business intelligence – primární nástroj pro rozhodování uživatelů
S rostoucími objemy dat a rostoucím počtem uživatelů potřebují organizace způsob, jak přeměnit nezpracovaná data v užitečné informace pro rozhodování. Není překvapením, že poptávka po datových analýzách dramaticky vzrostla. Vizualizace dat dělá data ještě přístupnější pro uživatele tím, že prezentuje data graficky.
Dnešní datové modely transformují nezpracovaná data na užitečné informace, které lze přeměnit na dynamické vizualizace. Modelování dat připravuje data k analýze: očištění dat, definování ukazatelů a dimenzí a rozšíření dat vytvořením hierarchií, nastavením jednotek a měn a přidáním vzorců.
Jaké jsou typy modelování dat?
Tři typy primárních datových modelů jsou relační, dimenzionální a entitní (E-R). Existuje také několik dalších, které nejsou obecně používány, včetně hierarchické, síťové, objektově orientované a vícehodnotové. Typ modelu definuje logickou strukturu – jak jsou data uložena, logicky – a tedy jak jsou ukládána, organizována a získávána.
- Relační: I když je přístup „starší“, nejběžnějším databázovým modelem, který se dodnes používá, je relační, který ukládá data v záznamech s pevným formátem a uspořádává data do tabulek s řádky a sloupci. Nejzákladnější typ datového modelu má dva prvky: ukazatele a dimenze. Ukazatele jsou číselné hodnoty, jako jsou množství a výnosy, používané v matematických výpočtech, jako je součet nebo průměr. Dimenze mohou být textové nebo numerické. Nepoužívají se ve výpočtech a zahrnují popisy nebo lokace. Prvotní data jsou definována jako ukazatel nebo dimenze. Další terminologie používaná v návrhu relační databáze zahrnuje „vztahy“ (tabulka s řádky a sloupci), „atributy“ (sloupce), „řazené kolekce členů“ (řádky) a „doména“ (sada hodnot povolených ve sloupci). Zatímco existují další pojmy a strukturální požadavky, které definují relační databázi, důležitým faktorem jsou vztahy definované v rámci této struktury. Společné datové prvky (nebo klíče) propojují tabulky a datové sady dohromady. Tabulky mohou být také explicitně propojeny, jako jsou vztahy nadřazené a podřízené, včetně vztahů 1:1, 1:N nebo více k mnoha.
- Dimenzionální: Méně rigidní a strukturovaný dimenzionální přístup upřednostňuje kontextovou datovou strukturu, která více souvisí s obchodním využitím nebo kontextem. Tato struktura databáze je optimalizována pro online dotazy a nástroje pro skladování dat. Kritické datové prvky, například množství transakce, se nazývají „fakta“ a jsou doprovázeny referenčními informacemi nazvanými „dimenze“, například ID produktu, jednotková cena nebo datum transakce. Tabulka faktů je primární tabulka v dimenzionálním modelu. Vyvolání může být rychlé a efektivní – s daty pro konkrétní typ činnosti uloženými společně – ale nedostatek propojení vztahů může komplikovat analytické vyhledávání a použití dat. Vzhledem k tomu, že struktura dat je svázána s podnikovou funkcí, která data vytváří a používá, může být kombinování dat vytvořených odlišnými systémy (například v datovém skladu) problematické.
- Entity-Rich (E-R): E-R model představuje strukturu podnikových dat v grafické podobě obsahující krabice různých tvarů, které reprezentují činnosti, funkce nebo „entity“ a linie reprezentující asociace, závislosti nebo „vztahy“. Model E-R se pak používá k vytvoření relační databáze s každým řádkem reprezentujícím entitu a pole v tomto řádku obsahují atributy. Stejně jako ve všech relačních databázích se k propojení tabulek používají „klíčové“ datové prvky.
Jaké jsou tři úrovně abstrakce dat?
Existuje mnoho typů datových modelů s různými typy možných layoutů. Komunita zpracovávající data identifikuje tři druhy modelování pro reprezentaci úrovní myšlení při vývoji modelů.
Koncepční datový model
Jedná se o model „velkého obrazu“, který představuje celkovou strukturu a obsah, ale nikoli detail datového plánu. Je typickým výchozím bodem pro modelování dat, identifikaci různých datových sad a toku dat organizací. Konceptuální model je vysokoúrovňovým konceptem pro vývoj logických a fyzických modelů a je důležitou součástí dokumentace datové architektury.
Logický datový model
Druhou úrovní detailizace je logický datový model. Nejvíce souvisí s obecnou definicí „datového modelu“ v tom, že popisuje datový tok a obsah databáze. Logický model doplňuje celkovou strukturu v koncepčním modelu, ale neobsahuje specifikace pro samotnou databázi, protože model může být aplikován na různé databázové technologie a produkty. (Uvědomte si, že koncepční model nemusí existovat, pokud se projekt týká jediné aplikace nebo jiného omezeného systému.)
Fyzický datový model
Fyzický databázový model popisuje specifika, jak bude logický model realizován. Musí obsahovat dostatek podrobností, aby technologové mohli vytvořit skutečnou databázovou strukturu v hardwaru a softwaru na podporu aplikací, které ji budou používat. Není třeba říkat, že fyzický datový model je specifický pro určený databázový softwarový systém. Může existovat více fyzických modelů odvozených z jednoho logického modelu, pokud budou použity různé databázové systémy.
Proces a techniky modelování dat
Datové modelování je ze své podstaty proces shora dolů, počínaje koncepčním modelem k vytvoření celkové vize, pak postupuje k logickému modelu a nakonec detailnímu návrhu obsaženému ve fyzickém modelu.
Vytváření konceptuálního modelu je většinou proces přeměny myšlenek do grafické podoby, která připomíná vývojářský vývojářský diagram programátora.
Moderní nástroje pro modelování dat vám pomohou definovat a vytvářet vaše logické a fyzické datové modely a databáze. Zde je několik typických technik a kroků modelování dat:
Určete entity a vytvořte diagram vztahů entit (ERD). Subjekty lze lépe popsat jako „datové prvky, které vás zajímají“. Například „zákazník“ by byl entitou. „Prodej“ by byl jiný. Na ERD dokumentujete, jak se tyto různé entity ve vašem podnikání navzájem týkají a jaká propojení na vysoké úrovni mezi nimi existují.
Definujte vaše fakta, ukazatele a dimenze. Faktem je část vašich dat, která indikuje určitý výskyt nebo transakci, jako je prodej produktu. Vaše ukazatele jsou kvantitativní, jako je množství, výnos, náklady atd. Vaše dimenze jsou kvalitativní ukazatele, jako jsou popisy, lokace a data.
Vytvořte odkaz na zobrazení dat pomocí grafického nástroje nebo pomocí dotazů SQL. Pokud nejste obeznámeni s SQL, grafický nástroj je nejintuitivnější možnost, která vám umožní přetáhnout prvky do vašeho modelu a vizuálně vytvořit vaše připojení. Při vytváření view máte možnost kombinovat tabulky a dokonce i další pohledy do jednoho výstupu. Když vyberete zdroj v grafickém pohledu a přetáhnete jej na horní část zdroje, který je již přidružen k výstupu, budete mít možnost buď spojit, nebo vytvořit sjednocení těchto tabulek.
Moderní analytická řešení vám také mohou pomoci s výběrem, filtrováním a připojením zdrojů dat pomocí grafického zobrazení přetažením. Pokročilé nástroje jsou k dispozici pro experty na data, kteří obvykle pracují v IT – ale uživatelé mohou také vytvářet své vlastní story vizuálním vytvořením datového modelu a organizováním tabulek, grafů, map a dalších objektů za účelem vyprávění story na základě analýz dat.
Příklady modelování dat
Pro každou aplikaci – ať už obchodní, zábavní, osobní nebo jinou – je modelování dat nezbytným počátečním krokem při navrhování systému a definování infrastruktury potřebné k jeho aktivaci. Patří sem jakýkoli typ transakčního systému, sady nebo sady aplikací pro zpracování dat nebo jakýkoli jiný systém, který shromažďuje, vytváří nebo používá data.
Modelování dat je nezbytným předpokladem pro skladování dat, protože datový sklad je úložištěm dat přenesených z více zdrojů, které mají pravděpodobně podobná nebo související data v různých formátech. Je nutné nejprve zmapovat formáty a strukturu skladu, aby bylo možné určit, jak s každým příchozím datovým souborem manipulovat tak, aby odpovídala potřebám návrhu skladu – aby byla data užitečná pro analýzu a dolování dat. Datový model je pak důležitým nástrojem pro analytické nástroje, výkonné informační systémy (dashboardy), dolování dat a integraci s libovolnými datovými systémy a aplikacemi.
V raných fázích návrhu pro jakýkoli systém je modelování dat klíčovým předpokladem, že všechny ostatní kroky a fáze závisí na vytvoření základu, na kterém se všechny programy, funkce a nástroje spoléhají. Datový model je jako běžný jazyk, který umožňuje systémům komunikovat prostřednictvím jejich porozumění a přijetí dat, jak je popsáno v modelu. To je v dnešním světě Big Data, strojového učení, umělé inteligence, konektivity cloudu, IoT a distribuovaných systémů včetně edge computingu důležitější než kdy jindy.
Vývoj modelování dat
Ve velmi reálném smyslu je modelování dat kolem tak dlouho, jako zpracování dat, ukládání dat a počítačové programování, i když samotný termín se pravděpodobně dostal do společného užívání až v době, kdy se systémy správy databází začaly vyvíjet v 60. letech. V koncepci plánování a architektury nové struktury není nic nového ani inovativního. Samotné modelování dat se stalo strukturovanějším a formalizovanějším, protože se objevilo více dat, více databází a více odrůd dat.
Dnes je modelování dat důležitější než kdy jindy, protože technologové se potýkají s novými zdroji dat (IoT senzory, zařízení pro rozpoznání polohy, klikací proudy, sociální média) spolu s přílivem nestrukturovaných dat (text, zvuk, video, surový výstup senzoru) – objemy a rychlosti, které překračují možnosti tradičních systémů. Nyní existuje stálá poptávka po nových systémech, inovativních databázových strukturách a technikách a nových datových modelech, aby se toto nové vývojové úsilí spojilo.
Co bude následovat pro modelování dat?
Informační konektivita a velké množství dat z tolika různých zdrojů – včetně senzorů, hlasu, videa, e-mailu a dalších – rozšiřují rozsah modelovacích projektů pro IT profesionály. Internet je samozřejmě jedním z faktorů, které tento vývoj umožňují. Cloud je hlavní součástí řešení, protože je jedinou výpočetní infrastrukturou dostatečně velkou, dostatečně škálovatelnou a dostatečně agilní pro řešení současných i budoucích požadavků v rozšiřujícím se světě konektivity.
Mění se také možnosti pro návrh databáze. Před deseti lety byla dominantní databázovou strukturou row-orientovaná relační databáze využívající tradiční technologii diskového úložiště. Data pro typickou hlavní knihu ERP nebo vedení zásob byla uložena v desítkách různých tabulek, které je třeba aktualizovat a modelovat. Moderní ERP řešení dnes ukládají aktivní data do paměti pomocí sloupcového designu pro dramatické zmenšení tabulek a zvýšení rychlosti a efektivity.
Pro profesionály v oboru podnikání se budou i nadále zlepšovat nové samoobslužné nástroje, které jsou dnes k dispozici. A budou zavedeny nové nástroje, které ještě více usnadní modelování a vizualizaci dat a zvýší spolupráci.
Shrnutí
Dobře promyšlený a kompletní datový model je klíčem k vývoji skutečně funkční, užitečné, bezpečné a přesné databáze. Začněte s koncepčním modelem a rozložte všechny komponenty a funkce datového modelu. Potom tyto plány upřesněte do logického datového modelu, který popisuje datové toky a objasňuje definici, jaká data jsou potřebná a jak budou získána, zpracována, uložena a distribuována. Logický datový model řídí fyzický datový model, který je specifický pro databázový produkt a je podrobným návrhovým dokumentem, který řídí vytváření databáze a aplikačního softwaru.
Dobré modelování dat a návrh databází jsou nezbytné pro vývoj funkčních, spolehlivých a bezpečných aplikačních systémů a databází, které dobře fungují s datovými sklady a analytickými nástroji – a usnadňují výměnu dat s obchodními partnery a mezi různými sadami aplikací. Dobře promyšlené datové modely pomáhají zajistit integritu dat, díky čemuž jsou data vaší společnosti ještě cennější a spolehlivější.
Prozkoumejte moderní nástroje pro modelování dat
Propojením dat s podnikovým kontextem umožníte podnikovým uživatelům odblokovat analýzy.
Nápady, které jinde nenajdete
Zaregistrujte se pro dávku business intelligence doručenou přímo do vaší schránky.