Čo je data warehouse?

Data warehouse (DW) je digitálny úložný systém, ktorý spája a harmonizuje veľké množstvo dát z mnohých rôznych zdrojov.

Prehľad dátového skladu

Dátový sklad (DW) je digitálny úložný systém, ktorý spája a harmonizuje veľké množstvo dát z mnohých rôznych zdrojov. Jeho účelom je poskytovať podnikové informácie (BI), výkazníctvo a analýzy a podporovať regulačné požiadavky – aby spoločnosti mohli premeniť svoje údaje na prehľad a robiť inteligentné rozhodnutia založené na údajoch. Dátové sklady ukladajú aktuálne a historické dáta na jednom mieste a fungujú ako jediný zdroj pravdy pre organizáciu.

 

Dátové toky do dátového skladu z operačných systémov (ako ERP a CRM), databáz a externých zdrojov, ako sú partnerské systémy, zariadenia Internet of Things (IoT), aplikácie pre počasie a sociálne médiá – zvyčajne v pravidelnej kadencii. Vznik cloud computingu spôsobil posun v krajine. V posledných rokoch sa miesta ukladania údajov presunuli z tradičnej infraštruktúry on-premise do viacerých miest vrátane lokálneho, súkromného cloudu a verejného cloudu.

 

Moderné dátové sklady sú navrhnuté tak, aby spracovávali štruktúrované aj neštruktúrované dáta, ako sú videá, obrazové súbory a dáta senzorov. Niektoré využívajú integrovanú analytickú a in-memory databázovú technológiu (ktorá uchováva dáta v pamäti počítača a nie v ukladacom priestore na disku), aby poskytovali prístup k dôveryhodným dátam v reálnom čase a zabezpečili sebavedomé rozhodovanie. Bez ukladania dát je veľmi ťažké kombinovať dáta z heterogénnych zdrojov, zabezpečiť, aby boli v správnom formáte pre analýzy a získať aktuálny aj dlhý pohľad na dáta v priebehu času.

Čo je data warehouse?

Výhody skladovania dát

Dobre navrhnutý dátový sklad je základom pre akýkoľvek úspešný BI alebo analytický program. Jeho hlavnou úlohou je poháňať reporty, dashboardy a analytické nástroje, ktoré sa dnes stali pre podniky nepostrádateľnými. Dátový sklad poskytuje informácie pre vaše rozhodnutia založené na údajoch a pomáha vám správne volať na všetko od vývoja nových produktov až po úrovne zásob. Existuje mnoho výhod dátového skladu. Tu je len niekoľko: 

  • Lepšia podniková analýza: S ukladaním dát majú rozhodujúci činitelia prístup k údajom z viacerých zdrojov a už nemusia robiť rozhodnutia na základe neúplných informácií.  

  • Rýchlejšie dotazy: Dátové sklady sú vytvorené špeciálne pre rýchle načítanie a analýzu dát. S DW môžete veľmi rýchlo vyhľadávať veľké množstvo konsolidovaných dát s malou až žiadnou podporou IT.  

  • Zlepšená kvalita údajov: Pred načítaním do DW systém vytvorí prípady čistenia údajov a zadá ich do zásoby práce na ďalšie spracovanie, čím sa zabezpečí, že sa údaje transformujú na konzistentný formát na podporu analýz a rozhodnutí založených na vysoko kvalitných a presných dátach.

  • Historický prehľad: Ukladaním bohatých historických údajov umožňuje dátový sklad tvorcom rozhodnutí poučiť sa z minulých trendov a výziev, robiť prognózy a podporovať neustále zlepšovanie podniku.

placeholder

Snímka obrazovky skladu údajov zobrazujúca pôvod údajov.

Čo môže ukladací priestor data warehouse?

Keď sa na konci 80. rokov prvýkrát stali populárne dátové sklady, boli navrhnuté tak, aby uchovávali informácie o ľuďoch, produktoch a transakciách. Tieto údaje – nazývané štruktúrované údaje – boli úhľadne usporiadané a naformátované pre jednoduchý prístup. Podniky však čoskoro chceli uložiť, načítať a analyzovať neštruktúrované dáta – ako sú dokumenty, obrázky, videá, e-maily, príspevky sociálnych médií a nespracované údaje zo strojových senzorov.

 

Moderný dátový sklad dokáže pojať štruktúrované aj neštruktúrované dáta. Spojením týchto typov údajov a rozdelením zásobníkov medzi tieto dva typy údajov môžu podniky získať úplný a komplexný obraz o najcennejších postrehoch.

Niektoré kľúčové pojmy

Existuje veľa pojmov, ktoré by mali mať zmysel vo svete DW. Tu sú niektoré z najdôležitejších. Preskúmajte niektoré ďalšie výrazy a často kladené otázky v našom slovníku.

 

Dátový sklad verzus databáza

 

Databázy a dátové sklady sú systémy na ukladanie dát; slúžia však na rôzne účely. Databáza ukladá dáta zvyčajne pre určitý pracovný úsek. Dátový sklad uchováva aktuálne a historické údaje za celý podnik a poskytuje BI a analýzy. Dátové sklady používajú databázový server na získanie dát z databáz organizácie a majú ďalšie funkcie pre modelovanie dát, správu životného cyklu dát, integráciu zdrojov dát a ďalšie.

 

Dátový sklad vs. dátové jazero

 

Na ukladanie veľkých dát sa používajú dátové sklady aj dátové jazerá , ale ide o veľmi odlišné systémy ukladania. Dátový sklad ukladá údaje, ktoré boli naformátované na konkrétny účel, zatiaľ čo dátové jazero ukladá údaje v nespracovanom stave, ktorého účel ešte nebol definovaný. Dátové sklady a jazerá sa často navzájom dopĺňajú. Napríklad, keď sú na zodpovedanie obchodnej otázky potrebné nespracované údaje uložené v jazere, môžu sa extrahovať, vyčistiť, transformovať a použiť v dátovom sklade na analýzu. Dôležitú úlohu pri výbere správneho riešenia úložiska zohráva objem dát, výkon databáz a ceny úložiska.

Diagram dátového skladu v porovnaní s dátovým jazerom.

Dátový sklad vs. dátový trh

 

Údajový trh je podsekcia dátového skladu, ktorá je segmentovaná špecificky pre oddelenie alebo odvetvie – ako predaj, marketing alebo financie. Niektoré dátové marže sa vytvárajú aj na samostatné prevádzkové účely. Zatiaľ čo dátový sklad slúži ako centrálna dátová schránka pre celú firmu, dátový trh slúži relevantným údajom pre vybranú skupinu používateľov. To zjednodušuje prístup k údajom, urýchľuje analýzu a dáva im kontrolu nad vlastnými údajmi. V rámci dátového skladu sú často nasadené viaceré dátové marže.

Schéma dátového martu a ako to funguje.

Aké sú kľúčové komponenty data warehouse?

Typický dátový sklad má štyri hlavné komponenty: centrálnu databázu, ETL (extrakciu, transformáciu, načítanie) nástroje, metadáta a prístupové nástroje. Všetky tieto komponenty sú navrhnuté pre rýchlosť, takže môžete získať výsledky rýchlo a analyzovať dáta za chodu.

Diagram zobrazujúci komponenty dátového skladu.

  1. Centrálna databáza: Databáza slúži ako základ vášho dátového skladu. Tradične ide o štandardné relačné databázy bežiace na mieste prevádzky alebo v cloude. Ale kvôli Big Data, potrebe skutočného výkonu v reálnom čase a drastickému zníženiu nákladov na RAM, in-memory databázy rýchlo získavajú popularitu.
  2. Integrácia údajov: Údaje sa získavajú zo zdrojových systémov a upravujú sa tak, aby sa zosúladili informácie pre rýchlu analytickú spotrebu pomocou rôznych prístupov k integrácii údajov, ako sú ETL (extrakcia, transformácia, načítanie) a ELT, ako aj replikácia údajov v reálnom čase, spracovanie hromadného zaťaženia, transformácia údajov, kvalita údajov a služby obohacovania.
  3. Metadáta: Metadáta sú údaje o vašich údajoch. Určuje zdroj, použitie, hodnoty a ďalšie funkcie dátových súborov vo vašom dátovom sklade. Existujú podnikové metadáta, ktoré pridávajú kontext k vašim údajom, a technické metadáta, ktoré popisujú, ako pristupovať k údajom - vrátane toho, kde sa nachádzajú a ako sú štruktúrované.
  4. Nástroje prístupu k dátovému skladu: Prístupové nástroje umožňujú používateľom komunikovať s údajmi vo vašom dátovom sklade. Príklady prístupových nástrojov zahŕňajú: nástroje na vyhľadávanie a vykazovanie, nástroje na vývoj aplikácií, nástroje na dolovanie údajov a nástroje OLAP.

Architektúra data warehouse

V minulosti fungovali dátové sklady vo vrstvách, ktoré sa zhodovali s tokom obchodných dát.

Schéma architektúry dátového skladu. Typický dátový sklad zahŕňa tri samostatné vrstvy vyššie. Moderné dátové sklady dnes kombinujú OLTP a OLAP do jedného systému.

  • Údajová vrstva: Údaje sa extrahujú z vašich zdrojov a potom sa transformujú a načítajú do spodnej vrstvy pomocou nástrojov ETL. Spodná vrstva sa skladá z vášho databázového servera, údajových mart a dátových jazier. V tejto vrstve sa vytvárajú metaúdaje a nástroje na integráciu údajov, ako je virtualizácia údajov, sa používajú na bezproblémové kombinovanie a agregáciu údajov.

  • Sémantická vrstva: V strednej vrstve, online analytické spracovanie (OLAP) a online transakčné spracovanie (OLTP) servery reštrukturalizujú dáta pre rýchle, komplexné dotazy a analýzy.

  • Analytická vrstva: Vrstva najvyššej úrovne je klientska vrstva frontendu. Obsahuje nástroje prístupu k dátovému skladu, ktoré umožňujú používateľom pracovať s údajmi, vytvárať dashboardy a výkazy, monitorovať KPI, mínuskovať a analyzovať údaje, vytvárať aplikácie a ďalšie. Táto vrstva často zahŕňa pracovný stôl alebo skúšobnú oblasť na prieskum údajov a vývoj nového modelu údajov.

Dátové sklady boli navrhnuté tak, aby podporovali rozhodovanie a boli primárne vybudované a udržiavané IT tímami, ale v posledných rokoch sa vyvinuli tak, aby posilnili podnikových používateľov – znížili svoju závislosť na IT, aby získali prístup k údajom a odvodili použiteľné prehľady. Niekoľko kľúčových funkcií skladovania údajov, ktoré majú splnomocnených podnikových používateľov, je:

  1. Sémantická alebo pracovná vrstva, ktorá poskytuje frázy prirodzeného jazyka a umožňuje každému okamžite porozumieť údajom, definovať vzťahy medzi prvkami v dátovom modeli a rozšíriť údajové polia o nové podnikové informácie.
  2. Virtuálne pracovné oblasti umožňujú tímom priniesť modely údajov a pripojenia na jedno zabezpečené a riadené miesto, ktoré podporuje lepšiu spoluprácu s kolegami prostredníctvom jedného spoločného priestoru a jednej spoločnej množiny údajov.
  3. Cloud ďalej zlepšil rozhodovanie vďaka globálnemu posilneniu zamestnancov bohatou sadou nástrojov a funkcií na jednoduché vykonávanie úloh analýzy údajov. Môžu pripojiť nové aplikácie a zdroje údajov bez veľkej podpory IT.

Najlepších sedem výhod cloudového data warehouse

Obľuba cloudových dátových skladov rastie – z dobrého dôvodu. Tieto moderné sklady ponúkajú niekoľko výhod oproti tradičným verziám on-premise. Tu je sedem najlepších výhod cloudového dátového skladu:

  1. Rýchle nasadenie: S cloudovým skladovaním dát si môžete zakúpiť takmer neobmedzený výpočtový výkon a ukladanie dát len na pár kliknutí - a môžete si vytvoriť vlastný dátový sklad, dátové marže a pieskoviská odkiaľkoľvek, v priebehu niekoľkých minút.
  2. Nízke celkové náklady na vlastníctvo (TCO): Cenové modely dátového skladu ako služby (DWaaS) sú nastavené, takže platíte len za potrebné zdroje, keď ich potrebujete. Nemusíte predvídať svoje dlhodobé potreby alebo platiť za viac výpočtov počas celého roka, ako je potrebné. Môžete sa tiež vyhnúť počiatočným nákladom, ako je drahý hardvér, serverové miestnosti a personál údržby. Oddelenie ceny skladovania od výpočtovej ceny vám tiež poskytuje spôsob, ako znížiť náklady.
  3. Elasticita: S cloudovým dátovým skladom môžete podľa potreby dynamicky škálovať nahor alebo nadol. Cloud nám poskytuje virtualizované, vysoko distribuované prostredie, ktoré dokáže spravovať obrovské objemy dát, ktoré môžu rásť a klesať.
  4. Zabezpečenie a obnova po havárii: V mnohých prípadoch cloudové dátové sklady v skutočnosti poskytujú silnejšiu bezpečnosť a šifrovanie dát ako lokálne dátové úložiská. Dáta sa tiež automaticky duplikujú a zálohujú, takže môžete minimalizovať riziko straty dát.
  5. Technológie v reálnom čase: Cloudové dátové sklady postavené na technológii in-memory databáz môžu poskytnúť extrémne rýchle spracovanie dát a poskytovať dáta v reálnom čase pre okamžité situačné povedomie.
  6. Nové technológie: Cloudové dátové sklady vám umožňujú jednoducho integrovať nové technológie, ako je strojové učenie, ktoré môže poskytnúť riadený zážitok pre podnikových používateľov a podporu rozhodovania vo forme odporúčaných otázok, ktoré sa majú položiť, ako príklad.
  7. Oprávnenie podnikových používateľov: Cloudové dátové sklady oprávňujú zamestnancov rovnako a globálne s jediným pohľadom na údaje z mnohých zdrojov a bohatou sadou nástrojov a funkcií na jednoduché vykonávanie úloh analýzy údajov. Môžu pripojiť nové aplikácie a zdroje údajov bez IT.
placeholder

Data warehousing podporuje komplexnú analýzu firemných výdavkov podľa oddelenia, dodávateľov, regiónu a statusu, aby ste vymenovali niekoľko.

Najlepšie postupy pri uchovávaní údajov

Pri budovaní nového dátového skladu alebo pridávaní nových aplikácií do existujúceho skladu existujú osvedčené kroky na dosiahnutie vašich cieľov a zároveň šetrenie času a peňazí. Niektoré sú zamerané na vaše podnikové využitie a iné postupy sú súčasťou vášho celkového IT programu. Nasledujúci zoznam je dobrým východiskovým bodom a pri práci so svojimi technologickými a servisnými partnermi si vyberiete ďalšie osvedčené postupy. 

Business Best Practices

  • Definujte požadované informácie. Keď dobre pochopíte svoje počiatočné potreby, môžete nájsť zdroje dát, ktoré ich podporujú. Často budú mať obchodné skupiny, zákazníci a dodávatelia dátové odporúčania pre vás.

  • Zdokumentujte umiestnenie, štruktúru a kvalitu svojich aktuálnych dát. Potom môžete identifikovať medzery v dátach a obchodné pravidlá pre transformáciu dát tak, aby vyhovovali vašim skladovým požiadavkám.

  • Zostavte tím. Patria sem aj výkonní sponzori, manažéri a zamestnanci, ktorí budú informácie používať a poskytovať. Napríklad identifikujte štandardné výkazníctvo a KPI, ktoré potrebujú na vykonávanie svojich úloh.

  • Uprednostnite svoje aplikácie dátového skladu. Vyberte jeden alebo dva pilotné projekty, ktoré majú primerané požiadavky a dobrú obchodnú hodnotu.

  • Vyberte si silného partnera pre technológiu dátového skladu. Musia mať implementačné služby a skúsenosti potrebné pre vaše projekty. Uistite sa, že podporujú vaše potreby nasadenia vrátane cloudových služieb aj možností on-premise.

  • Vypracovanie dobrého projektového plánu. Spolupracujte s tímom na realistickom koncepte a pláne, ktorý podporuje komunikáciu a vykazovanie stavu.

IT Best Practices

  • Monitorujte výkon a zabezpečenie. Informácie vo vašom dátovom sklade sú cenné, aj keď musia byť ľahko dostupné, aby poskytli hodnotu organizácii. Pozorne monitorujte používanie systému, aby ste sa uistili, že úrovne výkonu sú vysoké.

  • Vykonáva údržbu štandardov kvality údajov, metaúdajov, štruktúry a dozoru. Nové zdroje cenných údajov sa stávajú bežnými dostupnými, ale vyžadujú si dôsledné riadenie ako súčasť dátového skladu. Dodržiavajte postupy na čistenie údajov, definovanie metaúdajov a dodržiavanie štandardov dozoru.

  • Poskytuje agilnú architektúru. S rastúcim využívaním vašej firmy a obchodnej jednotky objavíte širokú škálu potrieb dátových trhov a skladov. Flexibilná platforma ich podporí oveľa lepšie ako obmedzený, obmedzujúci produkt.

  • Automatizujte procesy, ako je napríklad údržba. Okrem pridania hodnoty do business intelligence môže strojové učenie automatizovať funkcie technického riadenia dátových skladov, aby sa udržala rýchlosť a znížili prevádzkové náklady.

  • Použite cloud strategicky. Obchodné jednotky a oddelenia majú rôzne potreby nasadenia. V prípade potreby použite systémy on-premise a aktivujte cloudové dátové sklady pre škálovateľnosť, znížené náklady a prístup k telefónom a tabletom.

Súhrnne

Moderné dátové sklady a čoraz viac cloudové dátové sklady budú kľúčovou súčasťou akejkoľvek iniciatívy digitálnej transformácie pre materské spoločnosti a ich obchodné jednotky. Využívajú aktuálne podnikové systémy, najmä keď kombinujete dáta z viacerých interných systémov s novými, dôležitými informáciami z externých organizácií.

 

Riadiace panely, KPI, výstrahy a vykazovanie požiadaviek na exekutívu, manažment a personál, ako aj dôležité potreby zákazníkov a dodávateľov. Dátové sklady tiež poskytujú rýchlu a komplexnú dátovú ťažbu a analýzu a nenarušujú výkon iných podnikových systémov.

 

Vzhľadom na flexibilitu pri zakladaní malých podnikov a expanzii podľa potreby môžu podnikové kancelárie aj obchodné útvary zlepšiť rozhodovací a líniový výkon pomocou modernej technológie dátových skladov.

Často kladené otázky k data warehouse

Data Lake je miesto na ukladanie všetkých druhov Big Data, či už ide o štruktúrované dáta z podnikových aplikácií alebo neštruktúrované dáta z mobilných aplikácií, sociálnych médií alebo zariadení Internet of Things (IoT). Keďže údaje sú uložené v ich prirodzenom formáte – štruktúrované, neštruktúrované, pološtruktúrované alebo binárne – môže byť potrebná konverzia, normalizácia alebo iné spracovanie na umožnenie analýzy viacerých typov údajov. Väčšina dátových jazier je založená na cloude z dôvodu veľkého objemu údajov, ktoré uchovávajú, potreby vysokorýchlostného pripojenia k distribuovaným zdrojom a potreby škálovateľnosti.

ETL znamená „extrahovať, transformovať a zaťažovať“. Tieto aktivity spolu tvoria proces, ktorý sa používa na prevzatie údajov zo zdroja, ich konverziu na použiteľný formát a ich presun do dátového skladu alebo iného dátového úložiska. ETL je obzvlášť užitočné pri transakčných dátach, ale pokročilejšie nástroje môžu spravovať aj rôzne neštruktúrované dátové typy.

Dátový trh je segmentovaný segment dátového skladu, ktorý je orientovaný na konkrétny pracovný úsek alebo tím, ako sú financie alebo marketing. Dátové trhy uľahčujú oddeleniam rýchly prístup k údajom a štatistikám, ktoré sú pre ne relevantné, a tiež riadia svoje vlastné množiny údajov v rámci väčšieho dátového úložiska.

Dátové modely sú základným prvkom vývoja a analýzy softvéru. Dátový model je popis štruktúry údajov a formy, v ktorej budú údaje uložené v databáze. Dátový model poskytuje rámec vzťahov medzi údajovými prvkami v rámci databázy, ako aj príručku pre použitie údajov.

 

Modelovanie údajov je proces vytvárania modelov údajov. Pri vytváraní databázy alebo štruktúry dátového skladu dizajnér začína diagramom toho, ako budú údaje prúdiť do databázy alebo dátového skladu a ako z nej budú prúdiť. Tento vývojový diagram sa používa na definovanie charakteristík formátov údajov, štruktúr a funkcií spracovania databázy, aby sa efektívne podporili požiadavky na tok údajov. Modelovanie poskytuje štandardizovanú metódu pre definovanie a formátovanie obsahu databázy konzistentne naprieč systémami, čo umožňuje rôznym aplikáciám zdieľať rovnaké dáta.

Podnikový dátový sklad (EDW) ukladá všetky aktuálne a historické obchodné údaje na jednom mieste – stelesnenie správy kmeňových dát, skladovania dát a dátovej stratégie založenej na holistickom prístupe k správe dát. EDW poskytuje príjemné prostredie pre analytický softvér a údržbu presných, celopodnikových KPI a výkazníctva. Mnohé EDW sú založené na cloude pre škálovateľnosť, prístup a jednoduché používanie.

placeholder

Preskúmajte moderné nástroje dátového skladu

SAP Datasphere je nová generácia SAP Data Warehouse Cloud.

placeholder

Nápady nenájdete nikde inde

Zaregistrujte sa na dávku business intelligence doručenú priamo do vašej schránky.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel