Čo je data warehouse?
Data warehouse (DW) je digitálny úložný systém, ktorý spája a harmonizuje veľké množstvo dát z mnohých rôznych zdrojov.
Prehľad dátového skladu
Dátový sklad (DW) je digitálny úložný systém, ktorý spája a harmonizuje veľké množstvo dát z mnohých rôznych zdrojov. Jeho účelom je poskytovať podnikové informácie (BI), výkazníctvo a analýzy a podporovať regulačné požiadavky – aby spoločnosti mohli premeniť svoje údaje na prehľad a robiť inteligentné rozhodnutia založené na údajoch. Dátové sklady ukladajú aktuálne a historické dáta na jednom mieste a fungujú ako jediný zdroj pravdy pre organizáciu.
Dátové toky do dátového skladu z operačných systémov (ako ERP a CRM), databáz a externých zdrojov, ako sú partnerské systémy, zariadenia Internet of Things (IoT), aplikácie pre počasie a sociálne médiá – zvyčajne v pravidelnej kadencii. Vznik cloud computingu spôsobil posun v krajine. V posledných rokoch sa miesta ukladania údajov presunuli z tradičnej infraštruktúry on-premise do viacerých miest vrátane lokálneho, súkromného cloudu a verejného cloudu.
Moderné dátové sklady sú navrhnuté tak, aby spracovávali štruktúrované aj neštruktúrované dáta, ako sú videá, obrazové súbory a dáta senzorov. Niektoré využívajú integrovanú analytickú a in-memory databázovú technológiu (ktorá uchováva dáta v pamäti počítača a nie v ukladacom priestore na disku), aby poskytovali prístup k dôveryhodným dátam v reálnom čase a zabezpečili sebavedomé rozhodovanie. Bez ukladania dát je veľmi ťažké kombinovať dáta z heterogénnych zdrojov, zabezpečiť, aby boli v správnom formáte pre analýzy a získať aktuálny aj dlhý pohľad na dáta v priebehu času.
Čo je data warehouse?
Výhody skladovania dát
Dobre navrhnutý dátový sklad je základom pre akýkoľvek úspešný BI alebo analytický program. Jeho hlavnou úlohou je poháňať reporty, dashboardy a analytické nástroje, ktoré sa dnes stali pre podniky nepostrádateľnými. Dátový sklad poskytuje informácie pre vaše rozhodnutia založené na údajoch a pomáha vám správne volať na všetko od vývoja nových produktov až po úrovne zásob. Existuje mnoho výhod dátového skladu. Tu je len niekoľko:
Lepšia podniková analýza: S ukladaním dát majú rozhodujúci činitelia prístup k údajom z viacerých zdrojov a už nemusia robiť rozhodnutia na základe neúplných informácií.
Rýchlejšie dotazy: Dátové sklady sú vytvorené špeciálne pre rýchle načítanie a analýzu dát. S DW môžete veľmi rýchlo vyhľadávať veľké množstvo konsolidovaných dát s malou až žiadnou podporou IT.
Zlepšená kvalita údajov: Pred načítaním do DW systém vytvorí prípady čistenia údajov a zadá ich do zásoby práce na ďalšie spracovanie, čím sa zabezpečí, že sa údaje transformujú na konzistentný formát na podporu analýz a rozhodnutí založených na vysoko kvalitných a presných dátach.
Historický prehľad: Ukladaním bohatých historických údajov umožňuje dátový sklad tvorcom rozhodnutí poučiť sa z minulých trendov a výziev, robiť prognózy a podporovať neustále zlepšovanie podniku.
Snímka obrazovky skladu údajov zobrazujúca pôvod údajov.
Čo môže ukladací priestor data warehouse?
Keď sa na konci 80. rokov prvýkrát stali populárne dátové sklady, boli navrhnuté tak, aby uchovávali informácie o ľuďoch, produktoch a transakciách. Tieto údaje – nazývané štruktúrované údaje – boli úhľadne usporiadané a naformátované pre jednoduchý prístup. Podniky však čoskoro chceli uložiť, načítať a analyzovať neštruktúrované dáta – ako sú dokumenty, obrázky, videá, e-maily, príspevky sociálnych médií a nespracované údaje zo strojových senzorov.
Moderný dátový sklad dokáže pojať štruktúrované aj neštruktúrované dáta. Spojením týchto typov údajov a rozdelením zásobníkov medzi tieto dva typy údajov môžu podniky získať úplný a komplexný obraz o najcennejších postrehoch.
Niektoré kľúčové pojmy
Existuje veľa pojmov, ktoré by mali mať zmysel vo svete DW. Tu sú niektoré z najdôležitejších. Preskúmajte niektoré ďalšie výrazy a často kladené otázky v našom slovníku.
Dátový sklad verzus databáza
Databázy a dátové sklady sú systémy na ukladanie dát; slúžia však na rôzne účely. Databáza ukladá dáta zvyčajne pre určitý pracovný úsek. Dátový sklad uchováva aktuálne a historické údaje za celý podnik a poskytuje BI a analýzy. Dátové sklady používajú databázový server na získanie dát z databáz organizácie a majú ďalšie funkcie pre modelovanie dát, správu životného cyklu dát, integráciu zdrojov dát a ďalšie.
Dátový sklad vs. dátové jazero
Na ukladanie veľkých dát sa používajú dátové sklady aj dátové jazerá , ale ide o veľmi odlišné systémy ukladania. Dátový sklad ukladá údaje, ktoré boli naformátované na konkrétny účel, zatiaľ čo dátové jazero ukladá údaje v nespracovanom stave, ktorého účel ešte nebol definovaný. Dátové sklady a jazerá sa často navzájom dopĺňajú. Napríklad, keď sú na zodpovedanie obchodnej otázky potrebné nespracované údaje uložené v jazere, môžu sa extrahovať, vyčistiť, transformovať a použiť v dátovom sklade na analýzu. Dôležitú úlohu pri výbere správneho riešenia úložiska zohráva objem dát, výkon databáz a ceny úložiska.
Diagram dátového skladu v porovnaní s dátovým jazerom.
Dátový sklad vs. dátový trh
Údajový trh je podsekcia dátového skladu, ktorá je segmentovaná špecificky pre oddelenie alebo odvetvie – ako predaj, marketing alebo financie. Niektoré dátové marže sa vytvárajú aj na samostatné prevádzkové účely. Zatiaľ čo dátový sklad slúži ako centrálna dátová schránka pre celú firmu, dátový trh slúži relevantným údajom pre vybranú skupinu používateľov. To zjednodušuje prístup k údajom, urýchľuje analýzu a dáva im kontrolu nad vlastnými údajmi. V rámci dátového skladu sú často nasadené viaceré dátové marže.
Schéma dátového martu a ako to funguje.
Aké sú kľúčové komponenty data warehouse?
Typický dátový sklad má štyri hlavné komponenty: centrálnu databázu, ETL (extrakciu, transformáciu, načítanie) nástroje, metadáta a prístupové nástroje. Všetky tieto komponenty sú navrhnuté pre rýchlosť, takže môžete získať výsledky rýchlo a analyzovať dáta za chodu.
Diagram zobrazujúci komponenty dátového skladu.
- Centrálna databáza: Databáza slúži ako základ vášho dátového skladu. Tradične ide o štandardné relačné databázy bežiace na mieste prevádzky alebo v cloude. Ale kvôli Big Data, potrebe skutočného výkonu v reálnom čase a drastickému zníženiu nákladov na RAM, in-memory databázy rýchlo získavajú popularitu.
- Integrácia údajov: Údaje sa získavajú zo zdrojových systémov a upravujú sa tak, aby sa zosúladili informácie pre rýchlu analytickú spotrebu pomocou rôznych prístupov k integrácii údajov, ako sú ETL (extrakcia, transformácia, načítanie) a ELT, ako aj replikácia údajov v reálnom čase, spracovanie hromadného zaťaženia, transformácia údajov, kvalita údajov a služby obohacovania.
- Metadáta: Metadáta sú údaje o vašich údajoch. Určuje zdroj, použitie, hodnoty a ďalšie funkcie dátových súborov vo vašom dátovom sklade. Existujú podnikové metadáta, ktoré pridávajú kontext k vašim údajom, a technické metadáta, ktoré popisujú, ako pristupovať k údajom - vrátane toho, kde sa nachádzajú a ako sú štruktúrované.
- Nástroje prístupu k dátovému skladu: Prístupové nástroje umožňujú používateľom komunikovať s údajmi vo vašom dátovom sklade. Príklady prístupových nástrojov zahŕňajú: nástroje na vyhľadávanie a vykazovanie, nástroje na vývoj aplikácií, nástroje na dolovanie údajov a nástroje OLAP.
Architektúra data warehouse
V minulosti fungovali dátové sklady vo vrstvách, ktoré sa zhodovali s tokom obchodných dát.
Schéma architektúry dátového skladu. Typický dátový sklad zahŕňa tri samostatné vrstvy vyššie. Moderné dátové sklady dnes kombinujú OLTP a OLAP do jedného systému.
Údajová vrstva: Údaje sa extrahujú z vašich zdrojov a potom sa transformujú a načítajú do spodnej vrstvy pomocou nástrojov ETL. Spodná vrstva sa skladá z vášho databázového servera, údajových mart a dátových jazier. V tejto vrstve sa vytvárajú metaúdaje a nástroje na integráciu údajov, ako je virtualizácia údajov, sa používajú na bezproblémové kombinovanie a agregáciu údajov.
Sémantická vrstva: V strednej vrstve, online analytické spracovanie (OLAP) a online transakčné spracovanie (OLTP) servery reštrukturalizujú dáta pre rýchle, komplexné dotazy a analýzy.
Analytická vrstva: Vrstva najvyššej úrovne je klientska vrstva frontendu. Obsahuje nástroje prístupu k dátovému skladu, ktoré umožňujú používateľom pracovať s údajmi, vytvárať dashboardy a výkazy, monitorovať KPI, mínuskovať a analyzovať údaje, vytvárať aplikácie a ďalšie. Táto vrstva často zahŕňa pracovný stôl alebo skúšobnú oblasť na prieskum údajov a vývoj nového modelu údajov.
Dátové sklady boli navrhnuté tak, aby podporovali rozhodovanie a boli primárne vybudované a udržiavané IT tímami, ale v posledných rokoch sa vyvinuli tak, aby posilnili podnikových používateľov – znížili svoju závislosť na IT, aby získali prístup k údajom a odvodili použiteľné prehľady. Niekoľko kľúčových funkcií skladovania údajov, ktoré majú splnomocnených podnikových používateľov, je:
- Sémantická alebo pracovná vrstva, ktorá poskytuje frázy prirodzeného jazyka a umožňuje každému okamžite porozumieť údajom, definovať vzťahy medzi prvkami v dátovom modeli a rozšíriť údajové polia o nové podnikové informácie.
- Virtuálne pracovné oblasti umožňujú tímom priniesť modely údajov a pripojenia na jedno zabezpečené a riadené miesto, ktoré podporuje lepšiu spoluprácu s kolegami prostredníctvom jedného spoločného priestoru a jednej spoločnej množiny údajov.
- Cloud ďalej zlepšil rozhodovanie vďaka globálnemu posilneniu zamestnancov bohatou sadou nástrojov a funkcií na jednoduché vykonávanie úloh analýzy údajov. Môžu pripojiť nové aplikácie a zdroje údajov bez veľkej podpory IT.
Najlepších sedem výhod cloudového data warehouse
Obľuba cloudových dátových skladov rastie – z dobrého dôvodu. Tieto moderné sklady ponúkajú niekoľko výhod oproti tradičným verziám on-premise. Tu je sedem najlepších výhod cloudového dátového skladu:
- Rýchle nasadenie: S cloudovým skladovaním dát si môžete zakúpiť takmer neobmedzený výpočtový výkon a ukladanie dát len na pár kliknutí - a môžete si vytvoriť vlastný dátový sklad, dátové marže a pieskoviská odkiaľkoľvek, v priebehu niekoľkých minút.
- Nízke celkové náklady na vlastníctvo (TCO): Cenové modely dátového skladu ako služby (DWaaS) sú nastavené, takže platíte len za potrebné zdroje, keď ich potrebujete. Nemusíte predvídať svoje dlhodobé potreby alebo platiť za viac výpočtov počas celého roka, ako je potrebné. Môžete sa tiež vyhnúť počiatočným nákladom, ako je drahý hardvér, serverové miestnosti a personál údržby. Oddelenie ceny skladovania od výpočtovej ceny vám tiež poskytuje spôsob, ako znížiť náklady.
- Elasticita: S cloudovým dátovým skladom môžete podľa potreby dynamicky škálovať nahor alebo nadol. Cloud nám poskytuje virtualizované, vysoko distribuované prostredie, ktoré dokáže spravovať obrovské objemy dát, ktoré môžu rásť a klesať.
- Zabezpečenie a obnova po havárii: V mnohých prípadoch cloudové dátové sklady v skutočnosti poskytujú silnejšiu bezpečnosť a šifrovanie dát ako lokálne dátové úložiská. Dáta sa tiež automaticky duplikujú a zálohujú, takže môžete minimalizovať riziko straty dát.
- Technológie v reálnom čase: Cloudové dátové sklady postavené na technológii in-memory databáz môžu poskytnúť extrémne rýchle spracovanie dát a poskytovať dáta v reálnom čase pre okamžité situačné povedomie.
- Nové technológie: Cloudové dátové sklady vám umožňujú jednoducho integrovať nové technológie, ako je strojové učenie, ktoré môže poskytnúť riadený zážitok pre podnikových používateľov a podporu rozhodovania vo forme odporúčaných otázok, ktoré sa majú položiť, ako príklad.
- Oprávnenie podnikových používateľov: Cloudové dátové sklady oprávňujú zamestnancov rovnako a globálne s jediným pohľadom na údaje z mnohých zdrojov a bohatou sadou nástrojov a funkcií na jednoduché vykonávanie úloh analýzy údajov. Môžu pripojiť nové aplikácie a zdroje údajov bez IT.
Data warehousing podporuje komplexnú analýzu firemných výdavkov podľa oddelenia, dodávateľov, regiónu a statusu, aby ste vymenovali niekoľko.
Najlepšie postupy pri uchovávaní údajov
Pri budovaní nového dátového skladu alebo pridávaní nových aplikácií do existujúceho skladu existujú osvedčené kroky na dosiahnutie vašich cieľov a zároveň šetrenie času a peňazí. Niektoré sú zamerané na vaše podnikové využitie a iné postupy sú súčasťou vášho celkového IT programu. Nasledujúci zoznam je dobrým východiskovým bodom a pri práci so svojimi technologickými a servisnými partnermi si vyberiete ďalšie osvedčené postupy.
Business Best Practices
Definujte požadované informácie. Keď dobre pochopíte svoje počiatočné potreby, môžete nájsť zdroje dát, ktoré ich podporujú. Často budú mať obchodné skupiny, zákazníci a dodávatelia dátové odporúčania pre vás.
Zdokumentujte umiestnenie, štruktúru a kvalitu svojich aktuálnych dát. Potom môžete identifikovať medzery v dátach a obchodné pravidlá pre transformáciu dát tak, aby vyhovovali vašim skladovým požiadavkám.
Zostavte tím. Patria sem aj výkonní sponzori, manažéri a zamestnanci, ktorí budú informácie používať a poskytovať. Napríklad identifikujte štandardné výkazníctvo a KPI, ktoré potrebujú na vykonávanie svojich úloh.
Uprednostnite svoje aplikácie dátového skladu. Vyberte jeden alebo dva pilotné projekty, ktoré majú primerané požiadavky a dobrú obchodnú hodnotu.
Vyberte si silného partnera pre technológiu dátového skladu. Musia mať implementačné služby a skúsenosti potrebné pre vaše projekty. Uistite sa, že podporujú vaše potreby nasadenia vrátane cloudových služieb aj možností on-premise.
Vypracovanie dobrého projektového plánu. Spolupracujte s tímom na realistickom koncepte a pláne, ktorý podporuje komunikáciu a vykazovanie stavu.
IT Best Practices
Monitorujte výkon a zabezpečenie. Informácie vo vašom dátovom sklade sú cenné, aj keď musia byť ľahko dostupné, aby poskytli hodnotu organizácii. Pozorne monitorujte používanie systému, aby ste sa uistili, že úrovne výkonu sú vysoké.
Vykonáva údržbu štandardov kvality údajov, metaúdajov, štruktúry a dozoru. Nové zdroje cenných údajov sa stávajú bežnými dostupnými, ale vyžadujú si dôsledné riadenie ako súčasť dátového skladu. Dodržiavajte postupy na čistenie údajov, definovanie metaúdajov a dodržiavanie štandardov dozoru.
Poskytuje agilnú architektúru. S rastúcim využívaním vašej firmy a obchodnej jednotky objavíte širokú škálu potrieb dátových trhov a skladov. Flexibilná platforma ich podporí oveľa lepšie ako obmedzený, obmedzujúci produkt.
Automatizujte procesy, ako je napríklad údržba. Okrem pridania hodnoty do business intelligence môže strojové učenie automatizovať funkcie technického riadenia dátových skladov, aby sa udržala rýchlosť a znížili prevádzkové náklady.
Použite cloud strategicky. Obchodné jednotky a oddelenia majú rôzne potreby nasadenia. V prípade potreby použite systémy on-premise a aktivujte cloudové dátové sklady pre škálovateľnosť, znížené náklady a prístup k telefónom a tabletom.
Súhrnne
Moderné dátové sklady a čoraz viac cloudové dátové sklady budú kľúčovou súčasťou akejkoľvek iniciatívy digitálnej transformácie pre materské spoločnosti a ich obchodné jednotky. Využívajú aktuálne podnikové systémy, najmä keď kombinujete dáta z viacerých interných systémov s novými, dôležitými informáciami z externých organizácií.
Riadiace panely, KPI, výstrahy a vykazovanie požiadaviek na exekutívu, manažment a personál, ako aj dôležité potreby zákazníkov a dodávateľov. Dátové sklady tiež poskytujú rýchlu a komplexnú dátovú ťažbu a analýzu a nenarušujú výkon iných podnikových systémov.
Vzhľadom na flexibilitu pri zakladaní malých podnikov a expanzii podľa potreby môžu podnikové kancelárie aj obchodné útvary zlepšiť rozhodovací a líniový výkon pomocou modernej technológie dátových skladov.
Často kladené otázky k data warehouse
Preskúmajte moderné nástroje dátového skladu
SAP Datasphere je nová generácia SAP Data Warehouse Cloud.
Nápady nenájdete nikde inde
Zaregistrujte sa na dávku business intelligence doručenú priamo do vašej schránky.