Co je datový sklad?

Datový sklad (data warehouse) je digitální úložný systém, který spojuje a harmonizuje velké množství dat z mnoha různých zdrojů.

Přehled datových skladů

Datový sklad (DW) je digitální úložný systém, který spojuje a harmonizuje velké množství dat z mnoha různých zdrojů. Jejím účelem je poskytovat informace o business intelligence (BI), výkaznictví a analytice a podporovat regulační požadavky – společnosti tak mohou svá data přeměnit v přehledy a přijímat chytrá rozhodnutí založená na datech. Datové sklady uchovávají aktuální a historická data na jednom místě a fungují jako jediný zdroj pravdy pro organizaci.

 

Datové toky do datového skladu z operačních systémů (jako jsou ERP a CRM), databází a externích zdrojů, jako jsou partnerské systémy, zařízení Internet of Things (IoT), aplikace pro počasí a sociální média – obvykle na pravidelné frekvenci. Vznik cloud computingu způsobil posun v krajině. V posledních letech se úložiště dat přesunula z tradiční místní infrastruktury na více míst, včetně on-premise, privátního cloudu a veřejného cloudu.

 

Moderní datové sklady jsou navrženy tak, aby zpracovávaly strukturovaná i nestrukturovaná data, jako jsou videa, obrazové soubory a data snímačů. Některé využívají integrovanou analytiku a technologii databáze v paměti (která uchovává datovou sadu v paměti počítače spíše než v úložišti na disku), aby poskytly přístup k důvěryhodným datům v reálném čase a podporovaly sebevědomé rozhodování. Bez skladování dat je velmi obtížné kombinovat data z heterogenních zdrojů, zajistit, aby byla ve správném formátu pro analýzu, a získat aktuální i dlouhodobý pohled na data v průběhu času.

Co je datový sklad?

Výhody skladování dat

Dobře navržený datový sklad je základem každého úspěšného BI nebo analytického programu. Jeho hlavním úkolem je pohánět zprávy, řídicí panely a analytické nástroje, které se staly dnes pro podniky nepostradatelnými. Datový sklad poskytuje informace pro vaše rozhodování založené na datech – a pomáhá vám správně volat vše od vývoje nových produktů až po úroveň zásob. Existuje mnoho výhod datového skladu. Zde je jen několik z nich: 

  • Lepší podniková analytika: Díky skladování dat mají osoby s rozhodovací pravomocí přístup k datům z více zdrojů a nemusí se již rozhodovat na základě neúplných informací.  

  • Rychlejší dotazy: Datové sklady jsou vytvořeny speciálně pro rychlé vyhledávání a analýzu dat. S DW můžete velmi rychle dotazovat velké množství konsolidovaných dat s malou nebo žádnou podporou IT.  

  • Zlepšená kvalita dat: Před načtením do DW jsou případy očištění dat vytvořeny systémem a zadány do zásoby práce pro další zpracování, což zajišťuje transformaci dat do konzistentního formátu, který podporuje analýzy – a rozhodnutí – na základě vysoce kvalitních a přesných dat.

  • Historický vhled: Datové sklady uchovávají bohatá historická data a umožňují tak osobám s rozhodovací pravomocí učit se z minulých trendů a výzev, vytvářet předpovědi a podporovat neustálé zlepšování podniku.

placeholder

Snímek obrazovky datového skladu zobrazující rodokmen dat.

Co může datový sklad uchovávat?

Když se datové sklady poprvé staly populární koncem 80. let, byly navrženy tak, aby uchovávaly informace o lidech, produktech a transakcích. Tato data – zvaná strukturovaná data – byla úhledně uspořádána a formátována pro snadný přístup. Podniky však brzy chtěly ukládat, načítat a analyzovat nestrukturovaná data – například dokumenty, obrázky, videa, e-maily, příspěvky na sociálních sítích a nezpracovaná data ze senzorů strojů.

 

Moderní datový sklad může pojmout strukturovaná i nestrukturovaná data. Spojením těchto datových typů a rozdělením sil mezi nimi mohou podniky získat úplný a komplexní obraz pro nejcennější přehledy.

Některé klíčové pojmy

Existuje mnoho pojmů, které mají smysl ve světě DW. Zde jsou některé z nejdůležitějších. Seznamte se s dalšími pojmy a častými dotazy v našem glosáři.

 

Datový sklad vs. databáze

 

Databáze a datové sklady jsou oba systémy pro ukládání dat, ale slouží k různým účelům. Databáze ukládá data obvykle pro určitý pracovní úsek. Datový sklad uchovává aktuální a historická data pro celý podnik a přenáší BI a analýzy. Datové sklady používají databázový server k načítání dat z databází organizace a mají další funkce pro modelování dat, správu životního cyklu dat, integraci zdrojů dat a další.

 

Datový sklad vs. datové jezero

 

Datové sklady i datová jezírka slouží k ukládání Big Data, ale jsou to velmi odlišné systémy ukládání dat. Datový sklad uchovává data, která byla formátována pro určitý účel, zatímco datové jezero ukládá data ve svém prvotním, nezpracovaném stavu, jehož účel ještě nebyl definován. Datové sklady a jezera se často doplňují. Když jsou například k zodpovězení obchodní otázky potřebná prvotní data uložená v jezeře, lze je extrahovat, vyčistit, transformovat a použít v datovém skladu pro analýzu. Objem dat, výkon databáze a ceny úložiště hrají důležitou roli při výběru správného řešení úložiště.

Diagram datového skladu v porovnání s datovým jezerem.

Datový sklad vs. datový tržiště

 

Datové tržiště je pododdíl datového skladu, rozdělený speciálně pro oddělení nebo obor podnikání – jako je prodej, marketing nebo finance. Některé datové tržiště jsou vytvořeny také pro samostatné provozní účely. Zatímco datový sklad slouží jako centrální datové úložiště pro celou firmu, datový tržiště slouží relevantním datům vybrané skupině uživatelů. To zjednodušuje přístup k datům, urychluje analýzu a dává jim kontrolu nad jejich vlastními daty. V datovém skladu je často nasazeno více datových tržišť.

Schéma datového tržiště a toho, jak to funguje.

Jaké jsou klíčové komponenty datového skladu?

Typický datový sklad má čtyři hlavní komponenty: centrální databázi, nástroje ETL (extrahování, transformace, načtení), metadata a přístupové nástroje. Všechny tyto komponenty jsou navrženy pro rychlost, takže můžete rychle získat výsledky a analyzovat data průběžně.

Diagram zobrazující komponenty datového skladu.

  1. Centrální databáze: Databáze slouží jako základ vašeho datového skladu. Tradičně se jedná o standardní relační databáze běžící na místě nebo v cloudu. Ale kvůli Big Data, potřebě skutečného výkonu v reálném čase a drastickému snížení nákladů na RAM, in-memory databáze rychle získávají na popularitě.
  2. Integrace dat: Data jsou převzata ze zdrojových systémů a upravena za účelem sladění informací pro rychlou analytickou spotřebu pomocí různých přístupů k integraci dat, jako je ETL (extrakce, transformace, načtení) a ELT, stejně jako replikace dat v reálném čase, zpracování hromadného zavádění, transformace dat a služby kvality a obohacování dat.
  3. Metadata: Metadata jsou data o vašich datech. Určuje zdroj, použití, hodnoty a další funkce datových sad ve vašem datovém skladu. Existují obchodní metadata, která přidávají kontext k vašim datům, a technická metadata, která popisují, jak přistupovat k datům – včetně místa, kde se nacházejí a jak jsou strukturována.
  4. Nástroje pro přístup k datovému skladu: Přístupové nástroje umožňují uživatelům komunikovat s daty ve vašem datovém skladu. Příklady přístupových nástrojů zahrnují: nástroje pro dotazování a vykazování, nástroje pro vývoj aplikací, nástroje pro dolování dat a nástroje OLAP.

Architektura datových skladů

V minulosti fungovaly datové sklady ve vrstvách, které odpovídaly toku obchodních dat.

Schéma architektury datových skladů. Typický datový sklad zahrnuje tři samostatné vrstvy výše. Dnes moderní datové sklady kombinují OLTP a OLAP v jediném systému.

  • Datová vrstva: Data jsou extrahována z vašich zdrojů a poté transformována a načtena do spodní vrstvy pomocí nástrojů ETL. Dolní vrstvu tvoří databázový server, datová tržiště a datová jezera. V této vrstvě jsou vytvořena metadata – a nástroje pro integraci dat, jako je virtualizace dat, se používají k bezproblémovému kombinování a agregaci dat.

  • Sémantická vrstva: Ve střední vrstvě, online analytické zpracování (OLAP) a online transakční zpracování (OLTP) servery restrukturalizují data pro rychlé, komplexní dotazy a analýzy.

  • Analytická vrstva: Horní vrstva je vrstva frontendového klienta. Uchovává nástroje pro přístup k datovému skladu, které umožňují uživatelům komunikovat s daty, vytvářet řídicí panely a výkazy, monitorovat KPI, dolovat a analyzovat data, vytvářet aplikace a další. Tato úroveň často zahrnuje pracovní plochu nebo testovací oblast pro průzkum dat a vývoj nových datových modelů.

Datové sklady byly navrženy tak, aby podporovaly rozhodování a byly primárně budovány a udržovány IT týmy, ale v posledních několika letech se vyvinuly tak, aby posílily podnikové uživatele – snížily jejich závislost na IT, aby získali přístup k datům a odvodili užitečné poznatky. Několik klíčových funkcí skladování dat, které umožnily podnikovým uživatelům:

  1. Sémantická nebo podniková vrstva, která poskytuje fráze v přirozeném jazyce a umožňuje každému okamžitě porozumět datům, definovat vztahy mezi prvky v datovém modelu a rozšířit datová pole o nové obchodní informace.
  2. Virtuální pracovní prostory umožňují týmům přinášet datové modely a připojení na jedno zabezpečené a řízené místo podporující lepší spolupráci s kolegy prostřednictvím jednoho společného prostoru a jedné společné datové sady.
  3. Cloud dále zlepšil rozhodování tím, že globálně podpořil zaměstnance s bohatou sadou nástrojů a funkcí pro snadné provádění úloh analýzy dat. Mohou propojit nové aplikace a zdroje dat bez velké podpory IT.

Prvních sedm výhod cloudového datového skladu

Obliba cloudových datových skladů roste – a to z dobrého důvodu. Tyto moderní sklady nabízejí několik výhod oproti tradičním verzím on-premise. Zde je sedm hlavních výhod cloudového datového skladu:

  1. Rychlé nasazení: S cloudovým datovým skladem si můžete za pár kliknutí zakoupit téměř neomezený výpočetní výkon a datové úložiště – a můžete si vytvořit vlastní datový sklad, datová tržiště a sandboxy odkudkoli a za několik minut.
  2. Nízké celkové náklady na vlastnictví (TCO): Cenové modely datového skladu jako služby (DWaaS) jsou nastaveny tak, abyste platili pouze za zdroje, které potřebujete, když je potřebujete. Nemusíte předpovídat své dlouhodobé potřeby ani platit za více výpočtů po celý rok, než je nutné. Můžete se také vyhnout počátečním nákladům, jako je drahý hardware, serverové místnosti a personál údržby. Oddělení ceny úložiště od výpočetní ceny vám také dává způsob, jak snížit náklady.
  3. Elasticita: S cloudovým datovým skladem můžete podle potřeby dynamicky rozšiřovat nebo snižovat spotřebu. Cloud nám poskytuje virtualizované, vysoce distribuované prostředí, které může spravovat velké objemy dat, které mohou zvětšit a snížit.
  4. Zabezpečení a zotavení po havárii: V mnoha případech cloudové datové sklady skutečně poskytují vyšší bezpečnost dat a šifrování než místní DWs. Data jsou také automaticky duplikována a zálohována, takže můžete minimalizovat riziko ztráty dat.
  5. Technologie v reálném čase: Cloudové datové sklady postavené na technologii in-memory databáze mohou poskytnout extrémně vysokou rychlost zpracování dat pro poskytování dat v reálném čase pro okamžité informování o situaci.
  6. Nové technologie: Cloudové datové sklady vám umožňují snadno integrovat nové technologie, jako je strojové učení, které mohou jako příklad poskytnout řízené prostředí pro podnikové uživatele a podporu při rozhodování ve formě doporučených otázek.
  7. Podpora podnikových uživatelů: Cloudové datové sklady umožňují zaměstnancům stejně a globálně jediný pohled na data z mnoha zdrojů a bohatou sadu nástrojů a funkcí pro snadné provádění úloh analýzy dat. Mohou propojit nové aplikace a zdroje dat bez IT.
placeholder

Skladování dat podporuje komplexní analýzu firemních výdajů podle oddělení, dodavatelů, regionů a statusů.

Osvědčené postupy skladování dat

Při vytváření nového datového skladu nebo přidávání nových aplikací do existujícího skladu existují osvědčené kroky k dosažení vašich cílů a zároveň úspora času a peněz. Některé jsou zaměřeny na vaše obchodní využití a jiné postupy jsou součástí vašeho celkového IT programu. Následující seznam je dobrým výchozím bodem a při práci s partnery v oblasti technologií a služeb získáte další osvědčené postupy. 

Osvědčené obchodní postupy

  • Definujte požadované informace. Jakmile dobře pochopíte své počáteční potřeby, můžete najít zdroje dat pro jejich podporu. Často za vás budou mít obchodní skupiny, zákazníci a dodavatelé doporučení ohledně dat.

  • Zdokumentujte umístění, strukturu a kvalitu vašich aktuálních dat. Potom můžete identifikovat mezery v datech a obchodní pravidla pro transformaci dat tak, aby splňovala vaše skladové požadavky.

  • Sestavte tým. Patří sem výkonní sponzoři, manažeři a zaměstnanci, kteří budou informace využívat a poskytovat. Identifikujte například standardní výkaznictví a KPI, které potřebují k provedení svých úloh.

  • Upřednostněte své aplikace datového skladu. Vyberte si jeden nebo dva pilotní projekty, které mají rozumné požadavky a dobrou obchodní hodnotu.

  • Vyberte si silného partnera pro technologie datových skladů. Musí mít implementační služby a zkušenosti potřebné pro vaše projekty. Ujistěte se, že podporují vaše potřeby nasazení, včetně cloudových služeb i možností on-premise.

  • Vypracovat dobrý projektový plán. Spolupracujte se svým týmem na realistickém konceptu a harmonogramu, který podporuje komunikaci a vykazování stavu.

Osvědčené postupy IT

  • Monitorování výkonu a zabezpečení. Informace ve vašem datovém skladu jsou cenné, i když musí být snadno přístupné, aby poskytovaly hodnotu organizaci. Pečlivě sledujte používání systému, abyste zajistili vysokou úroveň výkonu.

  • Udržování standardů kvality dat, metadat, struktury a správy. Nové zdroje cenných dat se stávají běžně dostupnými, ale vyžadují konzistentní správu jako součást datového skladu. Dodržujte postupy pro čištění dat, definování metadat a plnění standardů řízení.

  • Poskytnout agilní architekturu. S rostoucím využitím vašich firemních a obchodních jednotek objevíte širokou škálu datových tržišť a skladových potřeb. Flexibilní platforma je podpoří mnohem lépe než omezený, restriktivní produkt.

  • Automatizujte procesy, jako je údržba. Kromě přidané hodnoty business intelligence může strojové učení automatizovat funkce technického řízení datových skladů, aby se udržela rychlost a snížily se provozní náklady.

  • Použijte cloud strategicky. Obchodní jednotky a oddělení mají různé potřeby nasazení. V případě potřeby používejte systémy on-premise a využívejte cloudové datové sklady pro škálovatelnost, nižší náklady a přístup k telefonům a tabletům.

V souhrnu

Moderní datové sklady a stále více cloudové datové sklady budou klíčovou součástí každé iniciativy digitální transformace pro mateřské společnosti a jejich obchodní jednotky. Využívají aktuální podnikové systémy, zejména pokud kombinujete data z více interních systémů s novými důležitými informacemi z externích organizací.

 

Řídicí panely, KPI, výstrahy a výkaznictví podporují požadavky vedoucích pracovníků, managementu a personálu, stejně jako důležité potřeby zákazníků a dodavatelů. Datové sklady také poskytují rychlé a komplexní dolování a analýzu dat a nenarušují výkon jiných podnikových systémů.

 

Vzhledem k flexibilitě při zakládání malých podniků a jejich rozšiřování podle potřeby mohou jak firemní kanceláře, tak obchodní jednotky zlepšit rozhodování a výkon na nejnižší úrovni díky moderní technologii datových skladů.

Časté dotazy data warehouse

Datové jezero je místem pro ukládání všech druhů velkých dat, ať už se jedná o strukturovaná data z podnikových aplikací nebo nestrukturovaná data z mobilních aplikací, sociálních médií nebo zařízení internetu věcí (IoT). Vzhledem k tomu, že data jsou uložena v přirozeném formátu – strukturovaném, nestrukturovaném, polostrukturovaném nebo binárním – konverzi, normalizaci nebo jiném zpracování, může být zapotřebí pro umožnění analýzy napříč více datovými typy. Většina datových jezer je založena na cloudu díky velkému objemu dat, které uchovávají, potřebě vysokorychlostního připojení k distribuovaným zdrojům a potřebě škálovatelnosti.

ETL znamená „extrakce, transformace a zatížení“. Tyto činnosti společně tvoří proces použitý pro převzetí dat ze zdroje a jejich konverzi do použitelného formátu – a poté je přesunout do datového skladu nebo jiného datového úložiště. ETL je užitečný zejména pro transakční data, ale pokročilejší nástroje mohou také spravovat různé nestrukturované datové typy.

Datové tržiště je segmentovaný segment datového skladu, který je orientován na konkrétní pracovní úsek nebo tým, jako je finance nebo marketing. Datová tržiště usnadňují oddělení rychlý přístup k datům a analýzám, které jsou pro ně relevantní, a také řízení vlastních datových sad v rámci většího datového úložiště.

Datové modely jsou základním prvkem vývoje a analýzy softwaru. Datový model je popis struktury dat a formy, ve které budou data uložena v databázi. Datový model poskytuje rámec vztahů mezi datovými prvky v databázi a také návod pro použití dat.

 

Modelování dat je proces vytváření datových modelů. Při vytváření databáze nebo struktury datového skladu návrhář začíná diagramem, jak budou data proudit do databáze nebo datového skladu a z ní. Tento vývojový diagram se používá k definování charakteristik datových formátů, struktur a funkcí zpracování databáze pro efektivní podporu požadavků datového toku. Modelování poskytuje standardizovanou metodu pro konzistentní definování a formátování obsahu databáze napříč systémy, což umožňuje různým aplikacím sdílet stejná data.

Podnikový datový sklad (EDW) ukládá všechna aktuální a historická obchodní data na jednom místě – ztělesnění správy kmenových dat, skladování dat a datové strategie založené na holistickém přístupu ke správě dat. EDW poskytují příjemné prostředí pro analytický software a údržbu přesných ukazatelů a reportů pro celou společnost. Mnoho EDW jsou založeny na cloudu pro škálovatelnost, přístup a snadné použití.

placeholder

Prozkoumejte moderní nástroje datového skladu

SAP Datasphere je nová generace SAP Data Warehouse Cloud.

placeholder

Nápady, které jinde nenajdete

Zaregistrujte se pro dávku business intelligence doručenou přímo do vaší schránky.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel