Co je datové jezero?

Datové jezero je centrální úložiště dat, které pomáhá řešit problémy se zásobníkem dat. 

Přehled datového jezera

Datové jezero je v podstatě úložiště informací. Datová jezera jsou často zaměňována s datovými sklady, ale obě slouží různým obchodním potřebám a mají odlišnou architekturu. Zejména cloudová datová jezera jsou životně důležitou součástí moderní strategie správy dat, protože se zrychluje šíření sociálních dat, dat o počítačích internetu věcí (Internet of Things, IoT) a transakčních dat. Schopnost ukládat, transformovat a analyzovat jakýkoli datový typ připravuje cestu pro nové obchodní příležitosti a digitální transformaci – a zde v spočívá role datového jezera.

90

%

Finanční instituce věří, že iniciativy v oblasti dat velkého objemu určují budoucí úspěch

64.2

Zettabyty digitálních dat byly vytvořeny v roce 2020

17.6

B $USD

odhadovaná hodnota trhu s datovým jezerem do roku 2026,

Definice datového jezera

Datové jezero je centrální úložiště dat, které pomáhá řešit problémy se zásobníkem dat. Důležité je, že datové jezero uchovává obrovské množství surových dat ve svém nativním – nebo původním – formátu. Tento formát může být strukturovaný, nestrukturovaný nebo polostrukturovaný. Datová jezera, zejména ta v cloudu, jsou nízkonákladová, snadno škálovatelná a často se používají s aplikovanými analýzami strojového učení.

Datové jezero vs. datový sklad

Na rozdíl od datového jezera poskytuje datový sklad funkce správy dat a uchovává zpracovaná a filtrovaná data, která jsou již zpracována pro předdefinované obchodní otázky nebo případy použití.

Diagram datového skladu v porovnání s datovým jezerem.

Datové sklady a jezera se často vzájemně doplňují. Když jsou například k zodpovězení obchodní otázky potřebná prvotní data uložená v datovém jezeru, lze je extrahovat, vyčistit, transformovat a použít v datovém skladu pro další analýzu.

 

„Datové jezero“ je nový a vyvíjející se koncept, který přidává možnosti správy dat nad rámec tradičního datového jezera. V podstatě je to kombinace datového jezera a datového skladu.

 

Kromě typu dat a rozdílů ve výše uvedeném procesu jsou zde některé detaily, které porovnávají datové jezero s řešením datového skladu.

Datové jezero
Datový sklad
Data
Jakýkoli typ dat z libovolného zdroje
Relační nebo strukturované
Schéma
Schéma při čtení (čas analýzy)
Schéma při zápisu (předdefinováno)
Skladovací náklady
Nižší náklady – petabajtová stupnice
Vyšší náklady – terabajtová stupnice
Kvalita dat
Kurátorovaná nebo nevybraná data
Vybraná data
uživatelů
Datoví vědci, vývojáři dat (například pomocí Pythonu) a obchodní analytici (pomocí SQL pro kurátorovaná data)
Obchodní analytici používající SQL
Analýza
Strojové učení, prediktivní analýza, zjišťování/profilování dat
Reporting šarží, BI, vizualizace

V konečném důsledku bude při výběru správného řešení úložiště hrát důležitou roli objem dat, výkon databáze a cena za úložiště.

Klíčové prvky řešení datového jezera

  • Pohyb dat: Datová jezera umožňují import libovolného datového typu z více zdrojů v jeho nativním formátu. Podniky tak mohou podle potřeby škálovat na velikost dat, aniž by musely definovat datové struktury, schéma a transformace, což může vést k úsporám režijních nákladů.

  • Bezpečné ukládání a katalogová data: Datové jezero uchovává strukturovaná, polostrukturovaná a nestrukturovaná data z různých zdrojů, jako jsou obchodní data ze softwaru CRM nebo ERP, zařízení IoT, sociální média nebo dokonce historická data ze starých systémů. A datová jezera vám umožní zachytit dávková a streamovaná data při použití správy, zabezpečení a kontroly. Data mohou být dotazována přímo nebo přijímána do datového skladu pomocí správných nástrojů.

  • Analýza a strojové učení: Datová jezera umožňují přístup k informacím založený na rolích ke spouštění analýz a analýz strojového učení bez nutnosti přesouvat data do samostatné databáze analýzy. Také datová jezera umožňují kombinovat historická data s daty v reálném čase pro upřesnění strojového učení nebo prediktivních analytických modelů, aby se zajistily lepší a/nebo nové výsledky.

Jak fungují datová jezera

Moderní datové jezero má tři hlavní rysy:

  1. Cílová zóna pro vaše nezpracovaná data
  2. Zóna stagingu, kde jsou data transformována s ohledem na analytický účel
  3. Zóna průzkumu dat, ve které jsou data využívána analytickými nástroji, aplikacemi a k přenosu modelů strojového učení

Z datového jezera jsou informace přenášeny do různých zdrojů – jako jsou analytické nebo jiné podnikové aplikace, nebo do nástrojů strojového učení pro další analýzu.

 

Případ použití datového jezera

Zde jsou dva příklady případu použití datového jezera v maloobchodě.

 

Dlouhodobá prodejní data jsou uložena v datovém jezeře spolu s nestrukturovanými daty, jako jsou například webové stránky cvakání, počasí, zprávy a mikro-/makroekonomická data. Díky tomu, že jsou tyto údaje uloženy společně a přístupné, může datový vědec snadněji kombinovat tyto různé zdroje informací do modelu, který předpovídá poptávku po konkrétním produktu nebo řadě produktů. Tyto informace jsou pak použity jako vstupy do maloobchodního ERP systému pro podporu zvýšení nebo snížení výrobních plánů.

 

Současně může marketingový expert přistupovat ke stejnému datovému jezeru a podívat se na analýzu sentimentu webových stránek a sociálních médií se zprávami, makroekonomickými údaji a údaji o historii prodeje s cílem určit, na které produkty se zaměřit a jak nejlépe maximalizovat prodej, zisk a/nebo přijetí.

Typy datových jezer

Datová jezera mohou být umístěna na místě, v cloudu, jako je hybrid obou, a napříč více cloudovými hyperškálami, jako jsou Amazon Web Services (AWS), Microsoft Azure nebo Google Cloud.

 

Zdaleka nejoblíbenějším typem datového jezera je cloudové datové jezero. Cloudové datové jezero poskytuje všechny obvyklé funkce datového jezera, ale v plně spravované cloudové službě.

  • Místní datové jezero: S místním datovým jezerem spravují interní zdroje IT inženýrství hardware, software a procesy. Tento přístup má vyšší kapitálový závazek (CAPEX) a údaje mají tendenci být zastříkány.

  • Cloudové datové jezero: V cloudovém datovém jezeře je infrastruktura on-premise zajišťována externě. Existuje vyšší závazek v oblasti provozních výdajů (OPEX), ale tento přístup k zavádění umožňuje podnikům snadněji škálovat spolu s mnoha dalšími přínosy (viz níže).

  • Hybridní datové jezero: Ve vybraných případech se některé společnosti rozhodnou udržovat současně místní i cloudová datová jezera. Tato situace je poměrně vzácná a většinou se objevuje během migračních scénářů z on-premise do cloudu.

  • Datové jezero s více cloudy: V datovém jezeru s více cloudy se kombinují dvě nebo více nabídek cloudu; například podnik může ke správě a údržbě cloudových datových jezer používat AWS i Azure. To vyžaduje větší odborné znalosti, aby se zajistila vzájemná komunikace těchto různorodých platforem.

Šest hlavních výhod cloudového datového jezera

Proč si vybrat cloudové datové jezero? Přeměna dat na vysoce hodnotná obchodní aktiva podporuje digitální transformaci. Silné stránky cloudu v kombinaci s datovým jezerem poskytují tento základ. Cloudové datové jezero umožňuje společnostem aplikovat analýzy na historická data i nové zdroje dat, jako jsou soubory protokolu, toky kliknutí, sociální média, zařízení propojená s internetem a další, pro získání užitečných analýz.

 

Zde jsou některé z hlavních výhod, které byste měli očekávat:

  1. Cenová efektivita: Poskytovatelé cloudových úložišť nabízejí mnoho možností úložiště a cen.
  2. Automatické škálování: Cloudové služby jsou navrženy tak, aby poskytovaly funkce škálování, které firmám umožňují počítat a využívat kapacitu úložiště na vyžádání.
  3. Centrální úložiště dat: Cloudové datové jezero spojuje informace a slouží jako jediný zdroj pravdy s řízeným přístupem k datům, který umožňuje efektivitu procesů mezi týmy.
  4. Zabezpečení dat: Poskytovatelé cloudových úložišť zaručují bezpečnost dat prostřednictvím modelu sdílené odpovědnosti.
  5. Nástroje: Poskytovatelé cloudových úložišť a další dodavatelé poskytují nástroje ETL, které procházejí data, vytvářejí katalog dat a provádějí přípravu dat, transformaci dat a příjem dat, aby bylo možné vytvářet dotazy na data.
  6. Vylepšené analýzy pro nové přehledy a lepší obchodní výsledky: Cloudové datové jezero může kombinovat data novými způsoby. Například data CRM a analýzy sociálních médií mohou poskytnout nové informace o zákaznících o příčině odlivu nebo ukázat, které propagační akce zvyšují loajalitu. Rovněž lze zlepšit provozní efektivitu prostřednictvím analýzy dat IoT.

Často kladené otázky Data Lake

Prozkoumejte některé z našich častých dotazů ohledně datových jezer níže a podívejte se na náš glosář správy dat, kde najdete ještě více definic.

Termín „datové jezero“ se vyvinul tak, aby odrážel koncept fluidního, většího úložiště dat – ve srovnání s více siloidním, dobře definovaným a strukturovaným datovým tržištěm, konkrétně.

 

Před více než deseti lety, kdy zdroje dat rostly, se datová jezera změnila, aby se řešila potřeba ukládat petabajty nedefinovaných dat pro pozdější analýzu. První datová jezera byla založena na souborovém systému Hadoop (HDFS) a komoditním hardwaru založeném na datových centrech on-premise. Přirozené výzvy s distribuovanou architekturou a potřeba vlastní transformace a analýzy dat však přispěly k neoptimálnímu výkonu systémů založených na Hadoopu.

 

Technologie cloud computingu a ukládání dat jsou nyní hlavním základem moderního datového zásobníku – a pro cloudová datová jezera.

Datový sklad (DW) je digitální úložný systém, který spojuje a harmonizuje velké množství strukturovaných a formátovaných dat z mnoha různých zdrojů. Naproti tomu datové jezero ukládá data v původní podobě – a není strukturované ani formátované.

Správa dat je proces shromažďování, organizace a přístupu k datům pro podporu produktivity, efektivity a rozhodování.

Datové jezero přidává možnosti správy dat a skladů nad rámec možností tradičního datového jezera. Jedná se o novou a rozvíjející se oblast, která se rychle mění.

Multicloud je využití více služeb cloud computingu a úložiště v jedné heterogenní architektuře. To se týká distribuce cloudových aktiv, softwaru a aplikací, například napříč několika cloudovými hostingovými prostředími.

Úložiště souborů organizuje a reprezentuje data jako hierarchii souborů ve složkách; blokuje ukládání bloků dat do libovolně uspořádaných, rovnoměrně velkých svazků a úložiště objektů spravuje data a propojuje je s přidruženými metadaty. Systémy pro ukládání objektů umožňují uchování obrovského množství nestrukturovaných dat.

placeholder

Začínáme s řešeními Data Lake

Prozkoumejte možnosti datového jezera v rámci SAP HANA Cloud.

placeholder

Nápady, které jinde nenajdete

Zaregistrujte se pro dávku business intelligence doručenou přímo do vaší schránky.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel