Co je datové jezero?
Datové jezero je centrální úložiště dat, které pomáhá řešit problémy se zásobníkem dat.
Přehled datového jezera
Datové jezero je v podstatě úložiště informací. Datová jezera jsou často zaměňována s datovými sklady, ale obě slouží různým obchodním potřebám a mají odlišnou architekturu. Zejména cloudová datová jezera jsou životně důležitou součástí moderní strategie správy dat, protože se zrychluje šíření sociálních dat, dat o počítačích internetu věcí (Internet of Things, IoT) a transakčních dat. Schopnost ukládat, transformovat a analyzovat jakýkoli datový typ připravuje cestu pro nové obchodní příležitosti a digitální transformaci – a zde v spočívá role datového jezera.
90
%
Finanční instituce věří, že iniciativy v oblasti dat velkého objemu určují budoucí úspěch
64.2
Zettabyty digitálních dat byly vytvořeny v roce 2020
17.6
B $USD
odhadovaná hodnota trhu s datovým jezerem do roku 2026,
Definice datového jezera
Datové jezero je centrální úložiště dat, které pomáhá řešit problémy se zásobníkem dat. Důležité je, že datové jezero uchovává obrovské množství surových dat ve svém nativním – nebo původním – formátu. Tento formát může být strukturovaný, nestrukturovaný nebo polostrukturovaný. Datová jezera, zejména ta v cloudu, jsou nízkonákladová, snadno škálovatelná a často se používají s aplikovanými analýzami strojového učení.
Datové jezero vs. datový sklad
Na rozdíl od datového jezera poskytuje datový sklad funkce správy dat a uchovává zpracovaná a filtrovaná data, která jsou již zpracována pro předdefinované obchodní otázky nebo případy použití.
Diagram datového skladu v porovnání s datovým jezerem.
Datové sklady a jezera se často vzájemně doplňují. Když jsou například k zodpovězení obchodní otázky potřebná prvotní data uložená v datovém jezeru, lze je extrahovat, vyčistit, transformovat a použít v datovém skladu pro další analýzu.
„Datové jezero“ je nový a vyvíjející se koncept, který přidává možnosti správy dat nad rámec tradičního datového jezera. V podstatě je to kombinace datového jezera a datového skladu.
Kromě typu dat a rozdílů ve výše uvedeném procesu jsou zde některé detaily, které porovnávají datové jezero s řešením datového skladu.
V konečném důsledku bude při výběru správného řešení úložiště hrát důležitou roli objem dat, výkon databáze a cena za úložiště.
Klíčové prvky řešení datového jezera
Pohyb dat: Datová jezera umožňují import libovolného datového typu z více zdrojů v jeho nativním formátu. Podniky tak mohou podle potřeby škálovat na velikost dat, aniž by musely definovat datové struktury, schéma a transformace, což může vést k úsporám režijních nákladů.
Bezpečné ukládání a katalogová data: Datové jezero uchovává strukturovaná, polostrukturovaná a nestrukturovaná data z různých zdrojů, jako jsou obchodní data ze softwaru CRM nebo ERP, zařízení IoT, sociální média nebo dokonce historická data ze starých systémů. A datová jezera vám umožní zachytit dávková a streamovaná data při použití správy, zabezpečení a kontroly. Data mohou být dotazována přímo nebo přijímána do datového skladu pomocí správných nástrojů.
Analýza a strojové učení: Datová jezera umožňují přístup k informacím založený na rolích ke spouštění analýz a analýz strojového učení bez nutnosti přesouvat data do samostatné databáze analýzy. Také datová jezera umožňují kombinovat historická data s daty v reálném čase pro upřesnění strojového učení nebo prediktivních analytických modelů, aby se zajistily lepší a/nebo nové výsledky.
Jak fungují datová jezera
Moderní datové jezero má tři hlavní rysy:
- Cílová zóna pro vaše nezpracovaná data
- Zóna stagingu, kde jsou data transformována s ohledem na analytický účel
- Zóna průzkumu dat, ve které jsou data využívána analytickými nástroji, aplikacemi a k přenosu modelů strojového učení
Z datového jezera jsou informace přenášeny do různých zdrojů – jako jsou analytické nebo jiné podnikové aplikace, nebo do nástrojů strojového učení pro další analýzu.
Případ použití datového jezera
Zde jsou dva příklady případu použití datového jezera v maloobchodě.
Dlouhodobá prodejní data jsou uložena v datovém jezeře spolu s nestrukturovanými daty, jako jsou například webové stránky cvakání, počasí, zprávy a mikro-/makroekonomická data. Díky tomu, že jsou tyto údaje uloženy společně a přístupné, může datový vědec snadněji kombinovat tyto různé zdroje informací do modelu, který předpovídá poptávku po konkrétním produktu nebo řadě produktů. Tyto informace jsou pak použity jako vstupy do maloobchodního ERP systému pro podporu zvýšení nebo snížení výrobních plánů.
Současně může marketingový expert přistupovat ke stejnému datovému jezeru a podívat se na analýzu sentimentu webových stránek a sociálních médií se zprávami, makroekonomickými údaji a údaji o historii prodeje s cílem určit, na které produkty se zaměřit a jak nejlépe maximalizovat prodej, zisk a/nebo přijetí.
Typy datových jezer
Datová jezera mohou být umístěna na místě, v cloudu, jako je hybrid obou, a napříč více cloudovými hyperškálami, jako jsou Amazon Web Services (AWS), Microsoft Azure nebo Google Cloud.
Zdaleka nejoblíbenějším typem datového jezera je cloudové datové jezero. Cloudové datové jezero poskytuje všechny obvyklé funkce datového jezera, ale v plně spravované cloudové službě.
Místní datové jezero: S místním datovým jezerem spravují interní zdroje IT inženýrství hardware, software a procesy. Tento přístup má vyšší kapitálový závazek (CAPEX) a údaje mají tendenci být zastříkány.
Cloudové datové jezero: V cloudovém datovém jezeře je infrastruktura on-premise zajišťována externě. Existuje vyšší závazek v oblasti provozních výdajů (OPEX), ale tento přístup k zavádění umožňuje podnikům snadněji škálovat spolu s mnoha dalšími přínosy (viz níže).
Hybridní datové jezero: Ve vybraných případech se některé společnosti rozhodnou udržovat současně místní i cloudová datová jezera. Tato situace je poměrně vzácná a většinou se objevuje během migračních scénářů z on-premise do cloudu.
Datové jezero s více cloudy: V datovém jezeru s více cloudy se kombinují dvě nebo více nabídek cloudu; například podnik může ke správě a údržbě cloudových datových jezer používat AWS i Azure. To vyžaduje větší odborné znalosti, aby se zajistila vzájemná komunikace těchto různorodých platforem.
Šest hlavních výhod cloudového datového jezera
Proč si vybrat cloudové datové jezero? Přeměna dat na vysoce hodnotná obchodní aktiva podporuje digitální transformaci. Silné stránky cloudu v kombinaci s datovým jezerem poskytují tento základ. Cloudové datové jezero umožňuje společnostem aplikovat analýzy na historická data i nové zdroje dat, jako jsou soubory protokolu, toky kliknutí, sociální média, zařízení propojená s internetem a další, pro získání užitečných analýz.
Zde jsou některé z hlavních výhod, které byste měli očekávat:
- Cenová efektivita: Poskytovatelé cloudových úložišť nabízejí mnoho možností úložiště a cen.
- Automatické škálování: Cloudové služby jsou navrženy tak, aby poskytovaly funkce škálování, které firmám umožňují počítat a využívat kapacitu úložiště na vyžádání.
- Centrální úložiště dat: Cloudové datové jezero spojuje informace a slouží jako jediný zdroj pravdy s řízeným přístupem k datům, který umožňuje efektivitu procesů mezi týmy.
- Zabezpečení dat: Poskytovatelé cloudových úložišť zaručují bezpečnost dat prostřednictvím modelu sdílené odpovědnosti.
- Nástroje: Poskytovatelé cloudových úložišť a další dodavatelé poskytují nástroje ETL, které procházejí data, vytvářejí katalog dat a provádějí přípravu dat, transformaci dat a příjem dat, aby bylo možné vytvářet dotazy na data.
- Vylepšené analýzy pro nové přehledy a lepší obchodní výsledky: Cloudové datové jezero může kombinovat data novými způsoby. Například data CRM a analýzy sociálních médií mohou poskytnout nové informace o zákaznících o příčině odlivu nebo ukázat, které propagační akce zvyšují loajalitu. Rovněž lze zlepšit provozní efektivitu prostřednictvím analýzy dat IoT.
Často kladené otázky Data Lake
Prozkoumejte některé z našich častých dotazů ohledně datových jezer níže a podívejte se na náš glosář správy dat, kde najdete ještě více definic.
Začínáme s řešeními Data Lake
Prozkoumejte možnosti datového jezera v rámci SAP HANA Cloud.
Nápady, které jinde nenajdete
Zaregistrujte se pro dávku business intelligence doručenou přímo do vaší schránky.