Co je datové jezero?
Datové jezero je centralizované úložiště dat, které pomáhá řešit problémy datového sila.
default
{}
default
{}
primary
default
{}
secondary
Co je datové jezero: definice a účel
Datové jezero je centralizované úložiště, které ukládá strukturovaná, polostrukturovaná a nestrukturovaná data ve svých nativních formátech. Na rozdíl od jiných úložných systémů, které vyžadují organizaci dat před jejich uložením (například datové sklady), datové jezero akceptuje surová data tak, jak jsou, a zachovává svou původní strukturu a formát, dokud nejsou potřebné pro pokročilé analýzy, umělou inteligenci (AI) a případy použití strojového učení (ML).
Hlavním účelem datového jezera je rozčlenění datových silek a vytvoření jediného zdroje pro datová aktiva organizace. Zahrnuje konsolidaci dat z více zdrojů do jednoho přístupného místa – datového jezera, což znamená, že datoví vědci, analytici a inženýři strojového učení mohou všichni zkoumat, experimentovat a extrahovat hodnotu z informací, které jinak zůstaly zachyceny v různých systémech. Příklady zdrojů dat, které by mohly být uloženy v datovém jezeře:
- Databáze
- Soubory
- Datové proudy
- Aplikační protokoly
- Informační kanály sociálních médií
- Protokoly snímačů IoT
Účelem datového jezera je poskytnout flexibilní, škálovatelné řešení pro ukládání a analýzu dat všech typů. To je umožněno přístupem schémat při čtení (vs. schéma při zápisu, jak se používá v datových skladech).
Co znamená schéma načteno?
Schéma při čtení znamená, že struktura a význam dat – schéma – se použijí spíše při přístupu, než když jsou uložena. To zachovává flexibilitu, což organizacím umožňuje ukládat data, aniž by věděly, jak se budou v budoucnu používat. Proto jsou datová jezera ideální pro průzkumné analýzy, dolování dat, strojové učení a objevování neočekávaných vzorů v datech.
Architektura a komponenty datového jezera
Architektura datového jezera je vícevrstvá a skládá se z několika klíčových komponent, které spolupracují na přijetí, uložení, zpracování a dodání dat koncovým uživatelům a aplikacím. Tyto klíčové komponenty datového jezera jsou:
Vrstva úložiště
Vrstva úložiště je základem architektury datového jezera, obvykle postavené na systémech objektového úložiště, které poskytují nákladově efektivní a škálovatelné úložiště pro masivní objemy dat. Tato vrstva obsahuje data v nativním formátu, ať už se jedná o soubory CSV, dokumenty JSON, parketové soubory, obrázky, videa nebo jakýkoli jiný formát.
Příjem dat
Vrstva příjmu dat zpracovává proces přivádění dat do jezera z různých zdrojů. To zahrnuje dávkový příjem pro periodické načítání dat a příjem streamování datových toků v reálném čase. Nástroje pro příjem dat musí pracovat s různými datovými typy a zdroji a zároveň zajistit integritu dat a sledovat rodokmen dat.
Správa katalogu dat a metadat
Komponenta katalogizace a správy metadat udržuje organizovaný soupis dat, která existují v jezeře, včetně jejich umístění, významu a vztahů k jiným datům. Myslete na to jako knihovnu nebo správce archivních katalogů. Robustní katalog dat slouží jako prohledávatelný index, který umožňuje uživatelům najít relevantní datové sady, aniž by museli ručně procházet celé úložiště.
Vrstva zpracování
Vrstva zpracování umožňuje transformaci dat, očištění, rozšíření a analýzu. Tato vrstva zahrnuje nástroje pro dávkové zpracování, zpracování toků a interaktivní dotazy, které umožňují uživatelům připravit se na konkrétní případy použití nebo provést analýzu ad-hoc.
Přístupová vrstva
Přístupová vrstva poskytuje rozhraní a nástroje pro různé typy uživatelů: datoví vědci používající notebooky, analytici provozující SQL dotazy nebo aplikace využívající data prostřednictvím rozhraní API. Tato vrstva také prosazuje bezpečnostní zásady, řídí, kdo může přistupovat k jakým datům a za jakých podmínek.
Typy datových jezer: cloudová, místní, hybridní, multi-cloud
Existují různé typy datových jezer v závislosti na konfiguraci, ve které je organizace nasadí. Každá konfigurace nabízí určité výhody a kompromisy.
Cloudová datová jezera
Cloudová datová jezera jsou hostována výhradně na cloudových platformách. Mohou nabídnout prakticky neomezenou škálovatelnost, průběžně placené ceny a snadnou integraci s nativní cloudovou analytikou a službami umělé inteligence. Cloudová datová jezera eliminují potřebu počátečních investic do infrastruktury, což organizacím umožňuje nezávisle škálovat úložiště a vypočítávat zdroje. Jsou obzvláště vhodné pro rostoucí organizace a ty, kteří chtějí snížit provozní režii při zachování přístupu k nejmodernějším analytickým funkcím.
Místní datová jezera
Místní datová jezera jsou nasazena ve vlastních datových centrech organizace, což poskytuje úplnou kontrolu nad infrastrukturou, bezpečností a datovou suverenitou a plnou odpovědnost za ně. Zatímco někdy používají organizace s velmi specifickými regulačními a bezpečnostními požadavky, místní datová jezera obvykle vyžadují významné kapitálové investice, nepřetržitou údržbu a značné úsilí pro jakékoliv transformační projekty. Často je to kompromis: zvýšení granularity kontroly přichází na úkor škálovatelnosti a nákladové efektivity.
Hybridní datová jezera
Hybridní datová jezera kombinují cloudové a místní úložiště, což organizacím umožňuje uchovávat některá data na místě a zároveň využívat cloudové zdroje pro škálovatelnost a pokročilé analytické nástroje. Tento přístup nabízí flexibilitu, ale přináší složitost při synchronizaci dat, správě a správě konzistentního prostředí.
Vícecloudová datová jezera
Multicloudová datová jezera zahrnují více poskytovatelů cloudu, pomáhají organizacím vyhnout se uzamčení dodavatelů, optimalizují náklady pomocí nejlepších služeb od jednotlivých poskytovatelů a zajišťují kontinuitu provozu prostřednictvím redundance. Architektury s více cloudy však vyžadují pečlivé plánování interoperability dat, konzistentní bezpečnostní politiky a správu nákladů na přenos dat mezi poskytovateli cloudových služeb. Mohou také proměnit zavádění změn nebo inovací v složitější proces.
Datové jezero vs. datový sklad vs. datové jezero
Pochopení rozdílů mezi těmito přístupy k ukládání dat je nezbytné pro výběr správných řešení pro cíle vaší organizace. Porovnáme datová jezera, datové sklady a datová jezera napříč řadou klíčových kritérií:
Jak to vypadá v praxi?
Datová jezera vynikají při ekonomickém ukládání velkých objemů surových dat a podporují průzkumné analýzy a strojové učení. Jsou ideální, když potřebujete flexibilitu pro práci s různými datovými typy a nevíte předem, jak budou data použita. Mohou také ukládat data, která jsou pak tažena do datových skladů.
Datové sklady jsou účelové pro business intelligence a reporting se strukturovanými schématy optimalizovanými pro výkon dotazu. Jsou nejvhodnější pro přesně definované potřeby výkaznictví a modelování, kde je kvalita a konzistence dat prvořadá – například pro použití v prediktivní analýze. V praxi mohou být data nashromážděná v datových jezerech dokonce zpracovávána a streamována nebo pravidelně načítána do datových skladů, v závislosti na tom, jak jsou datové kanály konfigurovány.
Datová jezera představují novější architekturu, která kombinuje flexibilitu datových jezer s manažerskými funkcemi a výkonem datových skladů. Umožňují organizacím spouštět průzkumné analýzy i podnikové výkaznictví na stejné platformě, což snižuje duplicitu a složitost dat.
Výhody datových jezer
Výhody datových jezer jsou tím, co je činí tak přesvědčivou volbou pro organizace a základním kamenem moderní datové architektury. Mezi výhody architektury datového jezera patří:
Flexibilita: Datová jezera přijímají jakýkoli datový typ v jakémkoli formátu, čímž eliminují potřebu transformace dat před uložením nebo se potýkají s tím, že některá data chybějí. To znamená, že můžete začít shromažďovat data okamžitě bez nutnosti rozsáhlého počátečního plánování nebo znalosti, jak je budete používat. Přístup schema-on-read umožňuje různým týmům využívat a interpretovat stejná data různými způsoby, což podporuje inovace a objevování.
Škálovatelnost: U datových jezer může úložiště růst z gigabajtů do petabajtů bez nutnosti architektonických změn nebo migrací, zejména s implementacemi na bázi cloudu. Organizace mohou začít malé a rozšiřovat se s tím, jak jejich datové potřeby rostou.
Efektivita nákladů: Jednou z výhod datových jezer pro ukládání je, že obvykle stojí výrazně méně než tradiční datové sklady pro stejný objem úložiště, což ekonomicky umožňuje uchovávat historická data a zkoumat nové zdroje dat bez překročení rozpočtových omezení.
Pokročilá analytická podpora: Datová jezera umožňují datovým vědcům a inženýrům strojového učení přístup k nezpracovaným datům pro vytváření a trénování modelů, dolování dat a další pokročilé úlohy. Na rozdíl od zpracovaných dat ve skladech, příjem nezpracovaných dat uchovává nuance a detaily, které by se mohly ukázat jako kritické pro přesné prognózy a analýzy. Datová jezera také podporují analýzy v reálném čase tím, že přijímají streamovaná data, což organizacím umožňuje jednat na základě čerstvých informací.
Demokratizace dat: Další výhodou architektury datového jezera je, že když jsou všechna organizační data uložena na jednom přístupném místě, více lidí v celé organizaci může objevovat a používat data, rozkládat sila a podporovat rozhodování založené na datech na všech úrovních.
Společné problémy s datovým jezerem
Zatímco datová jezera nabízejí obrovské výhody, představují také výzvy, které organizace potřebují řešit, aby plně využily svůj potenciál. Společné problémy s datovým jezerem zahrnují:
Správa komplexního datového jezera
Správa dat se stává složitější při ukládání velkého množství různorodých dat. Bez správných frameworků řízení se mohou datová jezera přenést do "data swamps" – repozitářů, kde jsou data dumpována bez jakékoliv organizace, což ztěžuje hledání, pochopení nebo důvěru. Stanovení jasné vlastnictví, dokumentace rodokmenu dat a správa metadat jsou nezbytné, ale vyžadují trvalé úsilí a disciplínu.
Obavy týkající se bezpečnosti údajů
Bezpečnost a kontrola přístupu vyžadují pečlivou pozornost. Datová jezera obsahují citlivé informace z celé organizace a zajišťují, aby ke konkrétním datovým sadám měli přístup pouze oprávnění uživatelé při zachování revizních záznamů, vyžadují robustní bezpečnostní zásady a nástroje. Šifrování, autentizace, jemnozrnné řízení přístupu a maskování dat hrají důležité role v zabezpečení prostředí datového jezera a vyhýbání se problémům se správou datového jezera.
Nerovnoměrná kvalita dat
Kvalita dat není v datových jezerech automaticky zajištěna. Protože jsou prvotní data uložena tak, jak jsou, mohou obsahovat chyby, duplikáty nebo nekonzistence. Organizace potřebují procesy k ověření, očištění a obohacení těchto dat, než se použijí pro analýzy. Bez ohledu na kvalitu dat mohou analytické nástroje a modely strojového učení založené na jezerních datech přinést nespolehlivé výsledky.
Problémy se správou datového jezera
Požadavky na složitost a odborné znalosti by neměly být podceňovány. Efektivní správa datového jezera vyžaduje dovednosti v distribuovaných systémech, datovém inženýrství, správě metadat a různých frameworcích zpracování. Organizace mohou potřebovat investovat do školení, najímat specializované talenty nebo spolupracovat s odborným poskytovatelem služeb, aby vybudovaly a udržovaly svou infrastrukturu datového jezera.
Dlouhé časy dotazů
Optimalizace výkonu může být složitá, zejména u interaktivních dotazů na velkých množinách dat. Na rozdíl od skladů s předem optimalizovanými schématy vyžadují datová jezera promyšlenou organizaci dat, strategie segmentace a výběr formátů souborů pro dosažení přijatelného výkonu dotazu. Zjednodušeně řečeno, datová jezera mohou obsahovat nepochopitelně obrovské objemy dat, takže najít to, co potřebujete, může trvat dlouho.
Příklady datových jezer a praktické případy použití
Příklady využití datového jezera v reálném světě ukazují, jak organizace využívají datová jezera k řešení obchodních výzev a získání konkurenčních výhod. Rozčleňme ho na základě analýzy několika běžných případů použití datového jezera.
Případ použití datového jezera: analýza IoT pro prediktivní údržbu
Výrobní společnost shromažďuje data snímačů z tisíců strojů ve více závodech a denně generuje terabajty dat časových řad. Když tato data streamují do datového jezera, kombinují je se záznamy údržby, plány výroby a informacemi o dodavatelích. Modely strojového učení analyzují historické vzory, aby předpovídaly poruchy vybavení předtím, než k nim dojde, čímž se zkrátí prostoje a ušetří se miliony nákladů na opravu. Schopnost datového jezera zpracovat data proudící vysokou rychlostí z více zdrojů umožňuje tento případ použití.
Případ použití datových jezer: Zákazník 360 pro personalizovaný marketing
Maloobchodní organizace konsoliduje data zákazníků z chování při procházení online, historie nákupů, interakcí s mobilními aplikacemi, volání a chatů služeb zákazníkům, zapojení na sociálních médiích a návštěv na prodejnách do datového jezera. Analýzou tohoto komplexního pohledu na každého zákazníka mohou vytvořit detailní segmenty a personalizovat marketingové kampaně, doporučení produktů a zákaznické zkušenosti. To by mohlo zvýšit efektivitu kampaní a výrazně zvýšit spokojenost zákazníků. V tomto příkladu datového jezera umožňuje flexibilita a kapacita pro ukládání strukturovaných transakčních dat i nestrukturovaných protokolů interakcí toto holistické zobrazení zákazníka.
Případ použití datového jezera: modelování rizika finančních služeb
Finanční instituce používá datové jezero k agregaci obchodních dat, kanálů trhu, zpravodajských článků, smýšlení na sociálních médiích a regulatorních podání. Datoví vědci vytvářejí sofistikované modely rizik, které zohledňují jak tradiční finanční metriky, tak další zdroje dat. Přístup jezera podle schématu podle čtení jim umožňuje prozkoumat různé zdroje dat a techniky modelování bez narušení stávajících systémů, což jim pomáhá dosáhnout přesnějšího posouzení rizik.
Osvědčené postupy datového jezera
Implementace následujících osvědčených postupů pro datová jezera může organizacím pomoci maximalizovat hodnotu jejich datových jezer a zároveň se vyhnout běžným úskalím:
- Upřednostnit správu metadat od prvního dne. Vytvořte komplexní katalog dat, který dokumentuje, jaká data existují, odkud pocházejí, co znamenají a jak souvisí s jinými datovými sadami. Dobrá metadata mění datové jezero spíše na prohledávatelný, srozumitelný zdroj než na ohromující výpis dat – je to nezbytná součást správy datového jezera.
- Zajistěte správu datového jezera. Implementujte silné rámce správy dat, které definují vlastnictví dat, stanoví standardy kvality a vytvářejí jasné procesy pro příjem dat, klasifikaci a správu životního cyklu. Správa by neměla být následná myšlenka – zabudujte ji od začátku do architektury datového jezera, abyste si udrželi důvěru v vaše data a zajistili soulad s regulačními požadavky.
- Chraňte svá data. Návrh pro zabezpečení a shodu pomocí implementace šifrování v klidu a na cestě, jemnozrnných řízení přístupu, protokolování auditu a maskování dat, pokud je to nutné. Pravidelně revidujte vzory a oprávnění přístupu, abyste zajistili soulad se zásadou nejnižších privilegií.
- Optimalizace výkonu. Úložiště lze optimálně uspořádat logickým rozdělením dat (podle data, regionu nebo jiných relevantních dimenzí), výběrem efektivních formátů souborů pro pracovní zatížení analytiky a implementací zásad životního cyklu pro archivaci nebo odstranění zastaralých dat. Tyto volby mají významný dopad jak na náklady, tak na výkonnost dotazů.
- Podpořte kulturu založenou na datech. Zpřístupnění a zpřístupnění dat při poskytování školení a nástrojů, které umožňují samoobslužné analýzy. Pokud váš tým nemá správné odborné znalosti, zvažte najmutí dalších talentů, které mohou překlenout propast mezi zainteresovanými stranami a technologií a zajistit optimální správu datového jezera. Technická infrastruktura je cenná pouze tehdy, pokud ji lidé skutečně využijí k lepšímu rozhodování.
Budoucnost datových jezer
Vývoj datových jezer pokračuje, protože organizace požadují jak flexibilitu, tak správu, což vede ke vzniku architektur datových jezer, které kombinují nejlepší aspekty jezer a skladů. Tato konvergence odráží rostoucí porozumění, že organizace potřebují jednotné platformy, které podporují různé přístupy, spíše než udržování oddělených systémů pro různé účely.
Umělá inteligence a strojové učení jsou stále centrálnější pro strategie datového jezera. Moderní datová jezera nejsou jen úložišti úložišť – jsou to centrální platformy, kde modely umělé inteligence trénují na historických datech, vytvářejí předpovědi pomocí streamovaných dat a průběžně se zlepšují prostřednictvím smyček zpětné vazby. Integrace s platformami umělé inteligence a automatizovanými funkcemi strojového učení se stává spíše standardem než výjimkou.
Vzhledem k tomu, že organizace uznávají hodnotu působení na čerstvá data, získává analytika v reálném čase a streamování i nadále na významu. Výsledkem je, že se datová jezera vyvíjejí tak, aby podporovala zpracování a dotazování podsekundových dat, čímž se stírá hranice mezi historickou analýzou a operacemi v reálném čase.
A konečně, vzhledem k tomu, že předpisy o ochraně osobních údajů se rozšiřují a mění po celém světě, musí se datová jezera vyvíjet tak, aby podporovala soukromí a ochranu dat podle návrhu, s funkcemi, jako je automatická klasifikace dat, správa souhlasů a zjednodušené vykazování souladu, které jsou integrovány do platformy, místo aby byly přidány později.
Časté otázky
PRODUKT SAP
Maximalizujte hodnotu vašich dat
Uveďte vše společně se SAP Business Data Cloud.