flex-height
text-black

Muž prochází serverovou místností

Co je datové jezero?

Datové jezero je centralizované úložiště dat, které pomáhá řešit problémy datového sila.

default

{}

default

{}

primary

default

{}

secondary

Co je datové jezero: definice a účel

Datové jezero je centralizované úložiště, které ukládá strukturovaná, polostrukturovaná a nestrukturovaná data ve svých nativních formátech. Na rozdíl od jiných úložných systémů, které vyžadují organizaci dat před jejich uložením (například datové sklady), datové jezero akceptuje surová data tak, jak jsou, a zachovává svou původní strukturu a formát, dokud nejsou potřebné pro pokročilé analýzy, umělou inteligenci (AI) a případy použití strojového učení (ML).

Hlavním účelem datového jezera je rozčlenění datových silek a vytvoření jediného zdroje pro datová aktiva organizace. Zahrnuje konsolidaci dat z více zdrojů do jednoho přístupného místa – datového jezera, což znamená, že datoví vědci, analytici a inženýři strojového učení mohou všichni zkoumat, experimentovat a extrahovat hodnotu z informací, které jinak zůstaly zachyceny v různých systémech. Příklady zdrojů dat, které by mohly být uloženy v datovém jezeře:

Účelem datového jezera je poskytnout flexibilní, škálovatelné řešení pro ukládání a analýzu dat všech typů. To je umožněno přístupem schémat při čtení (vs. schéma při zápisu, jak se používá v datových skladech).

Co znamená schéma načteno?

Schéma při čtení znamená, že struktura a význam dat – schéma – se použijí spíše při přístupu, než když jsou uložena. To zachovává flexibilitu, což organizacím umožňuje ukládat data, aniž by věděly, jak se budou v budoucnu používat. Proto jsou datová jezera ideální pro průzkumné analýzy, dolování dat, strojové učení a objevování neočekávaných vzorů v datech.

Architektura a komponenty datového jezera

Architektura datového jezera je vícevrstvá a skládá se z několika klíčových komponent, které spolupracují na přijetí, uložení, zpracování a dodání dat koncovým uživatelům a aplikacím. Tyto klíčové komponenty datového jezera jsou:

Vrstva úložiště

Vrstva úložiště je základem architektury datového jezera, obvykle postavené na systémech objektového úložiště, které poskytují nákladově efektivní a škálovatelné úložiště pro masivní objemy dat. Tato vrstva obsahuje data v nativním formátu, ať už se jedná o soubory CSV, dokumenty JSON, parketové soubory, obrázky, videa nebo jakýkoli jiný formát.

Příjem dat

Vrstva příjmu dat zpracovává proces přivádění dat do jezera z různých zdrojů. To zahrnuje dávkový příjem pro periodické načítání dat a příjem streamování datových toků v reálném čase. Nástroje pro příjem dat musí pracovat s různými datovými typy a zdroji a zároveň zajistit integritu dat a sledovat rodokmen dat.

Správa katalogu dat a metadat

Komponenta katalogizace a správy metadat udržuje organizovaný soupis dat, která existují v jezeře, včetně jejich umístění, významu a vztahů k jiným datům. Myslete na to jako knihovnu nebo správce archivních katalogů. Robustní katalog dat slouží jako prohledávatelný index, který umožňuje uživatelům najít relevantní datové sady, aniž by museli ručně procházet celé úložiště.

Vrstva zpracování

Vrstva zpracování umožňuje transformaci dat, očištění, rozšíření a analýzu. Tato vrstva zahrnuje nástroje pro dávkové zpracování, zpracování toků a interaktivní dotazy, které umožňují uživatelům připravit se na konkrétní případy použití nebo provést analýzu ad-hoc.

Přístupová vrstva

Přístupová vrstva poskytuje rozhraní a nástroje pro různé typy uživatelů: datoví vědci používající notebooky, analytici provozující SQL dotazy nebo aplikace využívající data prostřednictvím rozhraní API. Tato vrstva také prosazuje bezpečnostní zásady, řídí, kdo může přistupovat k jakým datům a za jakých podmínek.

Typy datových jezer: cloudová, místní, hybridní, multi-cloud

Existují různé typy datových jezer v závislosti na konfiguraci, ve které je organizace nasadí. Každá konfigurace nabízí určité výhody a kompromisy.

Cloudová datová jezera

Cloudová datová jezera jsou hostována výhradně na cloudových platformách. Mohou nabídnout prakticky neomezenou škálovatelnost, průběžně placené ceny a snadnou integraci s nativní cloudovou analytikou a službami umělé inteligence. Cloudová datová jezera eliminují potřebu počátečních investic do infrastruktury, což organizacím umožňuje nezávisle škálovat úložiště a vypočítávat zdroje. Jsou obzvláště vhodné pro rostoucí organizace a ty, kteří chtějí snížit provozní režii při zachování přístupu k nejmodernějším analytickým funkcím.

Místní datová jezera

Místní datová jezera jsou nasazena ve vlastních datových centrech organizace, což poskytuje úplnou kontrolu nad infrastrukturou, bezpečností a datovou suverenitou a plnou odpovědnost za ně. Zatímco někdy používají organizace s velmi specifickými regulačními a bezpečnostními požadavky, místní datová jezera obvykle vyžadují významné kapitálové investice, nepřetržitou údržbu a značné úsilí pro jakékoliv transformační projekty. Často je to kompromis: zvýšení granularity kontroly přichází na úkor škálovatelnosti a nákladové efektivity.

Hybridní datová jezera

Hybridní datová jezera kombinují cloudové a místní úložiště, což organizacím umožňuje uchovávat některá data na místě a zároveň využívat cloudové zdroje pro škálovatelnost a pokročilé analytické nástroje. Tento přístup nabízí flexibilitu, ale přináší složitost při synchronizaci dat, správě a správě konzistentního prostředí.

Vícecloudová datová jezera

Multicloudová datová jezera zahrnují více poskytovatelů cloudu, pomáhají organizacím vyhnout se uzamčení dodavatelů, optimalizují náklady pomocí nejlepších služeb od jednotlivých poskytovatelů a zajišťují kontinuitu provozu prostřednictvím redundance. Architektury s více cloudy však vyžadují pečlivé plánování interoperability dat, konzistentní bezpečnostní politiky a správu nákladů na přenos dat mezi poskytovateli cloudových služeb. Mohou také proměnit zavádění změn nebo inovací v složitější proces.

Datové jezero vs. datový sklad vs. datové jezero

Pochopení rozdílů mezi těmito přístupy k ukládání dat je nezbytné pro výběr správných řešení pro cíle vaší organizace. Porovnáme datová jezera, datové sklady a datová jezera napříč řadou klíčových kritérií:

Funkce
Datové jezero
Datový sklad
Datové jezero
Schéma
Schéma načteno
Schéma při zápisu
Flexibilní s volitelnou strukturou
Datové typy
Strukturované, polostrukturované, nestrukturované
Primárně strukturovaný (příležitostně, polostrukturovaný)
Všechny typy se správou tabulek
Typické náklady na skladování
Nízké náklady na skladování
Vyšší náklady na skladování
Střední náklady
Primární uživatelé
Datoví vědci a inženýři, inženýři ML, analytici
Obchodní analytici, vedoucí pracovníci, datoví vědci
Všechny typy uživatelů
Případy použití
Průzkum, strojové učení, pokročilé analytické nástroje, umělá inteligence, škálovatelné úložiště až do dalšího zpracování
Optimalizováno pro dotazy a specifické algoritmy
Sjednocená analytika a výkaznictví
Výkon
Variabilní, v závislosti na procesoru
Optimalizováno pro dotazy
Vysoký výkon s integrovanou správou
Kvalita dat
Nezpracovaná data různé kvality
Vyčištěná a ověřená data
Vynucená kvalita s určitou flexibilitou

Jak to vypadá v praxi?

Datová jezera vynikají při ekonomickém ukládání velkých objemů surových dat a podporují průzkumné analýzy a strojové učení. Jsou ideální, když potřebujete flexibilitu pro práci s různými datovými typy a nevíte předem, jak budou data použita. Mohou také ukládat data, která jsou pak tažena do datových skladů.

Datové sklady jsou účelové pro business intelligence a reporting se strukturovanými schématy optimalizovanými pro výkon dotazu. Jsou nejvhodnější pro přesně definované potřeby výkaznictví a modelování, kde je kvalita a konzistence dat prvořadá – například pro použití v prediktivní analýze. V praxi mohou být data nashromážděná v datových jezerech dokonce zpracovávána a streamována nebo pravidelně načítána do datových skladů, v závislosti na tom, jak jsou datové kanály konfigurovány.

Datová jezera představují novější architekturu, která kombinuje flexibilitu datových jezer s manažerskými funkcemi a výkonem datových skladů. Umožňují organizacím spouštět průzkumné analýzy i podnikové výkaznictví na stejné platformě, což snižuje duplicitu a složitost dat.

Výhody datových jezer

Výhody datových jezer jsou tím, co je činí tak přesvědčivou volbou pro organizace a základním kamenem moderní datové architektury. Mezi výhody architektury datového jezera patří:

Flexibilita: Datová jezera přijímají jakýkoli datový typ v jakémkoli formátu, čímž eliminují potřebu transformace dat před uložením nebo se potýkají s tím, že některá data chybějí. To znamená, že můžete začít shromažďovat data okamžitě bez nutnosti rozsáhlého počátečního plánování nebo znalosti, jak je budete používat. Přístup schema-on-read umožňuje různým týmům využívat a interpretovat stejná data různými způsoby, což podporuje inovace a objevování.

Škálovatelnost: U datových jezer může úložiště růst z gigabajtů do petabajtů bez nutnosti architektonických změn nebo migrací, zejména s implementacemi na bázi cloudu. Organizace mohou začít malé a rozšiřovat se s tím, jak jejich datové potřeby rostou.

Efektivita nákladů: Jednou z výhod datových jezer pro ukládání je, že obvykle stojí výrazně méně než tradiční datové sklady pro stejný objem úložiště, což ekonomicky umožňuje uchovávat historická data a zkoumat nové zdroje dat bez překročení rozpočtových omezení.

Pokročilá analytická podpora: Datová jezera umožňují datovým vědcům a inženýrům strojového učení přístup k nezpracovaným datům pro vytváření a trénování modelů, dolování dat a další pokročilé úlohy. Na rozdíl od zpracovaných dat ve skladech, příjem nezpracovaných dat uchovává nuance a detaily, které by se mohly ukázat jako kritické pro přesné prognózy a analýzy. Datová jezera také podporují analýzy v reálném čase tím, že přijímají streamovaná data, což organizacím umožňuje jednat na základě čerstvých informací.

Demokratizace dat: Další výhodou architektury datového jezera je, že když jsou všechna organizační data uložena na jednom přístupném místě, více lidí v celé organizaci může objevovat a používat data, rozkládat sila a podporovat rozhodování založené na datech na všech úrovních.

Společné problémy s datovým jezerem

Zatímco datová jezera nabízejí obrovské výhody, představují také výzvy, které organizace potřebují řešit, aby plně využily svůj potenciál. Společné problémy s datovým jezerem zahrnují:

Správa komplexního datového jezera

Správa dat se stává složitější při ukládání velkého množství různorodých dat. Bez správných frameworků řízení se mohou datová jezera přenést do "data swamps" – repozitářů, kde jsou data dumpována bez jakékoliv organizace, což ztěžuje hledání, pochopení nebo důvěru. Stanovení jasné vlastnictví, dokumentace rodokmenu dat a správa metadat jsou nezbytné, ale vyžadují trvalé úsilí a disciplínu.

Obavy týkající se bezpečnosti údajů

Bezpečnost a kontrola přístupu vyžadují pečlivou pozornost. Datová jezera obsahují citlivé informace z celé organizace a zajišťují, aby ke konkrétním datovým sadám měli přístup pouze oprávnění uživatelé při zachování revizních záznamů, vyžadují robustní bezpečnostní zásady a nástroje. Šifrování, autentizace, jemnozrnné řízení přístupu a maskování dat hrají důležité role v zabezpečení prostředí datového jezera a vyhýbání se problémům se správou datového jezera.

Nerovnoměrná kvalita dat

Kvalita dat není v datových jezerech automaticky zajištěna. Protože jsou prvotní data uložena tak, jak jsou, mohou obsahovat chyby, duplikáty nebo nekonzistence. Organizace potřebují procesy k ověření, očištění a obohacení těchto dat, než se použijí pro analýzy. Bez ohledu na kvalitu dat mohou analytické nástroje a modely strojového učení založené na jezerních datech přinést nespolehlivé výsledky.

Problémy se správou datového jezera

Požadavky na složitost a odborné znalosti by neměly být podceňovány. Efektivní správa datového jezera vyžaduje dovednosti v distribuovaných systémech, datovém inženýrství, správě metadat a různých frameworcích zpracování. Organizace mohou potřebovat investovat do školení, najímat specializované talenty nebo spolupracovat s odborným poskytovatelem služeb, aby vybudovaly a udržovaly svou infrastrukturu datového jezera.

Dlouhé časy dotazů

Optimalizace výkonu může být složitá, zejména u interaktivních dotazů na velkých množinách dat. Na rozdíl od skladů s předem optimalizovanými schématy vyžadují datová jezera promyšlenou organizaci dat, strategie segmentace a výběr formátů souborů pro dosažení přijatelného výkonu dotazu. Zjednodušeně řečeno, datová jezera mohou obsahovat nepochopitelně obrovské objemy dat, takže najít to, co potřebujete, může trvat dlouho.

Příklady datových jezer a praktické případy použití

Příklady využití datového jezera v reálném světě ukazují, jak organizace využívají datová jezera k řešení obchodních výzev a získání konkurenčních výhod. Rozčleňme ho na základě analýzy několika běžných případů použití datového jezera.

Případ použití datového jezera: analýza IoT pro prediktivní údržbu

Výrobní společnost shromažďuje data snímačů z tisíců strojů ve více závodech a denně generuje terabajty dat časových řad. Když tato data streamují do datového jezera, kombinují je se záznamy údržby, plány výroby a informacemi o dodavatelích. Modely strojového učení analyzují historické vzory, aby předpovídaly poruchy vybavení předtím, než k nim dojde, čímž se zkrátí prostoje a ušetří se miliony nákladů na opravu. Schopnost datového jezera zpracovat data proudící vysokou rychlostí z více zdrojů umožňuje tento případ použití.

Případ použití datových jezer: Zákazník 360 pro personalizovaný marketing

Maloobchodní organizace konsoliduje data zákazníků z chování při procházení online, historie nákupů, interakcí s mobilními aplikacemi, volání a chatů služeb zákazníkům, zapojení na sociálních médiích a návštěv na prodejnách do datového jezera. Analýzou tohoto komplexního pohledu na každého zákazníka mohou vytvořit detailní segmenty a personalizovat marketingové kampaně, doporučení produktů a zákaznické zkušenosti. To by mohlo zvýšit efektivitu kampaní a výrazně zvýšit spokojenost zákazníků. V tomto příkladu datového jezera umožňuje flexibilita a kapacita pro ukládání strukturovaných transakčních dat i nestrukturovaných protokolů interakcí toto holistické zobrazení zákazníka.

Případ použití datového jezera: modelování rizika finančních služeb

Finanční instituce používá datové jezero k agregaci obchodních dat, kanálů trhu, zpravodajských článků, smýšlení na sociálních médiích a regulatorních podání. Datoví vědci vytvářejí sofistikované modely rizik, které zohledňují jak tradiční finanční metriky, tak další zdroje dat. Přístup jezera podle schématu podle čtení jim umožňuje prozkoumat různé zdroje dat a techniky modelování bez narušení stávajících systémů, což jim pomáhá dosáhnout přesnějšího posouzení rizik.

Osvědčené postupy datového jezera

Implementace následujících osvědčených postupů pro datová jezera může organizacím pomoci maximalizovat hodnotu jejich datových jezer a zároveň se vyhnout běžným úskalím:

  1. Upřednostnit správu metadat od prvního dne. Vytvořte komplexní katalog dat, který dokumentuje, jaká data existují, odkud pocházejí, co znamenají a jak souvisí s jinými datovými sadami. Dobrá metadata mění datové jezero spíše na prohledávatelný, srozumitelný zdroj než na ohromující výpis dat – je to nezbytná součást správy datového jezera.
  2. Zajistěte správu datového jezera. Implementujte silné rámce správy dat, které definují vlastnictví dat, stanoví standardy kvality a vytvářejí jasné procesy pro příjem dat, klasifikaci a správu životního cyklu. Správa by neměla být následná myšlenka – zabudujte ji od začátku do architektury datového jezera, abyste si udrželi důvěru v vaše data a zajistili soulad s regulačními požadavky.
  3. Chraňte svá data. Návrh pro zabezpečení a shodu pomocí implementace šifrování v klidu a na cestě, jemnozrnných řízení přístupu, protokolování auditu a maskování dat, pokud je to nutné. Pravidelně revidujte vzory a oprávnění přístupu, abyste zajistili soulad se zásadou nejnižších privilegií.
  4. Optimalizace výkonu. Úložiště lze optimálně uspořádat logickým rozdělením dat (podle data, regionu nebo jiných relevantních dimenzí), výběrem efektivních formátů souborů pro pracovní zatížení analytiky a implementací zásad životního cyklu pro archivaci nebo odstranění zastaralých dat. Tyto volby mají významný dopad jak na náklady, tak na výkonnost dotazů.
  5. Podpořte kulturu založenou na datech. Zpřístupnění a zpřístupnění dat při poskytování školení a nástrojů, které umožňují samoobslužné analýzy. Pokud váš tým nemá správné odborné znalosti, zvažte najmutí dalších talentů, které mohou překlenout propast mezi zainteresovanými stranami a technologií a zajistit optimální správu datového jezera. Technická infrastruktura je cenná pouze tehdy, pokud ji lidé skutečně využijí k lepšímu rozhodování.

Budoucnost datových jezer

Vývoj datových jezer pokračuje, protože organizace požadují jak flexibilitu, tak správu, což vede ke vzniku architektur datových jezer, které kombinují nejlepší aspekty jezer a skladů. Tato konvergence odráží rostoucí porozumění, že organizace potřebují jednotné platformy, které podporují různé přístupy, spíše než udržování oddělených systémů pro různé účely.

Umělá inteligence a strojové učení jsou stále centrálnější pro strategie datového jezera. Moderní datová jezera nejsou jen úložišti úložišť – jsou to centrální platformy, kde modely umělé inteligence trénují na historických datech, vytvářejí předpovědi pomocí streamovaných dat a průběžně se zlepšují prostřednictvím smyček zpětné vazby. Integrace s platformami umělé inteligence a automatizovanými funkcemi strojového učení se stává spíše standardem než výjimkou.

Vzhledem k tomu, že organizace uznávají hodnotu působení na čerstvá data, získává analytika v reálném čase a streamování i nadále na významu. Výsledkem je, že se datová jezera vyvíjejí tak, aby podporovala zpracování a dotazování podsekundových dat, čímž se stírá hranice mezi historickou analýzou a operacemi v reálném čase.

A konečně, vzhledem k tomu, že předpisy o ochraně osobních údajů se rozšiřují a mění po celém světě, musí se datová jezera vyvíjet tak, aby podporovala soukromí a ochranu dat podle návrhu, s funkcemi, jako je automatická klasifikace dat, správa souhlasů a zjednodušené vykazování souladu, které jsou integrovány do platformy, místo aby byly přidány později.

Budoucnost datových jezer spočívá v flexibilitě, přístupnosti a automatizaci: funkcích, které organizacím usnadňují správu rostoucích objemů dat při zachování zabezpečení, kvality a správy. Datová jezera by měla být vnímána jako strategické aktivum, které vyžaduje průběžné investice a pozornost.

Časté otázky

Proč se nazývá "data lake"?
Pojem "data lake" používá přirozenou metaforu – stejně jako mnoho toků proudí do jednoho jezera, data z více zdrojů proudí do centralizovaného úložiště. Stejně jako přírodní jezero, které ukládá vodu v původním stavu, spíše než filtrované a čištěné, datové jezero ukládá data v jeho nativním formátu, aniž by vyžadovalo transformaci nebo strukturu. Metafora zdůrazňuje schopnost jezera uchovávat velké objemy různorodých dat v jeho „přirozeném“ stavu a být čerpána pro různé účely, stejně jako voda z jezera slouží mnoha účelům. Pro srovnání, sklad by měl vodu, která byla filtrována, balena a označována, případně i organizována podle velikosti láhve nebo pH rovnováhy.
Co je datový sklad a jak se liší od datového jezera?
Datový sklad je strukturované úložiště, zatímco datové jezero je přístup k ukládání, který umožňuje příjem a ukládání všech typů dat, ať už strukturovaných nebo nestrukturovaných. Klíčový rozdíl mezi datovými jezery a datovými sklady je v jejich přístupu: datové sklady používají schéma při zápisu (data musí být strukturována před uložením), zatímco datová jezera používají schéma on-read (struktura se použije při přístupu k datům). Sklady jsou optimalizovány pro známé potřeby výkaznictví a dotazy, zatímco jezera podporují průzkumnou analýzu a strojové učení nezpracovaných dat. Představte si sklady jako specializované na rychlé zodpovězení konkrétních obchodních otázek, zatímco jezera jsou postavena pro flexibilitu, kapacitu a objevování nových otázek, které je třeba položit.
Co je to správa dat v datovém jezeře?
Správa dat v datovém jezeře zahrnuje několik kritických činností. Katalogizace a správa metadat zajistí, že uživatelé budou moci najít dostupné datové soubory a porozumět jim. Správa stanoví politiky pro vlastnictví dat, standardy kvality a kontroly přístupu. Správa přístupu a sledování rodokmenu ukazují, kdo přistupoval k jakým datům a jak byla transformována nebo použita. Zásady životního cyklu a uchování dat určují, jak dlouho jsou data uchovávána a kdy mají být archivována nebo odstraněna. Efektivní správa datového jezera zabraňuje tomu, aby se datová jezera stala neorganizovanými "data swamps" a snižuje problémy se správou datového jezera.
Co je datové jezero?
Datové jezero je moderní architektura, která kombinuje flexibilitu a nákladovou efektivnost datových jezer se strukturou a výkonem datových skladů. Lakehouses umožňují organizacím ukládat nezpracovaná data v jejich nativním formátu (jako je jezero) a zároveň podporují tabulkové struktury, vynucování schémat a optimalizovaný výkon dotazů (jako je sklad). Tento jednotný přístup eliminuje potřebu duplikovat data mezi oddělenými jezerními a skladovými systémy, zjednodušuje architekturu a snižuje náklady a zároveň podporuje průzkumné analýzy a podnikové výkaznictví na stejné platformě.
Co je multi-cloud pro datová jezera?
Multicloudové datové jezero zahrnuje dva nebo více poskytovatelů cloudu. Organizace přijímají strategie pro více cloudů, aby zabránily uzamčení dodavatelů, optimalizovaly náklady využitím nejlepších služeb od každého poskytovatele, zajistily kontinuitu provozu prostřednictvím redundance a splnily požadavky na rezidenční data v různých regionech. Architektury s více cloudy však představují problémy související s interoperabilitou dat, udržováním konzistentních bezpečnostních politik a správou nákladů na přenos dat mezi cloudy.
Co je úložiště objektů v datovém jezeře?
Úložiště objektů je základní vrstva úložiště, která uchovává data v datovém jezeře. Na rozdíl od souborových systémů, které organizují data v hierarchických složkách, úložiště objektů ukládá data jako jednotlivé objekty, každý s jedinečnými identifikátory, metadaty a daty samotnými. Objektové úložiště je vysoce škálovatelné a cenově výhodné, takže je ideální pro ukládání velkých objemů dat v nativních formátech.