Datové jezero vs. datový sklad
Datová jezera ukládají nezpracovaná data v jejich nativním formátu, bez ohledu na to, jak dorazí. Datové sklady ukládají data, která byla vyčištěna a strukturována předdefinovaným způsobem.
default
{}
default
{}
primary
default
{}
secondary
Úvod do datových jezer a datových skladů
Datová jezera a datové sklady jsou systémy, které ukládají, spravují a načítají velké objemy digitálních dat. Podniky shromažďují data, která jim pomohou získat přehled o svých provozech, zákaznících, trzích a dodavatelských řetězcích, aby mohly strategičtěji reagovat.
Datové sklady se objevily jako řešení pro rozčlenění datových silek a řešení problémů s podnikovými daty rozptýlenými v různých systémech, formátech a odděleních.
Nekonzistence ztěžovala uživatelům přístup k těmto datům, jejich integraci a analýzu za účelem zjištění vzorců, prognózování poptávky nebo vyhodnocení výkonnosti podniku. Datové sklady byly vyvinuty pro konsolidaci těchto dat do centralizovaného úložiště, kde lze data integrovat, vyčistit a strukturovat pro analýzu. Tento přístup stanovil „jediný zdroj pravdy“ na podporu dodržování předpisů, monitorování výkonu a procesů business intelligence.
Datová jezera se zase objevila jako řešení omezení datových skladů, které nedokázaly adekvátně zvládnout výbuch nestrukturovaných a polostrukturovaných dat generovaných z nových zdrojů, jako jsou sociální média, zařízení IoT, senzory, mobilní aplikace a další. Ukládání a zpracování obrovského množství různorodých dat, jako jsou obrázky, video a text, se ukázalo jako příliš drahé a neefektivní, protože tradiční datové sklady původně vyžadovaly vyčištění a zpracování dat předem a před uložením.
Podniky potřebovaly flexibilnější a levnější způsob, jak ukládat data v jejich původním formátu a jako řešení byla vytvořena datová jezera.
Dnes mnoho moderních podniků zaujímá hybridní přístup zahrnující jak datové sklady, tak datová jezera: datové jezero. Tato architektura poskytuje jak rychlé, strukturované možnosti reportingu, tak potenciál pro umělou inteligenci a aplikace strojového učení.
Datová jezera vs. datové sklady: klíčové rozdíly
Klíčový rozdíl mezi datovými jezery a datovými sklady je v typu dat, která uchovávají, a v tom, jak tato data uchovávají, přičemž obě tato data hrají klíčovou roli v datové strategiiorganizace.
Datové sklady ukládají strukturovaná data, která byla vyčištěna a zpracována podle předdefinované struktury nebo schématu. Protože se schéma používá před uložením dat, je přístup známý jako schéma při zápisu.
Například schéma může stanovit, že ID zákazníka musí být celé číslo, data data objednávky musí být ve formátu RRRR-MM-DD a že data celkové částky prodeje musí být v desetinném formátu. Protože všechna data tato pravidla dodržují, mohou se uživatelé rychle a spolehlivě ptát na dotazy typu „najít celkový prodej na zákazníka v dubnu 2025“. Díky této rychlosti a přesnosti jsou datové sklady ideální pro výkaznictví, řídicí panely a případy použití business intelligence.
Naproti tomu datová jezera mohou ukládat surová data v jejich původním formátu bez ohledu na jejich strukturu. Žádné předdefinované schéma není vyžadováno předem.
Schéma je definováno pouze při dotazu na data, takže přístup je známý jako schéma on-read. Teprve potom jsou prvotní data analyzována, strukturována a interpretována podle dotazu.
Pro shrnutí, datové sklady používají schéma před uložením dat, aby se zajistilo, že jsou všechna data strukturována a vyčištěna pro použití. Datová jezera používají schéma, když jsou data dotazována a mohou ukládat jakákoli data, strukturovaná nebo ne, od začátku.
Rozdíly mezi datovými jezery a datovými sklady
Výběr mezi datovými jezery a datovými sklady
Vzhledem k tomu, že datová jezera mohou ukládat nezpracovaná data v jakémkoli formátu, jsou ideální pro podniky, které potřebují flexibilitu. Maloobchodníci například shromažďují masivní částky z více zdrojů, jako jsou webové stránky, mobilní aplikace, sociální média, systémy prodejního místa a další. Vzhledem k tomu, že data, která shromažďují, nemusí být vyčištěna, transformována ani strukturována, mohou používat nákladově efektivnější úložné systémy, které se snadno škálují. Náklady na zpracování nezpracovaných dat v době dotazu však mohou být vyšší ve srovnání s optimalizovanými dotazy datového skladu.
V porovnání s datovými sklady budou náklady vyšší. Čištění, transformace a strukturování procesů před nakládkou - stejně jako indexování a dělení po zavedení - vyžadují další zdroje a úložiště pro práci. Výsledkem této optimalizace jsou však data připravená k použití pro business intelligence, reporting a provozní analýzy. S datovými sklady mohou analytici a vedoucí pracovníci rychle a snadno generovat výkazy, monitorovat KPI a činit informovaná rozhodnutí.
Je třeba poznamenat, že datová jezera odemykají nové příležitosti pro umělou inteligenci a aplikace strojového učení. Rozsáhlé a různorodé datové sady, které ukládají, umožňují datovým vědcům hledat trendy, vytvářet prediktivní modely a spouštět aplikace strojového učení. Výsledkem jsou například systémy doporučení, které navrhují produkty uživatelům na základě minulých interakcí nebo nástrojů pro zpracování přirozeného jazyka, které provádějí analýzu sentimentu na základě recenzí zákazníků nebo komentářů na sociálních médiích.
Dnes mnoho moderních podniků provozuje datové architektury, které jsou v podstatě kombinací obou. Cílem těchto datových jezer je nabídnout flexibilitu datového jezera se správou a výkonem datového skladu. Zatímco adopce rychle roste, mnoho podniků stále spoléhá na tradiční sklady pro kritické výkaznictví.
Příklady a případy použití v reálném světě
Zde jsou příklady, jak různá odvětví používají datová jezera, datové sklady nebo kombinaci prvků z obou k podpoře svých jedinečných potřeb.
Zdravotnictví: Nemocnice často používají architekturu datového jezera k ukládání, správě a analýze obrovského množství a různých typů dat, které jejich operace generují. To zahrnuje nestrukturovaná nositelná data a lékařské snímky, polostrukturovaná data pacientů HL7 a strukturované laboratorní výsledky testů. Konsolidací všech v centrálním úložišti mohou aplikovat pokročilé analýzy a umělou inteligenci na surová data, například k identifikaci rizikových pacientů nebo analýze genomiky za účelem personalizace léčebných plánů. S pacienty, kteří jsou nyní vybaveni „chytrými“ nositelnými zařízeními, která poskytují údaje o životních funkcích, mohou poskytovatelé zdravotní péče dokonce detekovat včasné varovné signály a rychleji zasahovat.
Finance: Banky a jiné finanční instituce musí dodržovat pravidla proti praní špinavých peněz (AML) a přísné předpisy o finančním výkaznictví (například Sarbanes-Oxley v USA nebo Basilej III na mezinárodní úrovni). Pomocí datových skladů k ukládání strukturovaných finančních dat z více systémů, včetně transakčních záznamů, zůstatků na účtech a obchodních dat, mohou generovat regulační výkazy, které splňují požadavky na řízení a zabezpečení. Kromě dodržování předpisů používají finanční instituce také datové sklady k podpoře své business intelligence, řízení rizik a odhalování podvodů spuštěním složitých dotazů napříč historickými a aktuálními datovými sadami.
Média: Služby streamování videa používají přístup k datovému jezeru ke shromažďování, ukládání a analýze uživatelských dat za účelem poskytování personalizovaných zkušeností. Přijímají různé typy dat z více zdrojů, jako jsou protokoly streamování a zpětná vazba na sociálních médiích, a ukládají je do centrálního úložiště. Tato data pak lze použít k vytvoření modelů strojového učení, které doporučují nejrelevantnější obsah. Stejná data mohou být také řízena a strukturována do podmnožin pro potřeby analýz nebo reportingu, podpora řídicích panelů o sazbách za uchování nebo informování o akvizicích obsahu.
Vznikající trendy v datových platformách
Datová jezera se rychle stávají preferovanou možností pro podniky, které chtějí maximalizovat hodnotu svých dat. Mohou podporovat jak business intelligence, tak umělou inteligenci a případy použití strojového učení na jediné platformě. Je však třeba poznamenat, že se stále vyvíjejí a že některé podniky i nadále spoléhají na tradiční datové sklady pro kriticky důležité výkaznictví.
Potenciál umělé inteligence jako hnací síly produktivity a efektivity ovlivnil zejména datové architektury, přičemž některé vznikající datové jezero a platformy datových jezer jsou nyní integrovány s LLM. To umožňuje netechnickým uživatelům zkoumat a analyzovat data dotazem na dotazy v jednoduchém jazyce. Uživatel se například může zeptat „ukázat mi prodejní trendy ve 2. čtvrtletí“ a LLM může generovat SQL, kterému systém rozumí. Tím se demokratizuje přístup k analýzám založeným na datech.
Jako strategie vznikají také bezserverové architektury, kde podniky najímají poskytovatele cloudu, aby spravovali svou datovou infrastrukturu. V tomto uspořádání společnost platí za přístup k datové platformě místo toho, aby nastavovala a spravovala vlastní. Výhody jsou snadnější škálovatelnost a nákladová efektivita. Poskytovatel cloudu poskytuje flexibilitu v šířce pásma v případě nárůstu objemu dat nebo načítání dotazů a podnik platí pouze za to, co používá. Tímto způsobem mohou vývojáři nasadit rychleji, protože se nemusí potýkat s úvahami o infrastruktuře.
Některé podniky se dokonce rozhodnou pro strategii více cloudů a distribuují svá datová jezera a sklady do několika cloudových služeb. Hlavním přínosem je odolnost v redundanci. Pokud jeden cloud přejde do režimu offline, může podnik pokračovat v provozu na jiném. Mohou také optimalizovat konkrétní workflow v určitých cloudech, například když se jedna služba specializuje na strojové učení. V některých odvětvích nebo státech musí být citlivá data uložena v regionu nebo poskytovateli cloudu, který splňuje lokální požadavky na shodu.
Pro připojení, správu a správu dat ve více cloudových prostředích mohou podniky implementovat architektury datových struktur. Poskytují přístup v reálném čase k datům napříč samostatnými, ale synchronizovanými systémy a aplikacemi a vytvářejí jednotný pohled napříč prostředím.
Pro ochranu citlivých údajů, jako jsou lékařské záznamy, čísla sociálního zabezpečení a zdrojové kódy, organizace také přijímají zásady, jako je kontrola přístupu s nulovou důvěryhodností ve svých datových platformách. Tyto kontroly vyžadují, aby všichni uživatelé ověřili svou identitu, aby měli přístup k datům, která potřebují.
Časté otázky
Datová jezera jsou užitečná pro datové vědce, kteří chtějí trénovat modely strojového učení, které podporují systémy doporučení obsahu.
Datový sklad je úložný systém primárně určený k uchování velkých objemů strukturovaných dat. Strukturovaná data jsou vyčištěna, organizována a formátována určitým způsobem. (Zamyslete se nad definovanými řádky a sloupci kalkulační tabulky). Modernější sklady zvládnou i určité polostrukturované formáty jako JSON nebo XML.
Firmy používají datové sklady k rychlému zodpovězení otázek, generování výkazů a sledování klíčových metrik výkonu. Tyto funkce jsou kategorizovány jako business intelligence.
Schémata jsou pravidla, jak jsou data organizována, například jaký druh dat lze uložit (čísla, data), jak jsou data uspořádána (tabulky a sloupce) a jak se informace k sobě vztahují.
Schéma při zápisu znamená, že se data musí před uložením vejít do předdefinované struktury (schématu). Takto fungují datové sklady. Zajišťují, že data jsou čistá a připravená na analýzu předem.
Schéma při čtení znamená, že struktura se použije pouze v případě, že někdo chce použít nebo analyzovat data. Takto fungují datová jezera. Umožňují větší flexibilitu, protože data mohou být nejprve uložena v jakékoli formě a nemusíte je okamžitě organizovat. Kompromisy tohoto přístupu však zahrnují pomalejší časy dotazů a potenciální nekonzistenci, protože různí uživatelé mohou interpretovat stejná nezpracovaná data jinak.
Naproti tomu schéma on-writing vynucuje konzistenci předem, ale snižuje flexibilitu.
Strukturovaná data jsou vysoce organizovaná, snadno se vyhledávají a mohou být obvykle uložena v tabulkách, jako jsou jména zákazníků, prodejní čísla a data.
Nestrukturovaná data nemají žádný pevný formát a je těžší je organizovat, jako jsou videa, obrázky, zvukové soubory a příspěvky na sociálních médiích.
Polostrukturovaná data jsou někde mezi. Má nějakou organizaci, ale ne tak přísnou jako tabulky. Přemýšlejte o souborech JSON, dokumentech XML a e-mailech.