media-blend
text-black

Obchodní ľudia študujúci grafy na interaktívnej obrazovke na obchodnom stretnutí

Dátové jazero verzus dátový sklad

Dátové jazerá uchovávajú nespracované údaje vo svojom natívnom formáte bez ohľadu na to, ako prichádzajú. Sklady údajov ukladajú údaje, ktoré boli vyčistené a štruktúrované preddefinovaným spôsobom.

default

{}

default

{}

primary

default

{}

secondary

Úvod do dátových jazier a dátových skladov

Dátové jazerá a dátové sklady sú systémy, ktoré ukladajú, spravujú a získavajú veľké objemy digitálnych dát. Podniky zhromažďujú údaje, ktoré im pomôžu získať prehľad o ich operáciách, zákazníkoch, trhoch a dodávateľských reťazcoch, aby mohli strategickejšie reagovať.

Dátové sklady sa objavili ako riešenie na rozčlenenie dátových zásobníkov a riešenie výzvy obchodných údajov rozptýlených vo viacerých systémoch, formátoch a oddeleniach.

Nekonzistencia sťažila používateľom prístup, integráciu a analýzu týchto údajov na zistenie vzorov, prognózovanie dopytu alebo hodnotenie výkonnosti podniku. Boli vyvinuté dátové sklady na konsolidáciu týchto dát do centralizovaného úložiska, kde by sa dáta mohli integrovať, vyčistiť a štruktúrovať na analýzu. Týmto prístupom sa vytvoril „jediný zdroj pravdy“ na podporu procesov súladu, monitorovania výkonu a business intelligence.

Údajové jazerá sa zase objavili ako riešenie obmedzení dátových skladov, ktoré nedokázali primerane zvládnuť explóziu neštruktúrovaných a pološtruktúrovaných údajov generovaných z nových zdrojov, ako sú sociálne médiá, zariadenia IoT, senzory, mobilné aplikácie a ďalšie. Ukladanie a spracovanie obrovského množstva rôznorodých údajov, ako sú obrázky, video a text, sa ukázalo ako príliš drahé a neefektívne, pretože tradičné dátové sklady spočiatku vyžadovali, aby boli údaje vyčistené a spracované vopred a pred uložením.

Podniky potrebovali flexibilnejší, lacnejší spôsob, ako ukladať dáta v nespracovanom, pôvodnom formáte a dátové jazerá boli vytvorené ako riešenie.

V súčasnosti mnohé moderné podniky uplatňujú hybridný prístup zahŕňajúci tak dátové sklady, ako aj dátové jazerá: údajové lakehouse. Táto architektúra poskytuje rýchle, štruktúrované možnosti vykazovania a potenciál pre aplikácie umelej inteligencie a strojového učenia druhej aplikácie.

Dátové jazerá vs. dátové sklady: Kľúčové rozdiely

Kľúčový rozdiel medzi dátovými jazerami a dátovými skladmi je v type údajov, ktoré uchovávajú, a ako tieto údaje uchovávajú, pričom obe zohrávajú kľúčovú úlohu v stratégii organizácie v oblasti údajov.

Sklady údajov ukladajú štruktúrované údaje, ktoré boli vyčistené a spracované podľa preddefinovanej štruktúry alebo schémy. Pretože sa schéma použije pred uložením údajov, prístup je známy ako schéma pri zápise.

Schéma môže napríklad povoliť, aby údaje ID zákazníkov boli celé číslo, dáta dátumu zákazky musia byť vo formáte RRRR-MM-DD a že dáta celkovej čiastky predaja musia byť v desatinnom formáte. Keďže všetky údaje sú v súlade s týmito pravidlami, používatelia sa môžu rýchlo a spoľahlivo pýtať na otázky ako „nájsť celkový predaj na zákazníka v apríli 2025“. Vďaka tejto rýchlosti a presnosti sú dátové sklady ideálne na vykazovanie, dashboardy a prípady použitia business intelligence.

Na rozdiel od toho môžu dátové jazerá ukladať nespracované údaje vo svojom pôvodnom formáte bez ohľadu na to, ako sú štruktúrované. Vopred sa nevyžaduje žiadna preddefinovaná schéma.

Schéma je definovaná iba vtedy, keď sú údaje dotazované, takže prístup je známy ako schéma pri načítaní. Len potom sa nespracované údaje syntakticky analyzujú, štruktúrovajú a interpretujú podľa dotazu.

Na zhrnutie používajú dátové sklady schému pred uložením údajov, aby sa zabezpečilo, že všetky údaje sú štruktúrované a vyčistené na použitie. Údajové jazerá používajú schému, keď sú údaje dotazované a od začiatku môžu ukladať akékoľvek údaje, štruktúrované alebo nie.

Rozdiely medzi dátovými jazerami a dátovými skladmi

Údajové jazerá
Údajové sklady
Dátový typ
Ukladá štruktúrované, pološtruktúrované a neštruktúrované údaje (napr. protokoly, videá, text).
Ukladá len štruktúrované údaje (napr. predajné transakcie, finančné údaje).
Schéma
Schéma pri čítaní: Schéma sa použije pri dotaze na údaje.
Schéma pri zápise: Schéma sa použije pred uložením údajov.
Používatelia
Vedci, inžinieri a analytici skúmajú vzory, modely školení alebo spúšťajú pracovné postupy strojového učenia.
Obchodní analytici, vedúci pracovníci a operačné tímy generujú výkazy a KPI.
Účel
Flexibilné úložisko pre veľké objemy nespracovaných dát používaných na prieskum dát, umelú inteligenciu a strojové učenie.
Centralizované úložisko pre štruktúrované a spracované dáta používané pre výkazníctvo, dashboardy a business intelligence.
Náklady
Sklad nositeľa nižších nákladov
Vyššie náklady na skladovanie a spracovanie vďaka predbežnému spracovaniu a optimalizácii.

Výber medzi dátovými jazerami a dátovými skladmi

Keďže dátové jazerá môžu ukladať nespracované údaje v ľubovoľnom formáte, sú ideálne pre podniky, ktoré potrebujú flexibilitu. Maloobchodníci napríklad zbierajú obrovské sumy z viacerých zdrojov, ako sú webové stránky, mobilné aplikácie, sociálne médiá, systémy miest predaja a iné. Keďže údaje, ktoré zhromažďujú, nie je potrebné čistiť, transformovať ani štruktúrovať, môžu používať nákladovo efektívnejšie systémy ukladania, ktoré sa ľahko rozširujú. Náklady na spracovanie nespracovaných údajov v čase dotazu však môžu byť vyššie v porovnaní s optimalizovanými dotazmi dátového skladu.

V porovnaní s tým budú náklady vyššie s dátovými skladmi. Procesy čistenia, transformácie a štruktúrovania pred načítaním – ako aj indexovanie a rozdelenie po naložení – si vyžadujú dodatočné zdroje a úložisko na prácu. Výsledkom tejto optimalizácie sú však dáta pripravené na použitie pre business intelligence, reporting a operačnú analýzu. Pomocou dátových skladov môžu analytici a vedúci pracovníci generovať výkazy, monitorovať KPI a rýchlo a jednoducho prijímať informované rozhodnutia.

Je potrebné poznamenať, že dátové jazerá odomykajú nové príležitosti pre aplikácie umelej inteligencie a strojového učenia. Rozsiahle a rozmanité množiny údajov, ktoré ukladajú, umožňujú vedcom údajov nájsť trendy, vytvárať prediktívne modely a spúšťať aplikácie strojového učenia. Výsledkom sú napríklad systémy odporúčaní, ktoré používateľom navrhujú produkty na základe minulých interakcií alebo nástrojov na spracovanie prirodzeného jazyka, ktoré vykonávajú analýzu sentimentu na recenziách zákazníkov alebo komentároch v sociálnych médiách.

Dnes mnohé moderné podniky prevádzkujú dátové architektúry, ktoré sú v podstate kombináciou oboch. Cieľom týchto dátových kampaní je ponúknuť flexibilitu dátového jazera s riadením a výkonom dátového skladu. Zatiaľ čo adopcia rýchlo rastie, mnohé podniky sa pri kritickom vykazovaní stále spoliehajú na tradičné sklady.

Príklady a prípady použitia v reálnom svete

Tu sú príklady toho, ako rôzne odvetvia používajú dátové jazerá, dátové sklady alebo kombináciu prvkov z oboch na podporu ich jedinečných potrieb.

Zdravotníctvo: Nemocnice často používajú architektúru dátového jazera na ukladanie, správu a analýzu obrovských množstiev a rôznych typov údajov, ktoré ich operácie generujú. Patria sem neštruktúrované nositeľné údaje a lekárske snímky, pološtruktúrované údaje o pacientoch HL7 a výsledky štruktúrovaných laboratórnych testov. Konsolidáciou všetkého v centrálnom úložisku môžu na prvotné dáta použiť rozšírenú analýzu a umelú inteligenciu, aby napríklad identifikovali rizikových pacientov alebo analyzovali genomiku na prispôsobenie liečebných plánov. S pacientmi, ktorí sú teraz vybavení „inteligentnými“ nositeľnými zariadeniami, ktoré prenášajú údaje o vitálnych znakoch, môžu poskytovatelia zdravotnej starostlivosti dokonca odhaliť včasné varovné signály a rýchlejšie zasiahnuť.

Financie: Banky a iné finančné inštitúcie musia dodržiavať pravidlá boja proti praniu špinavých peňazí (AML) a prísne predpisy v oblasti finančného výkazníctva (ako napríklad Sarbanes-Oxley v USA alebo Bazilej III na medzinárodnej úrovni). Pomocou dátových skladov na ukladanie štruktúrovaných finančných údajov z viacerých systémov vrátane záznamov transakcií, zostatkov na účtoch a údajov o obchodovaní môžu generovať zákonné výkazy, ktoré spĺňajú požiadavky na riadenie a zabezpečenie. Okrem dodržiavania súladu finančné inštitúcie používajú dátové sklady aj na posilnenie svojej obchodnej inteligencie, riadenie rizík a odhaľovanie podvodov spustením zložitých dotazov naprieč historickými a aktuálnymi množinami údajov.

Médiá: Videostreamingové služby používajú prístup dátového lakehouse na zhromažďovanie, ukladanie a analýzu používateľských údajov na poskytovanie personalizovaného prostredia. Prijímajú rôzne typy údajov z viacerých zdrojov, ako sú streamovanie protokolov a spätná väzba sociálnych médií, a ukladajú ich do centrálneho úložiska. Tieto údaje sa potom môžu použiť na vytvorenie modelov strojového učenia, ktoré odporúčajú najrelevantnejší obsah. Rovnaké údaje môžu byť tiež spracované a štruktúrované do podmnožín pre potreby analýzy alebo vykazovania, vytváranie panelov dashboardov o mierach uchovania alebo informovanie o rozhodnutiach o akvizíciách obsahu.

Vznikajúce trendy v dátových platformách

Data lakehouses sa rýchlo stávajú preferovanou možnosťou pre podniky, ktoré chcú maximalizovať hodnotu svojich dát. Môžu podporovať prípady použitia business intelligence a umelej inteligencie a strojového učenia na jednej platforme. Treba však poznamenať, že sa stále vyvíjajú a že niektoré podniky sa pri vykazovaní kritických úloh naďalej spoliehajú na tradičné dátové sklady.

Potenciál umelej inteligencie ako hnacej sily produktivity a efektivity ovplyvnil najmä dátovú architektúru, pričom niektoré vznikajúce platformy Data Lake a data lakehouse sú teraz integrované s LLM. To umožňuje netechnickým používateľom skúmať a analyzovať údaje vyžiadaním dotazov v jednoduchom jazyku. Používateľ sa môže napríklad opýtať „zobraziť trendy predaja v 2. štvrťroku“ a LLM môže vygenerovať SQL, ktorému systém dokáže porozumieť. Tým sa demokratizuje prístup k prehľadom založeným na údajoch.

Ako stratégia sa objavujú aj architektúry bez servera, kde si podniky najímajú poskytovateľa cloudu na správu svojej dátovej infraštruktúry. V tomto dojednaní spoločnosť platí za prístup k dátovej platforme namiesto toho, aby si založila a spravovala vlastnú. Výhody tejto skutočnosti sú jednoduchšia škálovateľnosť a nákladová efektívnosť. Poskytovateľ cloudu poskytuje flexibilitu v šírke pásma v prípade špičiek objemu údajov alebo načítania dotazov a podnik platí len za to, čo používa. Takto môžu vývojári nasadiť rýchlejšie, keďže nemusia zápasiť s infraštruktúrnymi úvahami.

Niektoré podniky sa dokonca rozhodnú pre multicloudovú stratégiu, ktorá distribuuje svoje dátové jazerá a sklady do niekoľkých cloudových služieb. Hlavným prínosom je odolnosť pri prepúšťaní. Ak jeden cloud prejde offline, podnik môže pokračovať v chode na inom. Môžu tiež optimalizovať konkrétne workflow na určitých cloudoch, napríklad ak sa jedna služba špecializuje na strojové učenie. V niektorých odvetviach alebo štátoch musia byť citlivé údaje uložené v regióne alebo poskytovateľovi cloudu, ktorý spĺňa lokálne požiadavky súladu.

Na pripojenie, správu a riadenie údajov vo viacerých cloudových prostrediach môžu podniky implementovať architektúry dátovej štruktúry. Poskytujú prístup k dátam v reálnom čase naprieč samostatnými, ale synchronizovanými systémami a aplikáciami, čím vytvárajú jednotný pohľad na celú infraštruktúru.

Na ochranu citlivých údajov, ako sú zdravotné záznamy, čísla sociálneho poistenia a zdrojové kódy, organizácie tiež prijímajú politiky, ako sú kontroly prístupu s nulovou dôverou na svojich dátových platformách. Tieto kontroly vyžadujú, aby si všetci používatelia overili svoju identitu na prístup k údajom, ktoré potrebujú.

Často kladené otázky

Čo je dátové jazero?
Data Lake je ukladací systém navrhnutý tak, aby uchovával veľké objemy nespracovaných údajov vo svojom pôvodnom formáte, ako sú čísla, text, obrázky, videá alebo protokoly. Myslite na ňu ako na obrovský „digitálny zásobník“, kde môžu prúdiť všetky druhy informácií bez toho, aby boli okamžite organizované.

Údajové jazerá sú užitočné pre dátových vedcov, ktorí chcú trénovať modely strojového učenia, ktoré napájajú systémy odporúčaní obsahu.
Čo je data warehouse?

Dátový sklad je úložný systém primárne navrhnutý tak, aby uchovával veľké objemy štruktúrovaných dát. Štruktúrované údaje sa čistia, organizujú a formátujú určitým spôsobom. (Zamyslite sa nad definovanými riadkami a stĺpcami tabuľky). Modernejšie sklady dokážu spracovať aj určité pološtruktúrované formáty ako JSON alebo XML.

Podniky používajú dátové sklady na rýchle odpovedanie na otázky, generovanie výkazov a sledovanie kľúčových metrík výkonu. Tieto funkcie sú kategorizované ako business intelligence.

Čo je to data lakehouse?
Data lakehouse je moderná dátová platforma, ktorá kombinuje to najlepšie z dátových jazier a dátových skladov. Môže ukladať všetky typy údajov – nespracované, neštruktúrované alebo pološtruktúrované – bez toho, aby ste ich museli najprv organizovať. Umožňuje rýchlu, štruktúrovanú analýzu a výkazníctvo v prípade potreby.
Čo je schéma? Aký je rozdiel medzi schémou pri prečítaní a schémou pri zápise?

Schémy sú pravidlá usporiadania údajov, ako napríklad to, aký druh údajov sa môže ukladať (čísla, dátumy), ako sú údaje usporiadané (tabuľky a stĺpce) a ako sa informácie navzájom týkajú.

Schéma pri zápise znamená, že pred uložením sa údaje musia zmestiť do preddefinovanej štruktúry (schémy). Takto fungujú dátové sklady. Zabezpečujú, aby boli údaje vopred čisté a pripravené na analýzu.

Systém na čítanie znamená, že štruktúra sa použije len vtedy, keď chce niekto použiť alebo analyzovať údaje. Takto fungujú dátové jazerá. Umožňujú väčšiu flexibilitu, pretože dáta môžu byť najskôr uložené v akejkoľvek forme a nemusíte ich organizovať okamžite. Kompenzácie tohto prístupu však zahŕňajú pomalšie časy dotazov a potenciálnu nekonzistentnosť, pretože rôzni používatelia by mohli interpretovať rovnaké nespracované údaje odlišne.

Naproti tomu schéma pri zápise vynucuje konzistenciu vopred, ale znižuje flexibilitu.

Aký je rozdiel medzi štruktúrovanými, neštruktúrovanými a pološtruktúrovanými údajmi?

Štruktúrované údaje sú veľmi organizované, ľahko sa vyhľadávajú a zvyčajne sa môžu ukladať do tabuliek, ako sú mená zákazníkov, čísla predaja a dátumy.

Neštruktúrované údaje nemajú pevný formát a je ťažšie organizovať, ako sú videá, obrázky, zvukové súbory a príspevky v sociálnych médiách.

Pološtruktúrované dáta sú niekde medzi. Má nejakú organizáciu, ale nie takú prísnu ako tabuľky. Premýšľajte o súboroch JSON, dokumentoch XML a e-mailoch.

Logo spoločnosti SAP

Maximalizujte hodnotu svojich údajov

Spojte to všetko so SAP Business Data Cloud.

Ďalšie informácie