Čo je dátové jazero?
Údajové jazero je centralizované úložisko údajov, ktoré pomáha riešiť problémy s dátovým priestorom.
default
{}
default
{}
primary
default
{}
secondary
Čo je dátové jazero: definícia a účel
Data Lake je centralizované úložisko, ktoré ukladá štruktúrované, pološtruktúrované a neštruktúrované údaje vo svojich natívnych formátoch. Na rozdiel od iných systémov ukladania, ktoré vyžadujú, aby boli dáta organizované pred ich uložením (napríklad dátové sklady), dátové jazero akceptuje nespracované dáta tak, ako sú, a zachováva svoju pôvodnú štruktúru a formát, kým nie sú potrebné pre prípady použitia pokročilej analýzy, umelej inteligencie (AI) a strojového učenia (ML).
Hlavným účelom dátového jazera je rozčleniť dátové zásobníky a vytvoriť jeden zdroj pre dátové aktíva organizácie. Zahŕňa konsolidáciu údajov z viacerých zdrojov na jedno prístupné miesto – dátové jazero, čo znamená, že analytici, analytici a inžinieri strojového učenia môžu všetci skúmať, experimentovať s informáciami, ktoré by inak mohli ostať uväznené v nesúrodých systémoch. Príklady zdrojov údajov, ktoré by mohli byť uložené v dátovom jazere, zahŕňajú:
- Databázy
- Súbory
- Prúdy
- Aplikačné protokoly
- Informačné kanály sociálnych médií
- Protokoly snímačov IoT
Účelom dátového jazera je poskytnúť flexibilné, škálovateľné riešenie na ukladanie a analýzu dát všetkých typov. To umožňuje prístup schéma pri čítaní (vs. schéma na zápis, ako sa používa v dátových skladoch).
Čo znamená schéma on-read?
Schéma-on-read znamená, že štruktúra a význam údajov – schéma – sa použijú, keď sa k nim pristupuje, a nie keď sú uložené. To zachováva flexibilitu, čo organizáciám umožňuje ukladať údaje bez toho, aby presne vedeli, ako sa v budúcnosti použijú. Preto sú dátové jazerá ideálne pre prieskumné analýzy, dolovanie dát, strojové učenie a objavovanie neočakávaných vzorov v dátach.
Architektúra a komponenty dátového jazera
Architektúra Data Lake je viacvrstvová a pozostáva z niekoľkých kľúčových komponentov, ktoré spolupracujú pri preberaní, ukladaní, spracovávaní a dodávaní údajov koncovým používateľom a aplikáciám. Tieto kľúčové komponenty dátového jazera sú:
Ukladacia vrstva
Ukladacia vrstva je základom architektúry dátového jazera, ktorá je zvyčajne postavená na systémoch na ukladanie objektov, ktoré poskytujú nákladovo efektívne, škálovateľné úložisko pre obrovské objemy dát. Táto vrstva uchováva údaje vo svojom natívnom formáte, či už ide o súbory CSV, dokumenty JSON, parketové súbory, obrázky, videá alebo akýkoľvek iný formát.
Príjem údajov
Vrstva príjmu údajov spracováva proces prenosu údajov do jazera z rôznych zdrojov. Patrí sem dávkový príjem pre pravidelné načítavanie údajov a streamovanie príjmu údajov pre prúdy údajov v reálnom čase. Nástroje na príjem údajov musia spracovávať rôzne typy údajov a zdroje a zároveň zabezpečiť integritu údajov a sledovať pôvod údajov.
Správa katalógu údajov a metadát
Komponent katalogizácie a správy metadát udržiava organizovaný inventár údajov, ktoré existujú v jazere, vrátane jeho umiestnenia, významu a vzťahov s inými údajmi. Myslite na to ako knižnica alebo správca archívnych katalógov. Robustný katalóg údajov slúži ako prehľadávateľný index, ktorý používateľom umožňuje objaviť príslušné množiny údajov bez potreby manuálneho prehľadávania celého úložiska.
Spracováva sa vrstva
Vrstva spracovania umožňuje transformáciu, čistenie, rozšírenie a analýzu údajov. Táto vrstva zahŕňa nástroje na dávkové spracovanie, spracovanie prúdu údajov a interaktívne dotazy, ktoré používateľom umožňujú pripraviť sa na konkrétne prípady použitia alebo vykonať ad hoc analýzu.
Prístupová vrstva
Prístupová vrstva poskytuje rozhrania a nástroje pre rôzne typy používateľov: dátových vedcov používajúcich poznámkové bloky, analytikov spúšťajúcich dotazy SQL alebo aplikácií využívajúcich údaje prostredníctvom rozhraní API. Táto vrstva tiež presadzuje politiky zabezpečenia a riadi, kto môže získať prístup k akým údajom a za akých podmienok.
Typy dátových jazier: oblak, lokálny, hybridný, multi-cloud
Existujú rôzne typy dátových jazier v závislosti od konfigurácie, v ktorej ich organizácia nasadzuje. Každá konfigurácia ponúka určité výhody a kompromisy.
Cloudové dátové jazerá
Cloudové dátové jazerá sú hostené výlučne na cloudových platformách. Môžu ponúkať prakticky neobmedzenú škálovateľnosť, priebežné stanovenie cien a jednoduchú integráciu s cloudovou natívnou analytikou a službami umelej inteligencie. Cloudové dátové jazerá eliminujú potrebu počiatočných investícií do infraštruktúry, čo umožňuje organizáciám nezávisle rozširovať ukladacie a výpočtové zdroje. Sú obzvlášť vhodné pre rastúce organizácie a pre tých, ktorí chcú znížiť prevádzkové režijné náklady, pričom si zachovávajú prístup k špičkovým analytickým funkciám.
Lokálne dátové jazerá
Lokálne dátové jazerá sú nasadené v rámci vlastných dátových centier organizácie a poskytujú úplnú kontrolu nad infraštruktúrou, bezpečnosťou a suverenitou dát. Hoci niekedy ich používajú organizácie s veľmi špecifickými regulačnými a bezpečnostnými požiadavkami, lokálne dátové jazerá zvyčajne vyžadujú značné kapitálové investície, nepretržitú údržbu a značné úsilie pre akékoľvek transformačné projekty. Často ide o kompromis: zvýšenie granularity kontroly prichádza na úkor škálovateľnosti a nákladovej efektívnosti.
Hybridné dátové jazerá
Hybridné dátové jazerá kombinujú cloudové a lokálne úložisko, čo organizáciám umožňuje uchovávať niektoré údaje lokálne a zároveň využívať cloudové zdroje na škálovateľnosť a pokročilú analýzu. Tento prístup ponúka flexibilitu, ale zavádza komplexnosť v synchronizácii údajov, riadení a správe konzistentných skúseností vo všetkých prostrediach.
Viaccloudové dátové jazerá
Viaccloudové dátové jazerá zahŕňajú viacerých poskytovateľov cloudu, čo pomáha organizáciám vyhnúť sa odhláseniu dodávateľov, optimalizovať náklady pomocou najlepších služieb od každého poskytovateľa a zabezpečiť kontinuitu podnikania prostredníctvom redundancie. Multicloudové architektúry si však vyžadujú dôkladné plánovanie v súvislosti s interoperabilitou údajov, konzistentnými politikami zabezpečenia a riadením nákladov na prenos údajov medzi poskytovateľmi cloudu. Môžu tiež zmeniť zavedenie zmien alebo inovácií na zložitejší proces.
Dátové jazero verzus dátový sklad vs. dátová skupina
Pochopenie rozdielov medzi týmito prístupmi k ukladaniu údajov je nevyhnutné pre výber správnych riešení pre ciele vašej organizácie. Porovnajme dátové jazerá, dátové sklady a dátové prehľady v rámci viacerých kľúčových kritérií:
Ako to vyzerá v praxi?
Dátové jazerá vynikajú ekonomickým ukladaním veľkých objemov nespracovaných údajov a podporujú prieskumnú analýzu a strojové učenie. Sú ideálne, keď potrebujete flexibilitu pri práci s rôznymi typmi údajov a vopred neviete, ako sa údaje použijú. Môžu tiež ukladať dáta, ktoré sa potom ťahajú do dátových skladov.
Dátové sklady sú účelovo vytvorené pre business intelligence a reporting so štruktúrovanými schémami optimalizovanými pre výkon dotazov. Sú najvhodnejšie pre presne definované potreby vykazovania a modelovania, kde je kvalita a konzistentnosť údajov prvoradá – napríklad na použitie v prediktívnej analýze. V praxi sa údaje nahromadené v dátových jazerách môžu dokonca spracovávať a streamovať alebo pravidelne sťahovať do dátových skladov v závislosti od toho, ako sú nakonfigurované dátové kanály.
Data lakehouses predstavujú novšiu architektúru, ktorá kombinuje flexibilitu dátových jazier s možnosťami správy a výkonom dátových skladov. Umožňujú organizáciám spúšťať prieskumné analýzy aj podnikové výkazníctvo na tej istej platforme, čím sa znižuje duplicita a komplexnosť údajov.
Výhody dátových jazier
Výhody dátových jazier sú tým, čo z nich robí takú presvedčivú voľbu pre organizácie a základný kameň modernej dátovej architektúry. Výhody architektúry dátového jazera zahŕňajú:
Flexibilita: Dátové jazerá akceptujú akýkoľvek typ údajov v ľubovoľnom formáte, čím eliminujú potrebu transformácie údajov pred uložením alebo narážajú na chýbajúce údaje. To znamená, že môžete okamžite začať zbierať údaje bez potreby rozsiahleho plánovania vopred alebo bez toho, aby ste vedeli, ako ich budete používať. Prístup schémy pri čítaní umožňuje rôznym tímom využívať a interpretovať rovnaké údaje rôznymi spôsobmi, čím podporuje inováciu a zisťovanie.
Škálovateľnosť: S dátovými jazerami môže úložisko rásť z gigabajtov na petabajty bez nutnosti architektonických zmien alebo migrácií, najmä s cloudovými implementáciami. Organizácie môžu začať s malými a rozširovať sa, keď ich dáta potrebujú, aby rástli.
Nákladová efektívnosť: Jednou z výhod dátových jazier na skladovanie je, že zvyčajne stoja podstatne menej ako tradičné dátové sklady za rovnaké množstvo skladov, čo z ekonomického hľadiska umožňuje uchovávať historické údaje a skúmať nové zdroje údajov bez prekročenia rozpočtových obmedzení.
Rozšírená analytická podpora: Dátové jazerá umožňujú vedcom v oblasti údajov a technikom strojového učenia prístup k nespracovaným údajom na vytváranie a školenie modelov, dolovanie údajov a ďalšie rozšírené úlohy. Na rozdiel od spracovaných dát v skladoch, príjem prvotných dát zachováva nuansy a detaily, ktoré by sa mohli ukázať ako kritické pre presné predikcie a analýzy. Dátové jazerá tiež podporujú analýzu v reálnom čase prijímaním streamovaných údajov, čo umožňuje organizáciám pracovať na nových informáciách.
Demokratizácia dát: Ďalšou výhodou architektúry Data Lake je, že keď sú všetky organizačné dáta uložené na jednom, prístupnom mieste, viac ľudí v celej organizácii môže objaviť a používať dáta, rozkladať zásobníky a podporovať rozhodovanie založené na dátach na všetkých úrovniach.
Spoločné výzvy súvisiace s dátovým jazerom
Kým dátové jazerá ponúkajú obrovské výhody, predstavujú aj výzvy, ktorým sa organizácie musia venovať, aby naplno využili svoj potenciál. Spoločné výzvy súvisiace s dátovým jazerom zahŕňajú:
Správa komplexných dátových jazier
Správa údajov sa stáva zložitejšou pri ukladaní obrovského množstva rôznorodých údajov. Bez správnych rámcov riadenia môžu dátové jazerá preniknúť do databázy "data swamps" — úložísk, kde sú údaje dumpingové bez akejkoľvek organizácie, čo sťažuje vyhľadávanie, pochopenie alebo dôveru. Vytvorenie jasného vlastníctva, dokumentovanie pôvodu údajov a správa metaúdajov sú nevyhnutné, vyžadujú si však nepretržité úsilie a disciplínu.
Otázky týkajúce sa bezpečnosti údajov
Bezpečnosť a kontrola prístupu si vyžadujú pozornú pozornosť. Dátové jazerá obsahujú citlivé informácie z celej organizácie a zabezpečujú, aby mali prístup ku konkrétnym množinám údajov iba oprávnení používatelia, pričom údržba záznamov auditu vyžaduje spoľahlivé politiky a nástroje zabezpečenia. Šifrovanie, autentifikácia, detailné riadenie prístupu a maskovanie údajov zohrávajú dôležité roly pri zabezpečovaní prostredí Data Lake a predchádzaní problémom so správou Data Lake.
Nerovnomerná kvalita dát
V dátových jazerách nie je automaticky zabezpečená kvalita údajov. Keďže sú nespracované dáta uložené tak, ako sú, môžu obsahovať chyby, duplikáty alebo nekonzistencie. Organizácie potrebujú procesy na overenie, čistenie a rozšírenie týchto údajov pred ich použitím na analýzu. Bez ohľadu na kvalitu údajov môžu analýzy a modely ML založené na údajoch jazera priniesť nespoľahlivé výsledky.
Problémy so správou Data Lake
Zložitosť a požiadavky na odborné znalosti by sa nemali podceňovať. Efektívne riadenie dátového jazera vyžaduje zručnosti v distribuovaných systémoch, dátovom inžinierstve, správe metaúdajov a rôznych rámcoch spracovania. Organizácie môžu potrebovať investovať do školení, najímať špecializované talenty alebo spolupracovať s poskytovateľom odborných služieb, aby mohli vybudovať a udržiavať svoju infraštruktúru Data Lake.
Dlhé časy dotazov
Optimalizácia výkonu môže byť zložitá, najmä pre interaktívne dotazy na veľké množiny údajov. Na rozdiel od skladov s vopred optimalizovanými schémami, dátové jazerá vyžadujú premyslenú dátovú organizáciu, stratégie segmentácie a výber formátov súborov, aby sa dosiahol prijateľný výkon dotazov. Jednoducho povedané, dátové jazerá môžu obsahovať nepredstaviteľne obrovské objemy údajov, takže nájdenie toho, čo potrebujete, môže chvíľu trvať.
Príklady dátových jazier a prípady praktického použitia
Príklady používania Data Lake v reálnom svete ukazujú, ako organizácie využívajú dátové jazerá na riešenie podnikových výziev a získanie konkurenčných výhod. Rozdeľme ho analýzou niekoľkých bežných prípadov použitia Data Lake.
Prípad použitia dátových jazier: Analýza IoT pre prediktívnu údržbu
Výrobná spoločnosť zhromažďuje údaje zo senzorov z tisícov strojov vo viacerých zariadeniach a denne vytvára terabajty údajov časových radov. Prenášaním týchto údajov do dátového jazera ich kombinujú so záznamami údržby, plánmi výroby a informáciami o dodávateľoch. Modely strojového učenia analyzujú historické vzory na predpovedanie porúch zariadení pred ich výskytom, čím znižujú prestoje a šetria milióny na nákladoch na opravu. Schopnosť dátového jazera spracovať údaje o vysokorýchlostnom streamovaní z viacerých zdrojov umožňuje tento prípad použitia.
Prípad použitia dátových jazier: Zákazník 360 pre personalizovaný marketing
Obchodná organizácia konsoliduje dáta zákazníkov z prehľadávania online, histórie nákupov, interakcií s mobilnými aplikáciami, hovorov a konverzácií so službami zákazníkom, interakcie so sociálnymi médiami a návštev v pobočke v dátovom jazere. Analýzou tohto komplexného zobrazenia každého zákazníka môže vytvárať podrobné segmenty a personalizovať marketingové kampane, odporúčania produktov a skúsenosti zákazníkov. To by mohlo zvýšiť efektivitu kampane a výrazne zvýšiť spokojnosť zákazníkov. V tomto príklade Data Lake umožňuje tento holistický náhľad zákazníka flexibilita a kapacita na ukladanie štruktúrovaných transakčných údajov aj neštruktúrovaných protokolov interakcie.
Prípad použitia dátových jazier: Modelovanie rizika finančných služieb
Finančná inštitúcia používa dátové jazero na agregáciu obchodných údajov, trhových informačných kanálov, spravodajských článkov, zmýšľania sociálnych médií a regulačných podaní. Dátoví vedci vytvárajú sofistikované modely rizík, ktoré zohľadňujú tradičné finančné metriky aj ďalšie zdroje údajov. Prístup na čítanie v jazere im umožňuje preskúmať rôzne zdroje údajov a techniky modelovania bez narušenia existujúcich systémov, čo im pomáha dosiahnuť presnejšie posúdenia rizík.
Osvedčené postupy pre Data Lake
Zavedenie nasledujúcich osvedčených postupov pre dátové jazerá môže pomôcť organizáciám maximalizovať hodnotu svojich dátových jazier a vyhnúť sa bežným nástrahám:
- Uprednostnite správu metadát od prvého dňa. Vytvorte komplexný katalóg údajov, ktorý dokumentuje, aké dáta existujú, odkiaľ pochádzajú, čo to znamená a ako súvisí s inými množinami údajov. Dobré metaúdaje zmenia dátové jazero na prehľadávateľný a zrozumiteľný zdroj, a nie na drvivý výpis údajov – je nevyhnutnou súčasťou správy Data Lake.
- Zabezpečte správu Data Lake. Implementuje silné rámce dozoru nad údajmi, ktoré definujú vlastníctvo údajov, vytvárajú štandardy kvality a vytvárajú jasné procesy pre príjem, klasifikáciu a riadenie životného cyklu. Riadenie by nemalo byť po zamyslení – od začiatku by ste ich nemali budovať vo svojej architektúre Data Lake, aby ste si udržali dôveru v vaše údaje a zabezpečili súlad s regulačnými požiadavkami.
- Chráňte svoje údaje. Návrh na zabezpečenie a dodržiavanie predpisov implementáciou zastaveného šifrovania a prenosu, jemných kontrol prístupu, protokolovania auditov a v prípade potreby maskovania údajov. Pravidelne kontrolovať vzory prístupu a povolenia, aby sa zabezpečilo, že sú v súlade so zásadou najmenšieho privilégií.
- Optimalizujte výkon. Optimálne usporiadanie ukladacieho priestoru rozdelením dát (podľa dátumu, regiónu alebo iných relevantných dimenzií), výberom efektívnych formátov súborov pre analytické pracovné zaťaženia a implementáciou politík životného cyklu na archiváciu alebo odstránenie zastaraných dát. Tieto voľby významne ovplyvňujú výkon nákladov aj dotazov.
- Podporovať kultúru založenú na údajoch. Umožnite odhalenie a prístup k údajom a zároveň poskytnite školenia a nástroje, ktoré umožňujú samoobslužnú analýzu. Ak váš tím nemá správnu odbornosť, zvážte najímanie ďalších talentov, ktoré dokážu preklenúť priepasť medzi podnikovými účastníkmi a technológiami a zabezpečiť optimálnu správu Data Lake. Technická infraštruktúra je cenná len vtedy, ak ju ľudia skutočne využijú na lepšie rozhodnutia.
Budúcnosť dátových jazier
Vývoj dátových jazier pokračuje, keďže organizácie požadujú flexibilitu aj riadenie, čo vedie k vzniku architektúr dátového lakehouse, ktoré kombinujú najlepšie aspekty jazier a skladov. Táto konvergencia odráža rastúce chápanie, že organizácie potrebujú jednotné platformy, ktoré podporujú rozmanité prístupy, a nie udržiavanie samostatných systémov na rôzne účely.
Umelá inteligencia a strojové učenie sú čoraz dôležitejšie pre stratégie Data Lake. Moderné dátové jazerá nie sú len úložiskami – sú centrálnymi platformami, kde modely umelej inteligencie trénujú na historických dátach, robia predpovede pomocou streamovacích dát a neustále sa zlepšujú prostredníctvom spätnej väzby. Integrácia s platformami umelej inteligencie a automatizovanými možnosťami ML sa stáva skôr štandardom než výnimkou.
Ako organizácie uznávajú hodnotu konania na nových dátach, v reálnom čase a streamovacia analytika naďalej získavajú popredné miesto. Výsledkom je, že dátové jazerá sa vyvíjajú tak, aby podporovali spracovanie a dotazovanie na údaje, čím sa stierala čiara medzi historickou analýzou a operáciami v reálnom čase.
A napokon, keď sa predpisy o ochrane údajov rozširujú a menia po celom svete, musia sa vyvíjať jazerá údajov, aby podporovali ochranu a ochranu údajov už od návrhu, s funkciami, ako je automatická klasifikácia údajov, správa súhlasu a zjednodušené vykazovanie zhody, ktoré sú začlenené do platformy, a nie pridávané neskôr.
Často kladené otázky
SAP PRODUCT
Maximalizujte hodnotu svojich údajov
Spojte to všetko so SAP Business Data Cloud.