flex-height
text-black

Človek prechádzajúci serverovou miestnosťou

Čo je dátové jazero?

Údajové jazero je centralizované úložisko údajov, ktoré pomáha riešiť problémy s dátovým priestorom.

default

{}

default

{}

primary

default

{}

secondary

Čo je dátové jazero: definícia a účel

Data Lake je centralizované úložisko, ktoré ukladá štruktúrované, pološtruktúrované a neštruktúrované údaje vo svojich natívnych formátoch. Na rozdiel od iných systémov ukladania, ktoré vyžadujú, aby boli dáta organizované pred ich uložením (napríklad dátové sklady), dátové jazero akceptuje nespracované dáta tak, ako sú, a zachováva svoju pôvodnú štruktúru a formát, kým nie sú potrebné pre prípady použitia pokročilej analýzy, umelej inteligencie (AI) a strojového učenia (ML).

Hlavným účelom dátového jazera je rozčleniť dátové zásobníky a vytvoriť jeden zdroj pre dátové aktíva organizácie. Zahŕňa konsolidáciu údajov z viacerých zdrojov na jedno prístupné miesto – dátové jazero, čo znamená, že analytici, analytici a inžinieri strojového učenia môžu všetci skúmať, experimentovať s informáciami, ktoré by inak mohli ostať uväznené v nesúrodých systémoch. Príklady zdrojov údajov, ktoré by mohli byť uložené v dátovom jazere, zahŕňajú:

Účelom dátového jazera je poskytnúť flexibilné, škálovateľné riešenie na ukladanie a analýzu dát všetkých typov. To umožňuje prístup schéma pri čítaní (vs. schéma na zápis, ako sa používa v dátových skladoch).

Čo znamená schéma on-read?

Schéma-on-read znamená, že štruktúra a význam údajov – schéma – sa použijú, keď sa k nim pristupuje, a nie keď sú uložené. To zachováva flexibilitu, čo organizáciám umožňuje ukladať údaje bez toho, aby presne vedeli, ako sa v budúcnosti použijú. Preto sú dátové jazerá ideálne pre prieskumné analýzy, dolovanie dát, strojové učenie a objavovanie neočakávaných vzorov v dátach.

Architektúra a komponenty dátového jazera

Architektúra Data Lake je viacvrstvová a pozostáva z niekoľkých kľúčových komponentov, ktoré spolupracujú pri preberaní, ukladaní, spracovávaní a dodávaní údajov koncovým používateľom a aplikáciám. Tieto kľúčové komponenty dátového jazera sú:

Ukladacia vrstva

Ukladacia vrstva je základom architektúry dátového jazera, ktorá je zvyčajne postavená na systémoch na ukladanie objektov, ktoré poskytujú nákladovo efektívne, škálovateľné úložisko pre obrovské objemy dát. Táto vrstva uchováva údaje vo svojom natívnom formáte, či už ide o súbory CSV, dokumenty JSON, parketové súbory, obrázky, videá alebo akýkoľvek iný formát.

Príjem údajov

Vrstva príjmu údajov spracováva proces prenosu údajov do jazera z rôznych zdrojov. Patrí sem dávkový príjem pre pravidelné načítavanie údajov a streamovanie príjmu údajov pre prúdy údajov v reálnom čase. Nástroje na príjem údajov musia spracovávať rôzne typy údajov a zdroje a zároveň zabezpečiť integritu údajov a sledovať pôvod údajov.

Správa katalógu údajov a metadát

Komponent katalogizácie a správy metadát udržiava organizovaný inventár údajov, ktoré existujú v jazere, vrátane jeho umiestnenia, významu a vzťahov s inými údajmi. Myslite na to ako knižnica alebo správca archívnych katalógov. Robustný katalóg údajov slúži ako prehľadávateľný index, ktorý používateľom umožňuje objaviť príslušné množiny údajov bez potreby manuálneho prehľadávania celého úložiska.

Spracováva sa vrstva

Vrstva spracovania umožňuje transformáciu, čistenie, rozšírenie a analýzu údajov. Táto vrstva zahŕňa nástroje na dávkové spracovanie, spracovanie prúdu údajov a interaktívne dotazy, ktoré používateľom umožňujú pripraviť sa na konkrétne prípady použitia alebo vykonať ad hoc analýzu.

Prístupová vrstva

Prístupová vrstva poskytuje rozhrania a nástroje pre rôzne typy používateľov: dátových vedcov používajúcich poznámkové bloky, analytikov spúšťajúcich dotazy SQL alebo aplikácií využívajúcich údaje prostredníctvom rozhraní API. Táto vrstva tiež presadzuje politiky zabezpečenia a riadi, kto môže získať prístup k akým údajom a za akých podmienok.

Typy dátových jazier: oblak, lokálny, hybridný, multi-cloud

Existujú rôzne typy dátových jazier v závislosti od konfigurácie, v ktorej ich organizácia nasadzuje. Každá konfigurácia ponúka určité výhody a kompromisy.

Cloudové dátové jazerá

Cloudové dátové jazerá sú hostené výlučne na cloudových platformách. Môžu ponúkať prakticky neobmedzenú škálovateľnosť, priebežné stanovenie cien a jednoduchú integráciu s cloudovou natívnou analytikou a službami umelej inteligencie. Cloudové dátové jazerá eliminujú potrebu počiatočných investícií do infraštruktúry, čo umožňuje organizáciám nezávisle rozširovať ukladacie a výpočtové zdroje. Sú obzvlášť vhodné pre rastúce organizácie a pre tých, ktorí chcú znížiť prevádzkové režijné náklady, pričom si zachovávajú prístup k špičkovým analytickým funkciám.

Lokálne dátové jazerá

Lokálne dátové jazerá sú nasadené v rámci vlastných dátových centier organizácie a poskytujú úplnú kontrolu nad infraštruktúrou, bezpečnosťou a suverenitou dát. Hoci niekedy ich používajú organizácie s veľmi špecifickými regulačnými a bezpečnostnými požiadavkami, lokálne dátové jazerá zvyčajne vyžadujú značné kapitálové investície, nepretržitú údržbu a značné úsilie pre akékoľvek transformačné projekty. Často ide o kompromis: zvýšenie granularity kontroly prichádza na úkor škálovateľnosti a nákladovej efektívnosti.

Hybridné dátové jazerá

Hybridné dátové jazerá kombinujú cloudové a lokálne úložisko, čo organizáciám umožňuje uchovávať niektoré údaje lokálne a zároveň využívať cloudové zdroje na škálovateľnosť a pokročilú analýzu. Tento prístup ponúka flexibilitu, ale zavádza komplexnosť v synchronizácii údajov, riadení a správe konzistentných skúseností vo všetkých prostrediach.

Viaccloudové dátové jazerá

Viaccloudové dátové jazerá zahŕňajú viacerých poskytovateľov cloudu, čo pomáha organizáciám vyhnúť sa odhláseniu dodávateľov, optimalizovať náklady pomocou najlepších služieb od každého poskytovateľa a zabezpečiť kontinuitu podnikania prostredníctvom redundancie. Multicloudové architektúry si však vyžadujú dôkladné plánovanie v súvislosti s interoperabilitou údajov, konzistentnými politikami zabezpečenia a riadením nákladov na prenos údajov medzi poskytovateľmi cloudu. Môžu tiež zmeniť zavedenie zmien alebo inovácií na zložitejší proces.

Dátové jazero verzus dátový sklad vs. dátová skupina

Pochopenie rozdielov medzi týmito prístupmi k ukladaniu údajov je nevyhnutné pre výber správnych riešení pre ciele vašej organizácie. Porovnajme dátové jazerá, dátové sklady a dátové prehľady v rámci viacerých kľúčových kritérií:

Funkcia
Údajové jazero
Dátový sklad
Data Lakehouse
Schéma
Schéma pri čítaní
Schéma pri zápise
Flexibilné s voliteľnou štruktúrou
Dátové typy
Štruktúrované, pološtruktúrované, neštruktúrované
Primárne štruktúrované (príležitostne, pološtruktúrované)
Všetky typy so správou tabuliek
Typické skladovacie náklady
Nízke skladovacie náklady
Vyššie skladovacie náklady
Stredné náklady
Primárni používatelia
Dátoví vedci a inžinieri, inžinieri ML, analytici
Obchodní analytici, vedúci pracovníci, dátoví vedci
Všetky typy používateľov
Prípady použitia
Prieskum, strojové učenie, pokročilá analýza, umelá inteligencia, škálovateľné úložisko až do ďalšieho spracovania
Optimalizované pre dotazy a špecifické algoritmy
Jednotná analytika a výkazníctvo
Výkon
Variabilné, v závislosti od spracovateľského nástroja
Optimalizované pre dotazy
Vysoký výkon so zabudovaným riadením
Kvalita dát
Prvotné údaje rôznej kvality
Vyčistené a overené dáta
Zvýšená kvalita s určitou flexibilitou

Ako to vyzerá v praxi?

Dátové jazerá vynikajú ekonomickým ukladaním veľkých objemov nespracovaných údajov a podporujú prieskumnú analýzu a strojové učenie. Sú ideálne, keď potrebujete flexibilitu pri práci s rôznymi typmi údajov a vopred neviete, ako sa údaje použijú. Môžu tiež ukladať dáta, ktoré sa potom ťahajú do dátových skladov.

Dátové sklady sú účelovo vytvorené pre business intelligence a reporting so štruktúrovanými schémami optimalizovanými pre výkon dotazov. Sú najvhodnejšie pre presne definované potreby vykazovania a modelovania, kde je kvalita a konzistentnosť údajov prvoradá – napríklad na použitie v prediktívnej analýze. V praxi sa údaje nahromadené v dátových jazerách môžu dokonca spracovávať a streamovať alebo pravidelne sťahovať do dátových skladov v závislosti od toho, ako sú nakonfigurované dátové kanály.

Data lakehouses predstavujú novšiu architektúru, ktorá kombinuje flexibilitu dátových jazier s možnosťami správy a výkonom dátových skladov. Umožňujú organizáciám spúšťať prieskumné analýzy aj podnikové výkazníctvo na tej istej platforme, čím sa znižuje duplicita a komplexnosť údajov.

Výhody dátových jazier

Výhody dátových jazier sú tým, čo z nich robí takú presvedčivú voľbu pre organizácie a základný kameň modernej dátovej architektúry. Výhody architektúry dátového jazera zahŕňajú:

Flexibilita: Dátové jazerá akceptujú akýkoľvek typ údajov v ľubovoľnom formáte, čím eliminujú potrebu transformácie údajov pred uložením alebo narážajú na chýbajúce údaje. To znamená, že môžete okamžite začať zbierať údaje bez potreby rozsiahleho plánovania vopred alebo bez toho, aby ste vedeli, ako ich budete používať. Prístup schémy pri čítaní umožňuje rôznym tímom využívať a interpretovať rovnaké údaje rôznymi spôsobmi, čím podporuje inováciu a zisťovanie.

Škálovateľnosť: S dátovými jazerami môže úložisko rásť z gigabajtov na petabajty bez nutnosti architektonických zmien alebo migrácií, najmä s cloudovými implementáciami. Organizácie môžu začať s malými a rozširovať sa, keď ich dáta potrebujú, aby rástli.

Nákladová efektívnosť: Jednou z výhod dátových jazier na skladovanie je, že zvyčajne stoja podstatne menej ako tradičné dátové sklady za rovnaké množstvo skladov, čo z ekonomického hľadiska umožňuje uchovávať historické údaje a skúmať nové zdroje údajov bez prekročenia rozpočtových obmedzení.

Rozšírená analytická podpora: Dátové jazerá umožňujú vedcom v oblasti údajov a technikom strojového učenia prístup k nespracovaným údajom na vytváranie a školenie modelov, dolovanie údajov a ďalšie rozšírené úlohy. Na rozdiel od spracovaných dát v skladoch, príjem prvotných dát zachováva nuansy a detaily, ktoré by sa mohli ukázať ako kritické pre presné predikcie a analýzy. Dátové jazerá tiež podporujú analýzu v reálnom čase prijímaním streamovaných údajov, čo umožňuje organizáciám pracovať na nových informáciách.

Demokratizácia dát: Ďalšou výhodou architektúry Data Lake je, že keď sú všetky organizačné dáta uložené na jednom, prístupnom mieste, viac ľudí v celej organizácii môže objaviť a používať dáta, rozkladať zásobníky a podporovať rozhodovanie založené na dátach na všetkých úrovniach.

Spoločné výzvy súvisiace s dátovým jazerom

Kým dátové jazerá ponúkajú obrovské výhody, predstavujú aj výzvy, ktorým sa organizácie musia venovať, aby naplno využili svoj potenciál. Spoločné výzvy súvisiace s dátovým jazerom zahŕňajú:

Správa komplexných dátových jazier

Správa údajov sa stáva zložitejšou pri ukladaní obrovského množstva rôznorodých údajov. Bez správnych rámcov riadenia môžu dátové jazerá preniknúť do databázy "data swamps" — úložísk, kde sú údaje dumpingové bez akejkoľvek organizácie, čo sťažuje vyhľadávanie, pochopenie alebo dôveru. Vytvorenie jasného vlastníctva, dokumentovanie pôvodu údajov a správa metaúdajov sú nevyhnutné, vyžadujú si však nepretržité úsilie a disciplínu.

Otázky týkajúce sa bezpečnosti údajov

Bezpečnosť a kontrola prístupu si vyžadujú pozornú pozornosť. Dátové jazerá obsahujú citlivé informácie z celej organizácie a zabezpečujú, aby mali prístup ku konkrétnym množinám údajov iba oprávnení používatelia, pričom údržba záznamov auditu vyžaduje spoľahlivé politiky a nástroje zabezpečenia. Šifrovanie, autentifikácia, detailné riadenie prístupu a maskovanie údajov zohrávajú dôležité roly pri zabezpečovaní prostredí Data Lake a predchádzaní problémom so správou Data Lake.

Nerovnomerná kvalita dát

V dátových jazerách nie je automaticky zabezpečená kvalita údajov. Keďže sú nespracované dáta uložené tak, ako sú, môžu obsahovať chyby, duplikáty alebo nekonzistencie. Organizácie potrebujú procesy na overenie, čistenie a rozšírenie týchto údajov pred ich použitím na analýzu. Bez ohľadu na kvalitu údajov môžu analýzy a modely ML založené na údajoch jazera priniesť nespoľahlivé výsledky.

Problémy so správou Data Lake

Zložitosť a požiadavky na odborné znalosti by sa nemali podceňovať. Efektívne riadenie dátového jazera vyžaduje zručnosti v distribuovaných systémoch, dátovom inžinierstve, správe metaúdajov a rôznych rámcoch spracovania. Organizácie môžu potrebovať investovať do školení, najímať špecializované talenty alebo spolupracovať s poskytovateľom odborných služieb, aby mohli vybudovať a udržiavať svoju infraštruktúru Data Lake.

Dlhé časy dotazov

Optimalizácia výkonu môže byť zložitá, najmä pre interaktívne dotazy na veľké množiny údajov. Na rozdiel od skladov s vopred optimalizovanými schémami, dátové jazerá vyžadujú premyslenú dátovú organizáciu, stratégie segmentácie a výber formátov súborov, aby sa dosiahol prijateľný výkon dotazov. Jednoducho povedané, dátové jazerá môžu obsahovať nepredstaviteľne obrovské objemy údajov, takže nájdenie toho, čo potrebujete, môže chvíľu trvať.

Príklady dátových jazier a prípady praktického použitia

Príklady používania Data Lake v reálnom svete ukazujú, ako organizácie využívajú dátové jazerá na riešenie podnikových výziev a získanie konkurenčných výhod. Rozdeľme ho analýzou niekoľkých bežných prípadov použitia Data Lake.

Prípad použitia dátových jazier: Analýza IoT pre prediktívnu údržbu

Výrobná spoločnosť zhromažďuje údaje zo senzorov z tisícov strojov vo viacerých zariadeniach a denne vytvára terabajty údajov časových radov. Prenášaním týchto údajov do dátového jazera ich kombinujú so záznamami údržby, plánmi výroby a informáciami o dodávateľoch. Modely strojového učenia analyzujú historické vzory na predpovedanie porúch zariadení pred ich výskytom, čím znižujú prestoje a šetria milióny na nákladoch na opravu. Schopnosť dátového jazera spracovať údaje o vysokorýchlostnom streamovaní z viacerých zdrojov umožňuje tento prípad použitia.

Prípad použitia dátových jazier: Zákazník 360 pre personalizovaný marketing

Obchodná organizácia konsoliduje dáta zákazníkov z prehľadávania online, histórie nákupov, interakcií s mobilnými aplikáciami, hovorov a konverzácií so službami zákazníkom, interakcie so sociálnymi médiami a návštev v pobočke v dátovom jazere. Analýzou tohto komplexného zobrazenia každého zákazníka môže vytvárať podrobné segmenty a personalizovať marketingové kampane, odporúčania produktov a skúsenosti zákazníkov. To by mohlo zvýšiť efektivitu kampane a výrazne zvýšiť spokojnosť zákazníkov. V tomto príklade Data Lake umožňuje tento holistický náhľad zákazníka flexibilita a kapacita na ukladanie štruktúrovaných transakčných údajov aj neštruktúrovaných protokolov interakcie.

Prípad použitia dátových jazier: Modelovanie rizika finančných služieb

Finančná inštitúcia používa dátové jazero na agregáciu obchodných údajov, trhových informačných kanálov, spravodajských článkov, zmýšľania sociálnych médií a regulačných podaní. Dátoví vedci vytvárajú sofistikované modely rizík, ktoré zohľadňujú tradičné finančné metriky aj ďalšie zdroje údajov. Prístup na čítanie v jazere im umožňuje preskúmať rôzne zdroje údajov a techniky modelovania bez narušenia existujúcich systémov, čo im pomáha dosiahnuť presnejšie posúdenia rizík.

Osvedčené postupy pre Data Lake

Zavedenie nasledujúcich osvedčených postupov pre dátové jazerá môže pomôcť organizáciám maximalizovať hodnotu svojich dátových jazier a vyhnúť sa bežným nástrahám:

  1. Uprednostnite správu metadát od prvého dňa. Vytvorte komplexný katalóg údajov, ktorý dokumentuje, aké dáta existujú, odkiaľ pochádzajú, čo to znamená a ako súvisí s inými množinami údajov. Dobré metaúdaje zmenia dátové jazero na prehľadávateľný a zrozumiteľný zdroj, a nie na drvivý výpis údajov – je nevyhnutnou súčasťou správy Data Lake.
  2. Zabezpečte správu Data Lake. Implementuje silné rámce dozoru nad údajmi, ktoré definujú vlastníctvo údajov, vytvárajú štandardy kvality a vytvárajú jasné procesy pre príjem, klasifikáciu a riadenie životného cyklu. Riadenie by nemalo byť po zamyslení – od začiatku by ste ich nemali budovať vo svojej architektúre Data Lake, aby ste si udržali dôveru v vaše údaje a zabezpečili súlad s regulačnými požiadavkami.
  3. Chráňte svoje údaje. Návrh na zabezpečenie a dodržiavanie predpisov implementáciou zastaveného šifrovania a prenosu, jemných kontrol prístupu, protokolovania auditov a v prípade potreby maskovania údajov. Pravidelne kontrolovať vzory prístupu a povolenia, aby sa zabezpečilo, že sú v súlade so zásadou najmenšieho privilégií.
  4. Optimalizujte výkon. Optimálne usporiadanie ukladacieho priestoru rozdelením dát (podľa dátumu, regiónu alebo iných relevantných dimenzií), výberom efektívnych formátov súborov pre analytické pracovné zaťaženia a implementáciou politík životného cyklu na archiváciu alebo odstránenie zastaraných dát. Tieto voľby významne ovplyvňujú výkon nákladov aj dotazov.
  5. Podporovať kultúru založenú na údajoch. Umožnite odhalenie a prístup k údajom a zároveň poskytnite školenia a nástroje, ktoré umožňujú samoobslužnú analýzu. Ak váš tím nemá správnu odbornosť, zvážte najímanie ďalších talentov, ktoré dokážu preklenúť priepasť medzi podnikovými účastníkmi a technológiami a zabezpečiť optimálnu správu Data Lake. Technická infraštruktúra je cenná len vtedy, ak ju ľudia skutočne využijú na lepšie rozhodnutia.

Budúcnosť dátových jazier

Vývoj dátových jazier pokračuje, keďže organizácie požadujú flexibilitu aj riadenie, čo vedie k vzniku architektúr dátového lakehouse, ktoré kombinujú najlepšie aspekty jazier a skladov. Táto konvergencia odráža rastúce chápanie, že organizácie potrebujú jednotné platformy, ktoré podporujú rozmanité prístupy, a nie udržiavanie samostatných systémov na rôzne účely.

Umelá inteligencia a strojové učenie sú čoraz dôležitejšie pre stratégie Data Lake. Moderné dátové jazerá nie sú len úložiskami – sú centrálnymi platformami, kde modely umelej inteligencie trénujú na historických dátach, robia predpovede pomocou streamovacích dát a neustále sa zlepšujú prostredníctvom spätnej väzby. Integrácia s platformami umelej inteligencie a automatizovanými možnosťami ML sa stáva skôr štandardom než výnimkou.

Ako organizácie uznávajú hodnotu konania na nových dátach, v reálnom čase a streamovacia analytika naďalej získavajú popredné miesto. Výsledkom je, že dátové jazerá sa vyvíjajú tak, aby podporovali spracovanie a dotazovanie na údaje, čím sa stierala čiara medzi historickou analýzou a operáciami v reálnom čase.

A napokon, keď sa predpisy o ochrane údajov rozširujú a menia po celom svete, musia sa vyvíjať jazerá údajov, aby podporovali ochranu a ochranu údajov už od návrhu, s funkciami, ako je automatická klasifikácia údajov, správa súhlasu a zjednodušené vykazovanie zhody, ktoré sú začlenené do platformy, a nie pridávané neskôr.

Budúcnosť dátových jazier spočíva v flexibilite, dostupnosti a automatizácii: funkciách, ktoré organizáciám uľahčujú správu rastúcich objemov dát pri zachovaní bezpečnosti, kvality a správy. Údajové jazerá by sa mali považovať za strategické aktívum, ktoré si vyžaduje prebiehajúce investície a pozornosť.

Často kladené otázky

Prečo sa nazýva "data lake"?
Pojem "data lake" používa prirodzenú metaforu – rovnako ako veľa tokov prúdi do jedného jazera, údaje z viacerých zdrojov prúdia do centralizovaného úložiska. Ako prírodné jazero, ktoré ukladá vodu vo svojom pôvodnom stave, namiesto filtrovania a čistenia, dátové jazero uchováva údaje vo svojom natívnom formáte bez nutnosti transformácie alebo štruktúry. Metafora zdôrazňuje schopnosť jazera držať veľké objemy rôznorodých údajov vo svojom „prirodzenom“ stave a byť čerpaná na rôzne účely, rovnako ako voda z jazera slúži mnohým použitiam. Pre porovnanie, sklad by mal vodu, ktorá je filtrovaná, fľašovaná a označená, prípadne aj usporiadaná podľa veľkosti fľaše alebo pH rovnováhy.
Čo je to dátový sklad a ako sa líši od dátového jazera?
Dátový sklad je štruktúrované úložisko, zatiaľ čo dátové jazero je prístup ukladacieho priestoru, ktorý umožňuje príjem a ukladanie všetkých typov údajov, či už štruktúrovaných alebo neštruktúrovaných. Kľúčový rozdiel medzi dátovými jazerami a dátovými skladmi je v ich prístupe: dátové sklady používajú schému pri zápise (dáta musia byť štruktúrované pred uložením), zatiaľ čo dátové jazerá používajú schému pri čítaní (štruktúra sa použije pri prístupe k dátam). Sklady sú optimalizované pre známe potreby a dotazy výkazníctva, zatiaľ čo jazerá podporujú prieskumnú analýzu a strojové učenie o nespracovaných dátach. Myslite na sklady ako špecializované na rýchle zodpovedanie konkrétnych obchodných otázok, zatiaľ čo jazerá sú postavené pre flexibilitu, kapacitu a objavovanie nových otázok, ktoré je potrebné položiť.
Čo je správa údajov v dátovom jazere?
Správa údajov v dátovom jazere zahŕňa niekoľko kritických aktivít. Katalógovanie a správa metaúdajov zabezpečujú, že používatelia môžu nájsť a porozumieť dostupným množinám údajov. Riadenie zavádza politiky pre vlastníctvo údajov, normy kvality a kontroly prístupu. Správa prístupu a sledovanie pôvodu zobrazujú, kto pristupoval k akým údajom a ako boli transformované alebo používané. Zásady životného cyklu a uchovávania určujú, ako dlho sa údaje uchovávajú a kedy sa majú archivovať alebo odstrániť. Efektívna správa údajového jazera zabraňuje tomu, aby dátové jazerá boli deorganizované "data swamps" a znižuje problémy s riadením dátového jazera.
Čo je to data lakehouse?
Data lakehouse je moderná architektúra, ktorá kombinuje flexibilitu a nákladovú efektívnosť dátových jazier so štruktúrou a výkonom dátových skladov. Lakehouses umožňujú organizáciám ukladať prvotné údaje vo svojom natívnom formáte (napríklad jazero) a zároveň podporovať tabuľkové štruktúry, vynucovanie schém a optimalizovaný výkon dotazov (napríklad sklad). Tento jednotný prístup eliminuje potrebu duplikovať údaje medzi samostatnými jazernými a skladovými systémami, zjednodušuje architektúru a znižuje náklady a zároveň podporuje prieskumné analýzy a podnikové výkazníctvo na tej istej platforme.
Čo je multi-cloud pre dátové jazerá?
Viaccloudové údajové jazero zahŕňa dvoch alebo viacerých poskytovateľov cloudu. Organizácie prijímajú multicloudové stratégie, aby zabránili odhláseniu dodávateľov, optimalizovali náklady využívaním najlepších služieb od každého poskytovateľa, zabezpečili kontinuitu podnikania prostredníctvom redundancie a spĺňali požiadavky na pobyt údajov v rôznych regiónoch. Multicloudové architektúry však predstavujú výzvy týkajúce sa interoperability údajov, udržiavania konzistentných bezpečnostných politík a správy nákladov na prenos údajov medzi cloudmi.
Čo je to ukladací priestor objektov v dátovom jazere?
Úložisko objektov je základná vrstva ukladacieho priestoru, ktorá uchováva údaje v údajovom jazere. Na rozdiel od súborových systémov, ktoré organizujú dáta v hierarchických priečinkoch, úložisko objektov ukladá dáta ako jednotlivé objekty, každý s jedinečnými identifikátormi, metadátami a samotnými dátami. Ukladanie objektov je vysoko škálovateľné a nákladovo efektívne, takže je ideálne na ukladanie masívnych objemov dát v natívnych formátoch.