Čo je dátové jazero?

Data Lake je centrálne úložisko údajov, ktoré pomáha riešiť problémy so zásobníkom údajov. 

Prehľad Data Lake

Údajové jazero je v podstate úložisko informácií. Dátové jazerá sú často zamieňané s dátovými skladmi, ale obe slúžia rôznym obchodným potrebám a majú rôzne architektúry. Obzvlášť cloudové dátové jazerá sú dôležitou súčasťou modernej stratégie správy údajov, pretože šírenie sociálnych údajov, strojové údaje internetu vecí (IoT) a transakčné údaje sa neustále zrýchľujú. Schopnosť ukladať, transformovať a analyzovať akýkoľvek dátový typ pripravuje cestu pre nové obchodné príležitosti a digitálnu transformáciu – a tu je úloha dátového jazera.

O 90

%

Veríme, že iniciatívy Big Data určujú budúci úspech

64.2

Zettabyty digitálnych dát boli vytvorené v roku 2020

17.6

B $USD

odhadovaná hodnota trhu s dátovými jazerami do roku 2026

Definícia Data Lake

Data Lake je centrálne úložisko údajov, ktoré pomáha riešiť problémy so zásobníkom údajov. Dôležité je, že dátové jazero ukladá obrovské množstvo nespracovaných údajov v jeho natívnom – alebo pôvodnom – formáte. Tento formát by mohol byť štruktúrovaný, neštruktúrovaný alebo pološtruktúrovaný. Dátové jazerá, najmä tie v cloude, sú lacné, ľahko škálovateľné a často sa používajú s aplikovanou analýzou strojového učenia.

Dátové jazero vs. dátový sklad

Na rozdiel od údajového jazera poskytuje dátový sklad možnosti správy údajov a ukladá spracované a filtrované údaje, ktoré sú už spracované pre preddefinované obchodné otázky alebo prípady použitia.

Diagram dátového skladu v porovnaní s dátovým jazerom.

Dátové sklady a jazerá sa často navzájom dopĺňajú. Napríklad, keď sú na zodpovedanie obchodnej otázky potrebné prvotné údaje uložené v dátovom jazere, môžu sa extrahovať, vyčistiť, transformovať a použiť v dátovom sklade na ďalšiu analýzu.

 

„Data Lakehouse“ je nový a vyvíjajúci sa koncept, ktorý pridáva možnosti správy údajov k tradičnému dátovému jazeru. V podstate ide o kombináciu dátového jazera a dátového skladu.

 

Okrem typu údajov a rozdielov v procese uvedených vyššie tu nájdete niekoľko podrobností o porovnaní dátového jazera s riešením dátového skladu.

Údajové jazero
Sklad údajov
Údaje
Ľubovoľný typ údajov z ľubovoľného zdroja
Relačné alebo štruktúrované
Schéma
Schéma pri načítaní (čas analýzy)
Schéma zapisovania (preddefinovaná)
Skladovacie náklady
Nižšie náklady – škála petabajtov
Vyššie náklady – stupnica terabajtov
Kvalita údajov
Vytvárané alebo nevytvorené údaje
Vytvorené údaje
Používatelia
Dátoví vedci, vývojári údajov (napríklad pomocou Pythonu) a obchodní analytici (pomocou SQL pre vytvorené údaje)
Obchodní analytici používajúci SQL
Analytické nástroje
Strojové učenie, prediktívna analýza, zisťovanie údajov/profilovanie
Dávkové výkazníctvo, BI, vizualizácie

V konečnom dôsledku bude pri výbere správneho riešenia ukladania zohrávať dôležitú úlohu objem dát, výkon databáz a ceny úložiska.

Kľúčové prvky riešenia Data Lake

  • Pohyb údajov: Dátové jazerá umožňujú importovať akýkoľvek typ údajov z viacerých zdrojov v natívnom formáte. To umožňuje podnikom škálovať veľkosť dát podľa potreby bez toho, aby museli definovať dátové štruktúry, schémy a transformácie, čo môže viesť k úsporám režijných nákladov.

  • Bezpečne ukladať a katalógovať údaje: Data Lake ukladá štruktúrované, pološtruktúrované a neštruktúrované údaje z rôznych zdrojov, ako sú obchodné údaje zo softvéru CRM alebo ERP, zariadení IoT, sociálnych médií alebo dokonca historických údajov zo starších systémov. A dátové jazerá vám umožňujú zachytiť dávkové a streamované dáta pri použití riadenia, zabezpečenia a kontroly. Údaje je možné vyhľadávať priamo alebo prijímať do dátového skladu pomocou správnych nástrojov.

  • Analytické funkcie a strojové učenie: Dátové jazerá umožňujú prístup k informáciám na základe roly na spustenie analýzy a analýzy strojového učenia bez potreby presunu údajov do samostatnej analytickej databázy. Dátové jazerá tiež umožňujú kombinovať historické údaje s údajmi v reálnom čase, aby sa spresnilo strojové učenie alebo prediktívne analytické modely s cieľom poskytnúť lepšie a/alebo nové výsledky.

Ako fungujú dátové jazerá

Moderné dátové jazero má tri hlavné vlastnosti:

  1. Cieľová zóna pre vaše nespracované údaje
  2. Zóna stagingu, v ktorej sa údaje transformujú s ohľadom na analytický účel
  3. Zóna prieskumu údajov, v ktorej sa údaje využívajú v analýzach, aplikáciách a na zadávanie modelov strojového učenia

Od dátového jazera sa informácie prenášajú do rôznych zdrojov – ako sú analýzy alebo iné podnikové aplikácie, alebo do nástrojov strojového učenia na ďalšiu analýzu.

 

Prípad použitia dátového jazera

Tu sú dva príklady prípadu použitia Data Lake v maloobchode.

 

Dlhodobé údaje o predaji sú uložené v dátovom jazere spolu s neštruktúrovanými údajmi, ako sú clickstreams webových stránok, počasie, správy a mikro/makroekonomické údaje. Vďaka tomu, že sa tieto údaje uchovávajú spoločne a sú prístupné, umožňuje vedcovi údajov jednoduchšie kombinovať tieto rôzne zdroje informácií do modelu, ktorý predpovedá dopyt po konkrétnom produkte alebo rade výrobkov. Tieto informácie sa potom použijú ako vstupy do maloobchodného systému ERP na podporu zvýšených alebo znížených plánov výroby.

 

Súbežne môže marketingový expert získať prístup k tomu istému dátovému jazeru a pozrieť sa na analýzu sentimentu webovej stránky a zapojenia sociálnych médií do spravodajských, makroekonomických a predajných údajov s cieľom určiť, na ktoré produkty sa zamerať a ako čo najlepšie maximalizovať predaj, zisk a/alebo osvojenie.

Typy dátových jazier

Dátové jazerá sa môžu nachádzať v priestoroch, v cloude, hybridu oboch, ako aj naprieč viacerými cloudovými hyperscalermi, ako sú Amazon Web Services (AWS), Microsoft Azure alebo Google Cloud.

 

Zďaleka najpopulárnejším typom dátového jazera je cloudové dátové jazero. Cloudové dátové jazero poskytuje všetky obvyklé funkcie dátového jazera, ale v plne spravovanej cloudovej službe.

  • Dátové jazero on-premise: Pomocou dátového jazera on-premise riadia interné IT inžinierske zdroje hardvér, softvér a procesy. Tento prístup má vyššiu viazanosť na kapitálové výdavky (CAPEX) a údaje sú zvyčajne slabé.

  • Cloudové dátové jazero: V cloudovom dátovom jazere sa externe zabezpečuje infraštruktúra on-premise. Existuje vyšší záväzok v oblasti prevádzkových výdavkov (OPEX), ale tento prístup k zavádzaniu umožňuje podnikom ľahšie škálovať spolu s mnohými ďalšími výhodami (pozri ďalej).

  • Hybridné dátové jazero: V niektorých prípadoch sa niektoré spoločnosti rozhodnú udržiavať lokálne aj cloudové dátové jazerá súčasne. Táto situácia je pomerne zriedkavá a väčšinou viditeľná počas scenárov migrácie z on-premise do cloudu.

  • Dátové jazero s viacerými cloudovými systémami: V dátovom jazere s viacerými cloudovými systémami sa kombinujú dve alebo viac cloudových ponúk; napríklad podnik môže používať služby AWS aj Azure na správu a údržbu dátových jazier cloudu. To si vyžaduje väčšiu odbornosť, aby sa zabezpečila vzájomná komunikácia medzi týmito nesúrodými platformami.

Prvých šesť výhod cloudového dátového jazera

Prečo si vybrať cloudové dátové jazero? Premena údajov na aktíva podniku s vysokou hodnotou podporuje digitálnu transformáciu. Silné stránky cloudu v kombinácii s údajovým jazerom poskytujú tento základ. Cloudové dátové jazero umožňuje spoločnostiam aplikovať analýzy na historické údaje, ako aj nové zdroje údajov, ako sú protokolové súbory, toky kliknutí, sociálne médiá, zariadenia pripojené k internetu a ďalšie, pre použiteľné analýzy.

 

Tu sú niektoré z kľúčových výhod, ktoré by ste mali očakávať:

  1. Nákladová efektívnosť: Poskytovatelia cloudových úložísk ponúkajú mnoho možností ukladania a tvorby cien.
  2. Automatické škálovanie: Cloudové služby sú navrhnuté tak, aby poskytovali funkcie škálovania, ktoré umožňujú podnikom vypočítať a využiť kapacitu ukladacieho priestoru na požiadanie.
  3. Centrálne úložisko údajov: Cloudové dátové jazero spája informácie, ktoré slúžia ako jediný zdroj pravdy s riadeným prístupom k údajom, ktorý umožňuje efektivitu procesov medzi tímami.
  4. Zabezpečenie údajov: Poskytovatelia cloudového úložiska zaručujú bezpečnosť údajov prostredníctvom modelu zdieľanej zodpovednosti.
  5. Nástroje: Poskytovatelia cloudových úložísk a ďalší dodávatelia poskytujú nástroje ETL, ktoré prehľadávajú údaje, vytvárajú katalóg údajov a vykonávajú prípravu údajov, transformáciu údajov a príjem údajov, aby bolo možné vykonať dotaz na údaje.
  6. Vylepšená analýza pre nové prehľady a lepšie obchodné výsledky: Cloudové dátové jazero môže kombinovať údaje novými spôsobmi. Napríklad údaje CRM a analýzy sociálnych médií môžu poskytnúť nové informácie o príčine odlivu alebo ukázať, ktoré propagačné akcie zvyšujú lojalitu. Prostredníctvom analýzy údajov o IoT sa môže zlepšiť aj prevádzková efektívnosť.

Často kladené otázky týkajúce sa Data Lake

Preskúmajte niektoré z našich často kladených otázok o dátových jazerách nižšie a pozrite si náš slovník správy údajov, kde nájdete ďalšie definície.

Pojem „data lake“ sa vyvinul tak, aby odrážal koncepciu fluidného, väčšieho úložiska údajov – v porovnaní so silovitejším, presne definovaným a štruktúrovanejším dátovým martom.

 

Pred viac ako desiatimi rokmi, ako rástli zdroje údajov, sa dátové jazerá zmenili, aby sa riešila potreba ukladať petabajty nedefinovaných údajov na neskoršiu analýzu. Včasné dátové jazerá boli založené na súborovom systéme Hadoop (HDFS) a komoditnom hardvéri založenom v dátových centrách on-premise. Výzvy spojené s distribuovanou architektúrou a potrebou vlastnej transformácie a analýzy dát však prispeli k suboptimálnemu výkonu systémov založených na Hadoopse.

 

Technológie cloud computingu a ukladania dát sú dnes hlavným základom moderného dátového zásobníka – a cloudových dátových jazier.

Dátový sklad (DW) je digitálny úložný systém, ktorý spája a harmonizuje veľké množstvo štruktúrovaných a formátovaných dát z mnohých rôznych zdrojov. Naproti tomu dátové jazero ukladá údaje vo svojej pôvodnej forme – a nie je štruktúrované ani formátované.

Správa údajov je proces zhromažďovania, organizovania a prístupu k údajom na podporu produktivity, efektivity a rozhodovania.

Data Lakehouse pridáva možnosti správy údajov a skladu k možnostiam tradičného dátového jazera. Toto je nová a rozvíjajúca sa oblasť, ktorá sa rýchlo mení.

Multicloud je využitie viacerých služieb cloud computingu a skladovania v jedinej heterogénnej architektúre. Týka sa to distribúcie cloudových aktív, softvéru a aplikácií, napríklad v niekoľkých cloudových hostiteľských prostrediach.

Ukladací priestor súborov organizuje a reprezentuje údaje ako hierarchiu súborov v priečinkoch, blokuje ukladanie údajov do ľubovoľne usporiadaných zväzkov rovnomerného rozsahu a úložisko objektov spravuje údaje a prepája ich s priradenými metadátami. Systémy na ukladanie objektov umožňujú uchovanie obrovského množstva neštruktúrovaných údajov.

placeholder

Začíname s riešeniami Data Lake

Preskúmajte funkcie údajového jazera v rámci SAP HANA Cloud.

placeholder

Nápady nenájdete nikde inde

Zaregistrujte sa na dávku business intelligence doručenú priamo do vašej schránky.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel