Ce este un lac de date?

Un lac de date este un repository de date central care vă ajută să rezolvați problemele legate de silozul de date. 

Imagine generală lac de date

În esență, un lac de date este un depozit de informații. Lacurile de date sunt adesea confundate cu depozitele de date, dar ambele servesc nevoilor de afaceri diferite și au arhitecturi diferite. În special, lacurile de date cloud reprezintă o componentă vitală a unei strategii moderne de gestionare a datelor, pe măsură ce proliferarea datelor sociale, a datelor despre internetul obiectelor (IoT) și a datelor tranzacționale continuă să se accelereze. Capacitatea de a stoca, transforma și analiza orice tip de date deschide calea pentru noi oportunități de afaceri și transformare digitală – și aici se află rolul unui lac de date.

90

%

dintre instituțiile financiare consideră că inițiativele Big Data determină succesul viitor

64.2

Zettabytes de date digitale au fost creați în 2020

17.6

B $USD

valoarea estimată a pieței lacurilor de date până în 2026

Definiție lac de date

Un lac de date este un repository de date central care vă ajută să rezolvați problemele legate de silozul de date. Un lac de date stochează cantități mari de date brute în formatul său nativ sau original. Formatul respectiv ar putea fi structurat, nestructurat sau semistructurat. Lacurile de date, în special cele din cloud, sunt ieftine, ușor scalabile și adesea utilizate cu funcții analitice de învățare automată aplicate.

Lacul de date față de depozitul de date

Spre deosebire de un lac de date, un depozit de date oferă capacități de gestiune a datelor și arhivează date prelucrate și filtrate care sunt deja prelucrate pentru întrebări de afaceri sau cazuri de utilizare predefinite.

Diagrama unui depozit de date comparată cu un lac de date.

Depozitele de date și lacurile se completează adesea reciproc. De exemplu, atunci când datele brute stocate într-un lac de date sunt necesare pentru a răspunde la o întrebare de afaceri, acestea pot fi extrase, curățate, transformate și utilizate într-un depozit de date pentru analize ulterioare.

 

Un „depozit de date” este un concept nou și în evoluție, care adaugă capacități de gestionare a datelor pe lângă un lac de date tradițional. În esență, este combinația dintre un lac de date și un depozit de date.

 

Pe lângă tipul de date și diferențele din procesul menționat mai sus, iată câteva detalii care compară un lac de date cu o soluție de depozit de date.

Lac de date
Depozit de date
Date
Orice tip de date din orice sursă
Relațional sau structurat
Schemă
Schema-on-read (timp de analiză)
Schema-on-scriere (predefinit)
Costuri depozitare
Costuri mai mici – scara petabyte
Cost mai mare – scară de terabyte
Calitatea datelor
Date curatate sau necurățate
Date îngrijite
Utilizatori
Specialiști în date, dezvoltatori de date (care utilizează Python, de exemplu) și analiști de afaceri (utilizând SQL pentru date îngrijite)
Analiști de afaceri care utilizează SQL
Funcții analitice
Învățare automată, funcții analitice predictive, descoperire/profilare date
Raportare lot, BI, vizualizări

În cele din urmă, volumul de date, performanța bazei de date și prețul de stocare vor juca un rol important în alegerea soluției de stocare potrivite.

Elemente-cheie ale unei soluții a lacului de date

  • Deplasarea datelor: Lacurile de date permit importul oricărui tip de date din surse multiple în formatul său nativ. Acest lucru permite companiilor să se scaleze la dimensiunea datelor în funcție de necesități, fără a trebui să definească structuri de date, scheme și transformări, ceea ce poate duce la economii de costuri generale.

  • Stocare în siguranță și date din cataloage: lacul de date stochează date structurate, semi-structurate și nestructurate dintr-o varietate de surse, cum ar fi datele de afaceri de la software-ul CRM sau ERP, dispozitivele IoT, social media sau chiar datele istorice din sistemele preluate. Și lacurile de date vă permit să capturați loturi și streaming de date în timp ce aplicați guvernarea, securitatea și controlul. Datele pot fi interogate direct sau ingerate într-un depozit de date cu instrumentele potrivite.

  • Funcții analitice și învățare automată: Lacurile de date permit accesul bazat pe roluri la informații pentru a executa analize analitice și analize de învățare automată fără a fi nevoie să mutați datele într-o bază de date de funcții analitice separată. De asemenea, lacurile de date permit combinarea datelor istorice cu datele în timp real pentru a rafina modelele de învățare automată sau de funcții analitice predictive pentru a oferi rezultate mai bune și/sau noi.

Cum funcționează lacurile de date

Un lac de date modern are trei caracteristici principale:

  1. O zonă de aterizare pentru datele dvs. brute
  2. O zonă de staging în care datele sunt transformate ținând cont de un scop analitic
  3. O zonă de explorare a datelor în care datele sunt utilizate de funcții analitice, aplicații și pentru alimentarea modelelor de învățare automată

Din lacul de date, informațiile sunt transmise către o varietate de surse – precum funcții analitice sau alte aplicații de afaceri sau către instrumente de învățare automată pentru analiză suplimentară.

 

Un caz de utilizare lac de date

Iată două exemple de caz de utilizare a lacului de date în comerțul cu amănuntul.

 

Datele de vânzări pe termen lung sunt stocate într-un lac de date, alături de date nestructurate, cum ar fi fluxurile de clicuri de pe site-ul web, vreme, știri și date micro/macroeconomice. Având aceste date stocate împreună și accesibile, este mai ușor pentru un cercetător în domeniul datelor să combine aceste surse diferite de informații într-un model care va estima cererea pentru un anumit produs sau o anumită linie de produse. Aceste informații sunt apoi utilizate ca intrări în sistemul ERP de vânzare cu amănuntul pentru a genera planuri de producție crescute sau reduse.

 

În paralel, un expert în marketing poate accesa același lac de date și se poate uita la o analiză a sentimentelor legate de interacțiunea site-ului web și social media cu știri, macroeconomice și date privind istoricul vânzărilor pentru a determina ce produse să se concentreze și cum să maximizeze vânzările, profitul și/sau adoptarea.

Tipuri de lacuri de date

Lacurile de date pot locui în locații, în cloud, într-un hibrid al ambelor și în cadrul mai multor hiperscări cloud, precum Amazon Web Services (AWS), Microsoft Azure sau Google Cloud.

 

De departe, cel mai popular tip de lac de date este un lac de date de nori. Un lac de date cloud oferă toate caracteristicile obișnuite ale lacului de date, dar într-un serviciu cloud gestionat complet.

  • Lacul de date on-premise: Cu un lac de date on-premise, resursele de inginerie IT interne gestionează hardware-ul, software-ul și procesele. Această abordare are un angajament mai mare privind cheltuielile de capital (CAPEX), iar datele tind să fie ignorate.

  • Lacul de date cloud: Într-un lac de date cloud, infrastructura locală este externalizată. Există un angajament mai mare privind cheltuielile operaționale (OPEX), dar această abordare de implementare permite întreprinderilor să se extindă mai ușor, împreună cu multe alte beneficii (a se vedea mai jos).

  • Lacul de date hibrid: în anumite cazuri, unele companii aleg să întrețină atât lacurile de date locale, cât și lacurile de date în cloud simultan. Această situație este destul de rară și mai ales văzută în timpul scenariilor de migrare de la on-premise la cloud.

  • Lacul de date multi-cloud: într-un lac de date multi-cloud, sunt combinate două sau mai multe oferte cloud; de exemplu, o companie poate utiliza atât AWS, cât și Azure pentru a gestiona și întreține lacurile de date cloud. Acest lucru necesită o mai mare expertiză pentru a se asigura că aceste platforme disparate comunică între ele.

Primele șase beneficii ale unui lac de date în cloud

De ce să alegeți un lac de date cloud? Transformarea datelor într-un activ de afaceri cu valoare ridicată determină transformarea digitală. Punctele forte ale norului combinate cu un lac de date oferă această infrastructură. Un lac de date cloud permite companiilor să aplice funcții analitice datelor istorice, precum și noi surse de date, precum fișiere de jurnal, fluxuri de clicuri, social media, dispozitive conectate la internet și multe altele, pentru analize care pot fi utilizate.

 

Iată câteva dintre beneficiile cheie pe care ar trebui să le așteptați:

  1. Eficiența costurilor: Furnizorii de stocare în cloud oferă multe opțiuni de stocare și stabilire a prețurilor.
  2. Scalare automată: Serviciile cloud sunt concepute pentru a oferi o funcționalitate de scalare pentru a permite companiilor să calculeze și să atingă capacitatea de stocare la cerere.
  3. Depozit central de date: un lac de date în cloud reunește informații, servind ca o sursă unică de adevăr cu acces la date guvernate care permite eficiența proceselor în rândul echipelor.
  4. Securitatea datelor: Furnizorii de stocare cloud garantează securitatea datelor printr-un model de responsabilitate partajată.
  5. Instrumente: Furnizorii de stocare în cloud și alți furnizori furnizează instrumente ETL care accesează cu crawlere datele, creează un catalog de date și efectuează pregătirea datelor, transformarea datelor și ingestia de date pentru a face interogarea datelor posibilă.
  6. Funcții analitice îmbunătățite pentru analize noi și rezultate comerciale mai bune: un lac de date în cloud poate combina datele în moduri noi. De exemplu, datele CRM și funcțiile analitice de social media pot oferi noi informații despre cauza abandonului sau pot arăta ce promoții sporesc loialitatea. De asemenea, eficiența operațională poate fi îmbunătățită prin analiza datelor IoT.

Întrebări frecvente despre lacul de date

Explorați câteva dintre întrebările noastre frecvente despre lacurile de date de mai jos și revizuiți glosarul nostru de gestionare a datelor pentru mai multe definiții.

Termenul „lac de date” a evoluat pentru a reflecta conceptul de depozit de date fluid, mai mare – în comparație cu un mart de date mai siloz, bine definit și structurat, în mod specific.

 

Cu mai mult de un deceniu în urmă, pe măsură ce sursele de date au crescut, lacurile de date s-au schimbat pentru a aborda necesitatea de a stoca petabytes de date nedefinite pentru analize ulterioare. Primele lacuri de date s-au bazat pe sistemul de fișiere Hadoop (HDFS) și pe hardware-ul de produse bazat pe centrele de date on-premise. Cu toate acestea, provocările inerente cu o arhitectură distribuită și nevoia de transformare și analiză personalizată a datelor au contribuit la performanța suboptimă a sistemelor bazate pe Hadop.

 

Tehnologiile de cloud computing și de stocare a datelor sunt acum principala bază pentru stiva modernă de date – și pentru lacurile de date cloud.

Un depozit de date (DW) este un sistem de stocare digital care conectează și armonizează cantități mari de date structurate și formatate din mai multe surse diferite. În schimb, un lac de date arhivează datele în forma sa originală – și nu este structurat sau formatat.

Gestiunea datelor este procesul de colectare, organizare și accesare a datelor pentru a sprijini productivitatea, eficiența și luarea deciziilor.

Un depozit de date adaugă capacități de gestiune a datelor și de depozit, pe lângă capacitățile unui lac de date tradițional. Acesta este un domeniu nou și în evoluție, care se schimbă rapid.

Multicloud este utilizarea mai multor servicii de cloud computing și stocare într-o singură arhitectură eterogenă. Aceasta se referă la distribuția de active cloud, software și aplicații, de exemplu, în mai multe medii de găzduire cloud.

Stocarea fișierelor organizează și reprezintă datele ca o ierarhie de fișiere în foldere; blochează datele bucăților de stocare în volume organizate arbitrar, cu dimensiuni egale; iar stocarea obiectelor gestionează datele și le leagă la metadatele asociate. Sistemele de stocare a obiectelor permit păstrarea unor cantități masive de date nestructurate.

placeholder

Începeți cu soluțiile de lacuri de date

Explorați capacitățile lacului de date din SAP HANA Cloud.

placeholder

Idei pe care nu le vei găsi nicăieri altundeva

Înregistrați-vă pentru o doză de business intelligence livrată direct în căsuța dvs. de mesaje primite.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel