Cos'è un data lake?
In sostanza, il data lake è un archivio di informazioni. Nonostante vengano spesso confusi, data lake e data warehouse sono due sistemi distinti, che rispondono a esigenze aziendali diverse e hanno architetture differenti. In particolare, i data lake in cloud sono una componente imprescindibile in una moderna strategia di gestione dati, in risposta alla proliferazione continua dei dati provenienti dai social media, dalle macchine collegate alle reti IoT (Internet of Things ) e dalle transazioni. La capacità di archiviare, trasformare e analizzare dati di qualsiasi tipo apre la strada a nuove opportunità di business e alla trasformazione digitale – ed è proprio qui che entra in gioco il ruolo del data lake.
90
%
degli istituti finanziari ritiene che le iniziative di Big Data siano decisive ai fini del successo futuro
64,2
zettabyte di dati digitali creati nel 2020
17,6
miliardi di dollari è il valore stimato del mercato dei data lake entro il 2026
Definizione di data lake
Il data lake è un repository di dati centralizzato che offre una risposta ai problemi dei silos di dati. È importante sottolineare che il data lake archivia grandi quantità di dati grezzi in formato nativo, oppure originale. Tale formato potrebbe essere strutturato, non strutturato o semi-strutturato. I data lake, specie se residenti in cloud, sono soluzioni a un costo contenuto, facilmente scalabili e spesso aperte all'analisi del machine learning.
Data lake e data warehouse
A differenza del data lake, il data warehouse offre funzionalità di gestione dei dati e permette di archiviare dati elaborati e filtrati già trattati per domande di business o casi di utilizzo predefiniti.
Schema di confronto tra data warehouse e data lake.
Data warehouse e data lake sono spesso complementari tra loro. Per esempio, quando per rispondere a una domanda aziendale sono necessari i dati grezzi archiviati in un data lake, questi possono essere estratti, puliti, trasformati e utilizzati nel data warehouse per un'ulteriore analisi.
Il “data lakehouse” è un concetto nuovo, in evoluzione, che consiste nell'integrazione delle capacità di gestione dati in un data lake tradizionale. Si tratta in sostanza della combinazione tra un data lake e un data warehouse.
Oltre al tipo di dati e alle differenze di processo indicate sopra, di seguito è riportato un confronto dettagliato tra il data lake e una soluzione di data warehouse.
In ultima battuta saranno il volume dei dati, le prestazioni del database e il prezzo dello storage a svolgere un ruolo decisivo nella scelta della corretta soluzione di archiviazione.
Gli elementi chiave in una soluzione di data lake
- Movimentazione dati: i data lake consentono l'importazione di qualsiasi tipo di dati da più fonti nel loro formato nativo. Ciò consente alle aziende di dimensionare i volumi di dati secondo necessità, senza dover definire strutture, schemi e trasformazioni di dati, con conseguenti possibili risparmi sui costi generali.
- Archivia e cataloga i dati in modo sicuro: nel data lake vengono archiviati dati strutturati, semi-strutturati e non strutturati provenienti da una varietà di fonti come i dati aziendali generati da software CRM o ERP, dispositivi IoT, social media o persino dati storici di sistemi preesistenti. I data lake permettono inoltre di acquisire dati in batch e in streaming nel rispetto di criteri di governance, sicurezza e controllo. I dati possono essere interrogati direttamente o inseriti in un data warehouse con gli strumenti opportuni.
- Analisi e machine learning: i data lake consentono un accesso alle informazioni basato sui ruoli per eseguire analisi, anche supportate dal machine learning, senza dover trasferire i dati in un apposito database. In aggiunta, i data lake permettono di unire i dati storici con i dati in tempo reale per perfezionare i modelli di machine learning o di analisi predittiva allo scopo di migliorare i risultati e/generarne di nuovi.
Come funzionano i data lake
Sono tre le caratteristiche principali di un moderno data lake:
- Un'area di destinazione per i dati grezzi
- Un'area di staging in cui i dati vengono trasformati secondo una finalità analitica
- Un'area di esplorazione in cui i dati vengono messi a disposizione di analisi e applicazioni e utilizzati per alimentare modelli di machine learning
Le informazioni contenute nel data lake vanno quindi ad alimentare una varietà di fonti, tra cui funzioni di analisi o altre applicazioni gestionali, oppure strumenti di machine learning per un approfondimento dell'analisi.
Casi di utilizzo di data lake
In questa sezione proponiamo a titolo di esempio un paio di casi di utilizzo di data lake nel settore del retail.
I dati di vendita del lungo periodo vengono archiviati in un data lake assieme a dati non strutturati come i clickstream dei siti web, meteo, news e dati micro/macroeconomici. La possibilità di accedere a questi dati conservati in uno stesso ambiente facilita l'opera del data scientist che può associare queste diverse fonti di informazioni in un modello capace di prevedere la domanda di un prodotto o di una linea di prodotti specifici. Queste informazioni verranno quindi utilizzate come input per il sistema ERP di gestione del retail per orientare i piani di produzione nel senso dell'aumento o della riduzione.
Parallelamente, l'esperto di marketing potrà accedere allo stesso data lake per formulare un'analisi delle opinioni sul sito Web e del coinvolgimento dei social media rispetto a news, dati macroeconomici e storico delle vendite al fine di isolare i prodotti sui quali puntare e delineare una strategia per massimizzare le vendite, gli utili e/o l'adozione.
Tipi di data lake
I data lake possono risiedere on-premise, nel cloud, in un ibrido di entrambi i sistemi, o essere distribuiti su più hyperscaler del cloud come Amazon Web Services (AWS), Microsoft Azure o Google Cloud.
Il tipo di data lake di gran lunga più diffuso è quello implementato in cloud. Il data lake in cloud assicura tutte le consuete funzionalità del data lake, in un servizio cloud completamente gestito.
- Data lake on-premise: in un data lake presente fisicamente in azienda, la gestione dei componenti hardware e software e dei processi è affidata alle risorse interne di progettazione IT. È un approccio che comporta un maggiore impegno in termini di spese in conto capitale (CAPEX) e induce alla compartimentazione dei dati.
- Data lake in cloud: in un data lake in cloud, l'infrastruttura on-premise viene esternalizzata. Se da un lato cresce l'impegno a livello di spese operative (OPEX), dall'altro con questo approccio alla distribuzione le imprese godono di maggiore scalabilità, unitamente a numerosi altri vantaggi (si veda più avanti).
- Data lake ibrido: in alcuni casi le aziende scelgono di operare contemporaneamente con data lake on-premise e in cloud. È una situazione piuttosto rara, che si verifica più che altro nelle fasi di migrazione dalla versione on-premise al cloud.
- Data lake multi-cloud: in un data lake multi-cloud vengono associate due o più offerte cloud; un'azienda, per esempio, può utilizzare sia AWS che Azure per gestire e mantenere i data lake in cloud. Occorre in tal caso una certa competenza specialistica per fare in modo che queste piattaforme diverse comunichino tra loro.
I sei principali vantaggi del data lake in cloud
Perché scegliere un data lake in cloud? Il motore della trasformazione digitale sta nella capacità di convertire i dati in un asset di business ad elevato valore. Tutto questo è possibile coniugando i punti di forza del cloud con le prerogative del data lake. Il data lake in cloud permette infatti alle imprese di applicare analisi tanto ai dati storici quanto a nuove origini dati, quali file di registro, clickstream, social media, dispositivi connessi a Internet e altro ancora, per ottenere insight su cui agire.
Ecco alcuni dei principali vantaggi di cui potrai usufruire:
- Efficienza in termini di costi: i provider di archiviazione in cloud offrono molteplici opzioni di storage e altrettante proposte di prezzo.
- Scalabilità automatica: i servizi cloud sono progettati per fornire funzionalità scalabili che consentono alle aziende di attingere on demand alla potenza di calcolo e allo spazio di archiviazione.
- Repository di dati centralizzato: essendo l'archivio in cui confluiscono tutti i dati, il data lake diventa la fonte unica di informazioni attendibili a cui i team accedono secondo criteri di governance per assicurare efficienza dei processi.
- Sicurezza dei dati: i provider di storage in cloud garantiscono la sicurezza dei dati tramite un modello di responsabilità condivisa.
- Strumenti: i provider di storage in cloud e altri vendor forniscono strumenti ETL con cui estrarre i dati, inserirli in un catalogo e sottoporli alle necessarie fasi di preparazione, trasformazione e inserimento per poter essere interrogati con query.
- Analisi avanzata per nuovi insight e migliori risultati di business: il data lake in cloud può creare combinazioni di dati inedite. Unendo per esempio i dati del CRM con l'analisi dei social media si possono ottenere approfondimenti sui motivi dell'abbandono dei clienti, o riconoscere le promozioni che aumentano la fidelizzazione. La stessa efficienza operativa può essere migliorata tramite l'analisi dei dati IoT.
Parti subito con le soluzioni di data lake
Esplora le funzionalità dei data lake in SAP HANA Cloud.
Altri capitoli della serie
Domande frequenti sui data lake
Passa in rassegna le domande e risposte sui data lake in questa sezione e consulta il nostro glossario di gestione dati per ulteriori definizioni.
Il termine "data lake" è stato introdotto per esprimere al meglio il concetto di un archivio di dati fluido e più ampio rispetto, per esempio, a uno spazio più compartimentato, ben definito e strutturato come quello del data mart.
Più di dieci anni fa, a fronte della crescita delle fonti di dati, i data lake hanno subito un'evoluzione per rispondere alla necessità di archiviare petabyte di dati non definiti destinati alle analisi successive. I primi data lake erano basati sul file system Hadoop (HDFS) e su sistemi hardware di largo consumo installati nei data center on-premise. Tuttavia, le criticità inerenti a un'architettura distribuita e l'esigenza di una trasformazione dei dati personalizzati ai fini dell'analisi rendevano tutt'altro che ottimali le prestazioni dei sistemi basati su Hadoop.
Il cloud computing e le tecnologie di storage dei dati rappresentano ora le fondamenta principali su cui poggiano i moderni stack di dati – e i data lake in cloud.
Il data warehouse (DW) è un sistema di archiviazione digitale che mette in collegamento e armonizza consistenti quantità di dati strutturati e formattati provenienti da molteplici fonti di vario tipo. Il data lake, invece, archivia i dati nel loro formato originale – ossia non strutturato né formattato.
La gestione dati è il processo di raccolta, organizzazione e accesso ai dati a supporto della produttività, dell'efficienza e del processo decisionale.
Il data lakehouse è come un normale data lake a cui si aggiungono funzionalità di gestione dati e warehousing. Si tratta di un settore nuovo, in piena e rapida evoluzione.
Il multicloud è l'utilizzo di più servizi di cloud computing e storage in un'unica architettura eterogenea. Riguarda in particolare la distribuzione di asset, software e applicazioni cloud in ambienti diversi di cloud hosting.
L'archiviazione file organizza e rappresenta i dati sotto forma di gerarchia di file contenuti in cartelle; se il sistema a blocchi suddivide i dati in porzioni organizzate arbitrariamente e di dimensioni omogenee, l'archiviazione a oggetti, invece, gestisce i dati e li collega ai metadati associati. I sistemi di archiviazione a oggetti consentono la conservazione di quantità imponenti di dati non strutturati.
SAP Insights Newsletter
Abbonati subito
Acquisisci informazioni approfondite iscrivendoti alla nostra newsletter.