media-blend
text-black

Impiegati d'ufficio che esaminano grafici su uno schermo interattivo durante una riunione

Data lake e data warehouse

I data lake permettono di archiviare i dati grezzi nel loro formato nativo, indipendentemente da come si presentano. I data warehouse permettono di archiviare dati che sono stati ripuliti e strutturati secondo criteri predefiniti.

default

{}

default

{}

primary

default

{}

secondary

Introduzione ai data lake e ai data warehouse

I data lake e i data warehouse sono sistemi che permettono di archiviare, gestire e recuperare grandi volumi di dati digitali. Le aziende raccolgono i dati per ottenere insight su attività operative, clienti, mercati e supply chain, in modo da poter intervenire in modo più strategico.

I data warehouse si sono affermati come soluzione per abbattere i silos di dati e raccogliere la sfida dei dati aziendali sparsi in molteplici sistemi, formati e reparti.

La natura eterogenea di questi dati ha reso difficile per gli utenti accedervi, integrarli e analizzarli al fine di individuare dinamiche, prevedere la domanda o valutare le performance aziendali. I data warehouse sono stati sviluppati per consolidare questi dati in un repository centralizzato, in cui i dati potessero essere integrati, ripuliti e strutturati per l'analisi. Questo approccio ha istituito una "fonte unica di informazioni attendibili" a supporto dei processi di compliance, monitoraggio delle prestazioni e business intelligence.

I data lake, dal canto loro, sono emersi come soluzione ai limiti dei data warehouse, che si sono rivelati incapaci di gestire adeguatamente l'esplosione dei dati non strutturati e semi-strutturati generati da nuove fonti come i social media, i dispositivi IoT, i sensori, le mobile app, ecc. La memorizzazione e l'elaborazione di quantità smisurate di dati eterogenei, quali immagini, video e testo, sono risultate troppo onerose e inefficienti, poiché i data warehouse tradizionali richiedevano inizialmente che prima dell'archiviazione i dati venissero puliti ed elaborati.

Le aziende avevano bisogno di un metodo più flessibile e conveniente per archiviare i dati nel loro formato grezzo, originale, e la soluzione è giunta con la creazione dei data lake.

Oggi molte imprese evolute adottano un approccio ibrido che, chiamando in causa sia i data warehouse che i data lake, ha preso il nome di "data lakehouse". Questa architettura assicura da un lato le capacità di rendicontazione rapida e strutturata del primo sistema, e dall'altro le potenzialità per le applicazioni di AI e machine learning del secondo.

Data lake e data warehouse: le differenze chiave

La differenza chiave tra il data lake e il data warehouse risiede nel tipo di dati che i due sistemi archiviano e nel modo in cui lo fanno, entrambi aspetti cruciali nella strategia di dati di una organizzazione.

I data warehouse archiviano dati strutturati che sono stati ripuliti ed elaborati secondo una struttura predefinita, detta "schema". Poiché lo schema viene applicato prima che i dati vengano archiviati, l'approccio ha preso il nome di "schema in scrittura".

Uno schema, per esempio, potrebbe imporre che i dati dell'ID cliente siano un numero intero, che i dati della data dell'ordine siano in formato AAAA-MM-GG e che i dati dell'importo totale di vendita siano in formato decimale. Dal momento che tutti i dati rispettano queste regole, gli utenti possono interrogare il sistema in modo rapido e affidabile con domande come "trova le vendite totali per cliente nell'aprile 2025". Per via di questa rapidità e precisione, i data warehouse si configurano come soluzioni ideali per la rendicontazione, i cruscotti e i casi d'uso di business intelligence.

Nei data lake, invece, è possibile archiviare dati grezzi nel loro formato originale indipendentemente da come sono strutturati. Nessuno schema predefinito è richiesto preventivamente.

Lo schema trova una definizione solo nel momento in cui i dati vengono interrogati, motivo per cui questo approccio è noto come "schema in lettura". Solo a quel punto i dati grezzi vengono analizzati sintatticamente, strutturati e interpretati in base alla query.

In sintesi, i data warehouse applicano uno schema prima dell'archiviazione dei dati per garantire che siano tutti strutturati e ripuliti per l'utilizzo. I data lake applicano invece lo schema nel momento in cui i dati vengono interrogati e permettono di archiviare fin dall'inizio qualsiasi dato, sia esso strutturato o meno.

Differenze tra data lake e data warehouse

Data lake
Data warehouse
Tipo di dati
Memorizza dati strutturati, semi-strutturati e non strutturati (ad es. registri, video, testo).
Memorizza solo i dati strutturati (ad es. transazioni di vendita, dati finanziari).
Schema
Schema in lettura: lo schema viene applicato ai dati nel momento in cui vengono interrogati.
Schema in scrittura: lo schema viene applicato ai dati prima che vengano archiviati.
Utenti
Data scientist, ingegneri e analisti che studiano meccanismi, modelli di addestramento o eseguono workflow di machine learning.
Analisti aziendali, dirigenti e team operativi che generano report e KPI.
Scopo
Archiviazione flessibile per grandi volumi di dati grezzi ed eterogenei utilizzati a fini di esplorazione di dati, AI e machine learning.
Repository centralizzato per dati strutturati ed elaborati utilizzati a fini di rendicontazione, cruscotti e business intelligence.
Costi
Archiviazione a oggetti a costi contenuti
Costi di archiviazione ed elaborazione più elevati a causa della pre-elaborazione e dell'ottimizzazione.

Come scegliere tra data lake e data warehouse

Per la loro capacità di archiviare i dati grezzi di qualsiasi formato, i data lake sono ideali per le aziende che necessitano di flessibilità. Gli operatori del retail, per esempio, raccolgono quantità imponenti di dati da molteplici fonti, quali siti Web, mobile app, social media, sistemi presso i punti vendita e altro. Non avendo necessità di ripulire, trasformare o strutturare i dati così raccolti, queste imprese sono libere di adottare i sistemi di archiviazione più accessibili economicamente e facilmente scalabili. Quando poi si passa all'interrogazione, tuttavia, il costo dell'elaborazione dei dati grezzi può essere maggiore rispetto alle query ottimizzate di un data warehouse.

Dal confronto emergono costi più elevati per i data warehouse. Per poter funzionare, i processi di pulizia, trasformazione e strutturazione prima del caricamento (oltre all'indicizzazione e al partizionamento dopo il caricamento) richiedono risorse e spazio di archiviazione aggiuntivi. Tuttavia, questa ottimizzazione si traduce in dati pronti all'uso per scopi di business intelligence, rendicontazione e analisi operativa. Con i data warehouse, gli analisti e i dirigenti possono generare report, monitorare i KPI e prendere decisioni informate in modo rapido e semplice.

È bene sottolineare come i data lake aprano nuove opportunità per le applicazioni di AI e machine learning. I vasti e diversificati set di dati che essi ospitano permettono ai data scientist di individuare tendenze, creare modelli predittivi ed eseguire applicazioni di machine learning. Il risultato può prendere la forma, per esempio, di sistemi di raccomandazione che suggeriscono prodotti agli utenti sulla base di interazioni passate, oppure di strumenti di elaborazione del linguaggio naturale che conducono analisi del sentiment sulle recensioni dei clienti o i sui commenti sui social media.

Oggi, molte aziende avanzate adottano architetture di dati che sono essenzialmente combinazioni di entrambi i sistemi. Questi data lakehouse puntano ad assicurare la flessibilità del data lake con la governance e le prestazioni del data warehouse. Sebbene la loro adozione sia in rapida crescita, molte aziende si affidano ancora ai tradizionali warehouse per la rendicontazione più importante.

Esempi e casi d'uso reali

Di seguito riportiamo alcuni esempi di come nei diversi settori industriali vengono utilizzati i data lake, i data warehouse o una combinazione di elementi dell'uno e dell'altro sistema in risposta a esigenze specifiche.

Assistenza sanitaria: gli ospedali utilizzano spesso un'architettura di data lake per archiviare, gestire e analizzare le grandi quantità e i vari tipi di dati generati dalle loro operazioni. Si va dai dati non strutturati dei dispositivi indossabili alle immagini mediche, dai dati semi-strutturati dei pazienti in formato HL7 ai risultati strutturati degli esami di laboratorio. Consolidando il tutto in un repository centrale, possono applicare analisi avanzate e AI ai dati grezzi per identificare, per esempio, i pazienti a rischio o analizzare la genomica in vista di piani terapeutici personalizzati. Con i dispositivi indossabili “smart” di cui ora vengono dotati i pazienti per trasmettere in streaming i dati sui segni vitali, gli operatori sanitari possono persino rilevare i segni di preallarme e intervenire più rapidamente.

Finance: le banche e gli altri istituti finanziari devono aderire a norme antiriciclaggio e a rigidi regolamenti di informativa finanziaria (come il Sarbanes-Oxley negli Stati Uniti o Basilea III a livello internazionale). Utilizzando i data warehouse per archiviare dati finanziari strutturati provenienti da più sistemi, inclusi record di transazioni, saldi contabili e dati di trading, possono generare report normativi che soddisfano i requisiti di governance e sicurezza. Oltre alla compliance, gli istituti finanziari utilizzano i data warehouse anche per rafforzare la business intelligence, gestire i rischi e rilevare le frodi eseguendo query complesse su set di dati storici e attuali.

Media: i servizi di streaming video seguono un approccio di data lakehouse per raccogliere, archiviare e analizzare i dati degli utenti e proporre esperienze personalizzate. Acquisiscono tipi di dati di varia natura da più fonti, come i registri di streaming e il feedback sui social media, e li memorizzano in un repository centrale. Questi dati possono quindi essere utilizzati per creare modelli di machine learning che suggeriscono i contenuti più pertinenti. Gli stessi dati possono anche essere curati e strutturati in sottoinsiemi per scopi di analisi o rendicontazione, alimentando cruscotti sulle percentuali di retention o informando le decisioni sulle acquisizioni di contenuti.

Tendenze emergenti nelle piattaforme di dati

I data lakehouse si stanno rapidamente affermando come opzione preferenziale per le aziende che puntano a massimizzare il valore dei propri dati. Su una stessa piattaforma possono supportare casi d'uso sia di business intelligence che di AI e machine learning. Occorre tuttavia rimarcare che si tratta di sistemi ancora in evoluzione, e che per la rendicontazione mission-critical alcune aziende continuano a fare affidamento sui data warehouse tradizionali.

Le potenzialità dell'AI come motore di produttività ed efficienza hanno particolarmente influenzato le architetture di dati, al punto che alcune piattaforme emergenti di data lake e data lakehouse ora sono integrate con gli LLM. Questo permette agli utenti non tecnici di esplorare e analizzare i dati formulando query in linguaggio normale. L'utente, per esempio, può chiedere "mostrami le tendenze di vendita nel T2" e il modello LLM può generare SQL che il sistema è in grado di comprendere. L'accesso agli insight basati sui dati viene così democratizzato.

Anche le architetture serverless stanno emergendo come soluzione strategica per cui le aziende si affidano a un provider di servizi cloud per gestire la propria infrastruttura di dati. Con questo assetto, l'azienda paga per poter accedere a una piattaforma di dati anziché configurare e gestire la propria. I benefici di questo sistema sono una più facile scalabilità e l'efficienza in termini di costi. Il cloud provider offre maggiore libertà di manovra in caso di picchi di volumi di dati o nel caricamento di query e l'azienda paga solo ciò che utilizza. In questo modo, gli sviluppatori possono velocizzare la distribuzione, non dovendo fare i conti con vincoli infrastrutturali.

Ci sono anche aziende che optano per una strategia multi-cloud, ossia distribuiscono i propri data lake e data warehouse su più servizi cloud. Il principale vantaggio in questo caso è la resilienza in termini di ridondanza. Se un cloud si scollega, l'azienda può continuare a funzionare su un altro. La stessa azienda può anche decidere di ottimizzare specifici workflow su determinati cloud, per esempio se un servizio è specializzato in machine learning. In alcuni settori o paesi, i dati sensibili devono essere obbligatoriamente archiviati in una regione o in un provider di servizi cloud che soddisfi i requisiti di conformità locali.

Per connettere, gestire e governare i dati in molteplici ambienti cloud, le aziende possono implementare architetture di data fabric. Queste forniscono accesso in tempo reale ai dati di applicazioni e sistemi distinti ma sincronizzati, creando una vista unificata sull'intera l'infrastruttura.

Per proteggere dati sensibili come cartelle cliniche, numeri di previdenza sociale e codici sorgente, le organizzazioni stanno anche adottando policy come i controlli di accesso zero-trust per le loro piattaforme di dati. Tali controlli impongono a tutti gli utenti di verificare la propria identità per accedere ai dati di cui hanno bisogno.

FAQ

Cos'è un data lake?
Il data lake è un sistema di archiviazione studiato per ospitare grandi volumi di dati grezzi nel formato originale, quali numeri, testo, immagini, video o registri. Si pensi a un gigantesco “serbatoio digitale” in cui tutti i tipi di informazioni possono confluire senza essere organizzati immediatamente.

I data lake sono utili per i data scientist che desiderano addestrare modelli di machine learning con cui alimentare i sistemi di suggerimenti di contenuti.
Cos'è il data warehouse?

Il data warehouse è un sistema di archiviazione progettato principalmente per ospitare grandi volumi di dati strutturati. I dati strutturati vengono ripuliti, organizzati e formattati in un determinato modo. (Si pensi alle righe e alle colonne definite di un foglio di calcolo). I data warehouse più evoluti possono anche gestire alcuni formati semi-strutturati come JSON o XML.

Le aziende utilizzano i data warehouse per rispondere rapidamente alle domande, generare report e tenere traccia delle metriche prestazionali chiave. Queste funzioni sono categorizzate come business intelligence.

Cos'è il data lakehouse?
Il data lakehouse è una piattaforma di dati avanzata che condensa il meglio dei data lake e dei data warehouse. Può memorizzare tutti i tipi di dati (grezzi, non strutturati o semi-strutturati) senza doverli prima organizzare. All'occorrenza, consente operazioni veloci e strutturate di analisi e rendicontazione.
Cos'è lo schema? Che differenza c'è tra schema in lettura e schema in scrittura?

Gli schemi sono regole per l'organizzazione dei dati, riguardanti per esempio il tipo di dati che possono essere archiviati (numeri, date), la loro disposizione (tabelle e colonne) e il modo in cui le informazioni si relazionano tra loro.

Lo schema in scrittura è il sistema per cui, prima di essere archiviati, i dati devono rientrare in una struttura predefinita (schema). È il principio di funzionamento dei data warehouse, ossia garantiscono che i dati siano ripuliti e pronti per l'analisi in anticipo.

Lo schema in lettura è il sistema per cui la struttura viene applicata solo quando l'utente desidera utilizzare o analizzare i dati. È il principio di funzionamento dei data lake. Permettono una maggiore flessibilità poiché i dati possono essere archiviati inizialmente in qualsiasi forma e non si è obbligati a organizzarli immediatamente. Tuttavia, il rovescio della medaglia di questo approccio consiste in tempi di query più lenti e nel rischio di incoerenza, poiché utenti diversi potrebbero interpretare gli stessi dati grezzi in modo diverso.

Al contrario, lo schema in scrittura impone anticipatamente un meccanismo di coerenza, ma riduce la flessibilità.

Che differenza c'è tra dati strutturati, non strutturati e semi-strutturati?

I dati strutturati, come possono essere i nominativi dei clienti, le cifre di vendita e le date, sono altamente organizzati, facili da consultare e di norma possono essere archiviati in tabelle.

I dati non strutturati, come i video, le immagini, i file audio e i post sui social media, non hanno un formato fisso e sono più difficili da organizzare.

I dati semi-strutturati si trovano nel mezzo. Presentano una parziale organizzazione, ma non così rigida come le tabelle. Si pensi ai file JSON, ai documenti XML o alle e-mail.

Logo SAP

Massimizza il valore dei tuoi dati

Metti tutto insieme con SAP Business Data Cloud.

Scopri tutti i dettagli