flex-height
text-black

Server room in un data center

Cos'è il data warehouse?

Il data warehouse (DW) è un sistema di archiviazione digitale che mette in collegamento e armonizza consistenti quantità di dati provenienti da molteplici fonti di vario tipo.

default

{}

default

{}

primary

default

{}

secondary

Panoramica del data warehouse

Il data warehouse (DW) è un repository centralizzato che raccoglie, integra e memorizza grandi volumi di dati attuali e storici provenienti da molteplici fonti. Supporta la business intelligence (BI), la rendicontazione e gli analytics avanzati mettendo a disposizione una fonte unica e coerente di dati certi. Consolidando e standardizzando i dati, le organizzazioni possono generare insight affidabili, soddisfare i requisiti normativi e assumere decisioni informate e basate sui dati.

I dati confluiscono generalmente in un data warehouse da sistemi operativi (come l'ERP e il CRM), database interni e fonti esterne quali piattaforme di partner, dispositivi IoT, feed del meteo e social media. Con il cloud computing giunto a maturità, lo storage dei dati si è spostato dai tradizionali ambienti on-premise ad architetture cloud flessibili multi-cloud e ibride.

I moderni data warehouse sono progettati per gestire sia i dati strutturati che quelli non strutturati, quali video, immagini e stream di sensori. Spesso incorporano analytics integrati ed elaborazione in-memory per consentire query più rapide, accesso ai dati in tempo reale e workflow di rendicontazione e BI più efficienti. Senza un data warehouse, le organizzazioni faticano a mettere insieme fonti di dati eterogenee, a preparare correttamente i dati per gli analytics e a mantenere la visibilità su tutti i set di dati.

I vantaggi del data warehousing

Un data warehouse ben strutturato è la colonna portante del corretto funzionamento di business intelligence, rendicontazione e analytics. Consolidando i dati in un'unica fonte di informazioni certe, accelera gli insight per un processo decisionale migliore e più sicuro in ogni area dell'azienda. Questi i vantaggi principali:

Quali tipi di dati possono essere memorizzati in un data warehouse?

I data warehouse comparsi per la prima volta alla fine degli anni '80 erano stati creati per archiviare dati strutturati, ossia informazioni ben organizzate come dati dei clienti, elenchi di prodotti e record di transazioni. Con l'espansione delle esigenze di business, le aziende si sono trovate nella necessità di operare anche con dati non strutturati, quali documenti, immagini, video, e-mail, post sui social media e output di sensori installati su macchine e dispositivi IoT.

I moderni data warehouse possono trattare dati sia strutturati che non strutturati, mettendoli insieme per offrire alle aziende una visione più completa e integrata da cui trarre insight più validi.

Concetti chiave e confronti

Sono molti i concetti da imparare dal mondo del data warehousing e in questa sezione ci soffermeremo su quelli più importanti. Potrai trovare ulteriori definizioni e domande frequenti nel nostro glossario.

Data warehouse e database

Database e data warehouse servono entrambi ad archiviare i dati, ma per scopi diversi. Il database gestisce informazioni in tempo reale per una specifica area di business, mentre il data warehouse riunisce dati attuali e storici provenienti dall'intera l'organizzazione a supporto della rendicontazione e degli analytics. Il data warehouse funziona con la stessa tecnologia del database, ma in più utilizza strumenti per l'integrazione, la modellazione e la gestione dei dati nel tempo.

I database presiedono al funzionamento dell'operatività giornaliera elaborando le transazioni e aggiornando rapidamente i record. I data warehouse supportano gli analytics, permettendo ai team di individuare le tendenze, confrontare le performance e assumere decisioni strategiche.

Data warehouse e data lake

I data warehouse e i data lake memorizzano entrambi grandi quantità di dati, ma rispondono a finalità diverse. Il data warehouse ospita dati strutturati e preparati per la rendicontazione e gli analytics, mentre il data lake archivia dati grezzi, non elaborati che potrebbero essere utilizzati in un secondo momento. Spesso funzionano in combinazione: i dati grezzi risiedono nel data lake e vengono trasformati e spostati nel data warehouse quando necessario per gli analytics.

Puoi utilizzare il data lake per l'archiviazione flessibile e a basso costo di dati grezzi e il data warehouse per analytics rapidi e affidabili sui dati strutturati. La maggior parte delle organizzazioni si avvale di entrambi; il data lake accoglie tutto, mentre il data warehouse lo trasforma in insight.

Data warehouse e data mart

Il data mart è una sottosezione di un data warehouse, partizionata in modo specifico per un reparto o un'area aziendale, quali le vendite, il marketing o il finance. Un data mart delle vendite, per esempio, potrebbe concentrarsi su lead, attività di pipeline e trattative chiuse o vinte, mentre un data mart finanziario si concentrerebbe su budget, previsioni e metriche dei ricavi.

In alcuni casi vengono creati data mart anche per finalità operative distinte. Mentre il data warehouse funge da archivio dati centrale di un'intera azienda, il data mart si occupa di dati che interessano un gruppo di utenti selezionato. Per essi questo significa un accesso ai dati più semplice, analisi più veloci e la possibilità di esercitare un controllo sui propri dati. Accade spesso che più data mart vengano distribuiti all'interno dello stesso data warehouse.

I componenti chiave del data warehouse

Un moderno data warehouse si articola in quattro componenti principali: un database centrale, strumenti di integrazione e importazione rapida dei dati, metadati e strumenti di accesso. Insieme, forniscono analytics rapidi e affidabili su vasta scala.

  1. Database centrale: è il principale motore di archiviazione del data warehouse, tradizionalmente nella forma di un database relazionale, ma ora sempre più di sistema in-memory o cloud-native per prestazioni superiori.
  2. Integrazione e importazione rapida dei dati: i dati vengono trasferiti dai sistemi di origine utilizzando metodi batch come ETL e ELT, oltre a opzioni in tempo reale quali la replicazione dei soli dati delle modifiche e le pipeline di streaming. Tali processi gestiscono prevedono anche fasi di trasformazione, controlli di qualità e arricchimento.
  3. Metadati: informazioni che descrivono i dati specificandone origine, struttura, significato e modalità d'uso previste, e che si estendono sia al contesto aziendale che tecnico.
  4. Strumenti di accesso: tool che consentono agli utenti di interrogare, analizzare e interagire con i dati del warehouse. Si tratta nello specifico di strumenti di rendicontazione, cruscotti, piattaforme di analytics e strumenti per lo sviluppo di applicazioni.

Architettura del data warehouse

Storicamente, i data warehouse erano organizzati in vari livelli, allineati al modo in cui i dati si muovevano all'interno del sistema. Un tipico data warehouse si articola in tre livelli. Le piattaforme moderne semplificano l'architettura per supportare movimenti più rapidi di dati e analytics.

Se tradizionalmente i data warehouse erano creati e gestiti dai team IT, ora le piattaforme più evolute permettono sempre più spesso agli utenti delle aree business di lavorare direttamente con i dati. Queste le funzionalità chiave che hanno trainato questo cambiamento:

Come funziona il data warehouse?

Il data warehouse organizza le informazioni provenienti da tutta l'azienda in modo che risultino facili da esplorare e analizzare, oltre ad essere affidabili. Il processo è generalmente articolato in quattro semplici passaggi:

  1. Estrazione: i dati vengono estratti da sistemi di origine che potrebbero essere applicazioni, database e servizi cloud. In questa fase, i dati vengono raccolti allo stato in cui si trovano.
  2. Trasformazione: i dati vengono puliti, standardizzati e modellati in modo che siano coerenti e pronti per l'uso. Questa fase può comportare l'eliminazione di errori, l'allineamento dei formati o l'applicazione di regole aziendali.
  3. Caricamento: i dati così preparati vengono memorizzati nel warehouse in un formato strutturato, ottimizzato per un'azione rapida di rendicontazione e analytics.
  4. Analisi: una volta caricati i dati, i team possono esplorarli tramite cruscotti, report e analytics avanzati e prendere decisioni informate.

ETL o ELT: che differenza c'è?

ETL (Extract → Transform → Load): i dati estratti vengono trasformati prima di essere caricati nel magazzino. È un approccio comune nei data warehouse tradizionali che hanno una potenza di elaborazione limitata.

ELT (Extract → Load → Transform): una volta estratti, i dati grezzi vengono prima caricati nel warehouse e qui trasformati. Le piattaforme cloud evolute privilegiano questo metodo perché possono gestire in modo efficiente trasformazioni su larga scala.

Quali sono le quattro caratteristiche chiave di un data warehouse?

Il data warehouse si basa su pochi principi fondamentali che ne garantiscono la capacità di fornire informazioni affidabili, coerenti e analizzabili in ogni area dell'azienda. Le quattro caratteristiche chiave sono le seguenti:

  1. Orientato ai temi: è strutturato attorno ai maggiori argomenti aziendali, quali i clienti o le vendite, al fine di supportare l'analisi.
  2. Integrato: dati provenienti da sistemi diversi, quali l'ERP e il CRM, vengono puliti e standardizzati, in modo da potersi completare reciprocamente.
  3. Varia in funzione del tempo: memorizza dati storici riferiti a lunghi periodi, rendendo possibile l'analisi di tendenze e performance.
  4. Non volatile: una volta caricati, i dati rimangono stabili, ossia sono leggibili ma non vengono aggiornati né eliminati, garantendo così una fonte affidabile di informazioni certe.

I vantaggi del data warehouse nel cloud

Per i vantaggi significativi che offrono rispetto ai sistemi on-premise tradizionali, i data warehouse in cloud stanno progressivamente guadagnando terreno. Ecco i sette principali vantaggi che comporta lo spostamento del data warehouse nel cloud:

  1. Distribuzione rapida: fai girare al massimo l'archiviazione, il calcolo e i nuovi ambienti come i data mart o le sandbox in pochi minuti, ovunque ti trovi.
  2. TCO inferiore: paghi solo le risorse che utilizzi. Eviti i costi di hardware, strutture fisiche e manutenzione, e riduci le spese separando l'archiviazione dal calcolo.
  3. Elasticità: adegui il tuo dimensionamento all'istante, in modo da gestire carichi di lavoro variabili ed enormi volumi di dati senza alcun intervento manuale.
  4. Sicurezza e disaster recovery: le piattaforme cloud prevedono spesso controlli di sicurezza più rigorosi, crittografia e backup automatici come tutela contro il rischio di perdita di dati.
  5. Performance in tempo reale: i motori in-memory e cloud-native consentono velocità di elaborazione elevate per generare insight in tempo reale.
  6. Accesso alle nuove tecnologie: integri facilmente funzionalità come il machine learning, gli insight automatizzati e gli analytics avanzati.
  7. Più autonomia agli utenti business: offri ai team una visione unificata dei dati, oltre a strumenti intuitivi con cui analizzare le informazioni e mettere in connessione nuove fonti senza un pesante coinvolgimento dell'IT.

Best practice per il data warehouse

Quando crei un nuovo data warehouse o decidi di espanderne uno già esistente, seguire procedure comprovate ti permette di centrare gli obiettivi prefissati risparmiando tempo e costi. Alcune prassi riguardano le esigenze aziendali, mentre altre rientrano nella sfera di competenza generale dell'IT. L'elenco seguente è un valido punto di partenza che potrai perfezionare nel corso della collaborazione con i partner tecnologici e di servizi.

Best practice per l'azienda

Best practice per l'IT

In sintesi

I data warehouse di nuova generazione, specie se in cloud, svolgono un ruolo centrale nella trasformazione digitale unificando i dati provenienti da fonti interne ed esterne per offrire una visione completa e puntuale del business. Alimentano cruscotti, KPI, alert e report nell'intera organizzazione e supportano analytics rapidi e complessi senza incidere sui sistemi operativi.

Possono partire in piccolo per poi crescere facilmente, e questo aiuta sia i team corporate che le unità aziendali a prendere decisioni migliori e a potenziare le performance.

FAQ

Cos'è un data lake?
Il data lake è un luogo in cui archiviare Big Data di qualsiasi tipo, sia che si tratti di dati strutturati provenienti da applicazioni aziendali o di dati non strutturati di app mobile, social media o dispositivi collegati all'Internet of Things (IoT). Poiché i dati vengono archiviati nel loro formato intrinseco (strutturato, non strutturato, semi-strutturato o binario) per consentire l'estensione degli analytics a più tipologie di dati potrebbero essere necessarie operazioni di conversione, normalizzazione o altre elaborazioni. Per motivi dovuti ai grandi volumi di dati archiviati, alla necessità di collegamento ad alta velocità con le sorgenti distribuite e all'esigenza di scalabilità, i data lake risiedono generalmente nel cloud. La loro capacità di archiviare grandi quantità di dati grezzi li rende un complemento flessibile e a basso costo del data warehouse.
Cosa significano ETL e ELT?
ETL è l'acronimo di “extract, transform, and load”, ossia estrazione, trasformazione e caricamento. Si riferisce al processo utilizzato per prelevare i dati da un sistema di origine, pulirli e modellarli in un formato utilizzabile per poi caricarli in un data warehouse o altro archivio. Molti sistemi moderni seguono anche l'approccio ELT ("extract, load, and transform"), in cui i dati vengono prima caricati e soltanto dopo trasformati. Entrambi i metodi permettono di trasformare i dati grezzi in una materia che può essere analizzata, a prescindere che venga da sistemi transazionali o da fonti più complesse e non strutturate.
Cos'è il data mart?
Il data mart è una sezione mirata di un data warehouse progettata per uno specifico reparto o team aziendale, quali il finance o il marketing. Permette a quel gruppo di accedere rapidamente ai dati più rilevanti per le proprie mansioni e di gestire il proprio set di dati curato all'interno del warehouse generale. Un data mart finanziario, per esempio, potrebbe includere budget, previsioni e dati sui ricavi su misura per le esigenze di rendicontazione del team Finance.
Cos'è la modellazione dei dati?
Attraverso il processo di modellazione, i dati vengono organizzati e connessi in modo da poter essere archiviati e utilizzati in modo efficace. Il modello indica ciò che i dati rappresentano e come i diversi componenti si relazionano l'uno con l'altro, creando una mappa per una struttura coerente tra i sistemi. Un modello di dati di vendita, per esempio, potrebbe mostrare il modo in cui clienti, ordini e prodotti sono reciprocamente correlati a supporto della rendicontazione e dell'analisi.
Cos'è il data warehouse aziendale (EDW)?
Il data warehouse aziendale (EDW, enterprise data warehouse) è un sistema centralizzato in cui vengono archiviati tutti i dati attuali e storici di un'azienda. Rappresenta una fonte unica e coerente di informazioni per analytics, rendicontazione e KPI su scala aziendale. Per agevolare l'accesso, la scalabilità e la gestione, molti EDW sono gestiti nel cloud.
Quali sono i tre tipi di data warehouse?
  1. Data warehouse aziendale: un EDW è un data warehouse centrale esteso all'intera azienda in cui vengono archiviati tutti i dati attuali e storici. Rappresenta una fonte unica e coerente di informazioni certe ai fini di analytics, rendicontazione e KPI per l'intera organizzazione. Per favorire scalabilità e facilità di accesso, gran parte dei moderni EDW risiede nel cloud.
  2. Operational data store: l'ODS è un archivio di dati quasi in tempo reale utilizzato per scopi di rendicontazione operativa e di operatività giornaliera. Si colloca tra i sistemi transazionali e l'EDW, mettendo insieme i dati provenienti da molteplici fonti in una forma più attuale, ma non propriamente storica. È utile quando i dati devono essere aggiornati frequentemente in situazioni di decisioni operative rapide.
  3. Data mart: il data mart è una sezione limitata di un data warehouse legata a un tema specifico, progettata per un particolare team o reparto aziendale, come finance, vendite o marketing. Offre un accesso rapido ai dati più importanti per quel gruppo di utenti evitando di esporre l'intero warehouse.
Quali sono i quattro componenti del data warehouse?
  1. Database centrale: il livello di archiviazione primario in cui vengono ospitati i dati strutturati, puliti e integrati. Si tratta in genere di un database relazionale, colonnare o cloud-native ottimizzato per gli analytics.
  2. Strumenti di integrazione/importazione rapida dei dati: strumenti e processi - quali l'ETL (estrazione, trasformazione, caricamento), l'ELT (estrazione, caricamento, trasformazione), i caricamenti in batch e la replicazione in tempo reale - che trasferiscono i dati dai sistemi di origine al warehouse e li preparano per l'utilizzo.
  3. Metadati: informazioni che descrivono i dati, specificando da dove provengono, come sono strutturati, cosa significano e come devono essere utilizzati. I metadati aiutano gli utenti a comprendere i dati e a utilizzarli con fiducia.
  4. Strumenti di accesso: applicazioni e interfacce che permettono agli utenti di interrogare, analizzare, rappresentare graficamente, esplorare e analizzare i dati, quali strumenti di rendicontazione, cruscotti, piattaforme di analytics e query SQL.
SQL è un data warehouse?
No. SQL è un linguaggio utilizzato per interrogare e gestire i dati, mentre il data warehouse è un sistema che memorizza, organizza ed elabora grandi quantità di dati ai fini di analisi. SQL è semplicemente uno dei principali strumenti utilizzati per lavorare con i dati all'interno di un data warehouse.