Cos'è il data warehouse?
Il data warehouse (DW) è un sistema di archiviazione digitale che mette in collegamento e armonizza consistenti quantità di dati provenienti da molteplici fonti di vario tipo.
default
{}
default
{}
primary
default
{}
secondary
Panoramica del data warehouse
Il data warehouse (DW) è un repository centralizzato che raccoglie, integra e memorizza grandi volumi di dati attuali e storici provenienti da molteplici fonti. Supporta la business intelligence (BI), la rendicontazione e gli analytics avanzati mettendo a disposizione una fonte unica e coerente di dati certi. Consolidando e standardizzando i dati, le organizzazioni possono generare insight affidabili, soddisfare i requisiti normativi e assumere decisioni informate e basate sui dati.
I dati confluiscono generalmente in un data warehouse da sistemi operativi (come l'ERP e il CRM), database interni e fonti esterne quali piattaforme di partner, dispositivi IoT, feed del meteo e social media. Con il cloud computing giunto a maturità, lo storage dei dati si è spostato dai tradizionali ambienti on-premise ad architetture cloud flessibili multi-cloud e ibride.
I moderni data warehouse sono progettati per gestire sia i dati strutturati che quelli non strutturati, quali video, immagini e stream di sensori. Spesso incorporano analytics integrati ed elaborazione in-memory per consentire query più rapide, accesso ai dati in tempo reale e workflow di rendicontazione e BI più efficienti. Senza un data warehouse, le organizzazioni faticano a mettere insieme fonti di dati eterogenee, a preparare correttamente i dati per gli analytics e a mantenere la visibilità su tutti i set di dati.
Figura 1: Panoramica di data warehouse
I vantaggi del data warehousing
Un data warehouse ben strutturato è la colonna portante del corretto funzionamento di business intelligence, rendicontazione e analytics. Consolidando i dati in un'unica fonte di informazioni certe, accelera gli insight per un processo decisionale migliore e più sicuro in ogni area dell'azienda. Questi i vantaggi principali:
- Migliori business analytics: il data warehouse unifica i dati provenienti da più sistemi in un'unica visione coerente dell'azienda, consentendo ai leader di analizzare più facilmente le tendenze e prendere decisioni più mirate e basate sui dati.
- Query e insight più rapidi: poiché i data warehouse sono ottimizzati per gli analytics, e non per le transazioni, gli utenti possono eseguire query complesse su vasti set di dati molto più rapidamente, velocizzando così i cicli di rendicontazione e riducendo la dipendenza dal reparto IT.
- Migliore qualità e coerenza dei dati: i dati vengono puliti, convalidati e standardizzati prima di entrare nel warehouse, per avere la certezza che gli analytics siano basati su informazioni affidabili e di alta qualità. Una migliore qualità dei dati si traduce direttamente in decisioni migliori.
- Insight storici più approfonditi: il data warehouse conserva ricchi dati storici, semplificando l'individuazione di pattern a lungo termine, la valutazione delle performance e la formulazione di previsioni più accurate che rafforzano la pianificazione strategica.
Figura 2: screenshot di data warehouse che mostra la derivazione dei dati
Quali tipi di dati possono essere memorizzati in un data warehouse?
I data warehouse comparsi per la prima volta alla fine degli anni '80 erano stati creati per archiviare dati strutturati, ossia informazioni ben organizzate come dati dei clienti, elenchi di prodotti e record di transazioni. Con l'espansione delle esigenze di business, le aziende si sono trovate nella necessità di operare anche con dati non strutturati, quali documenti, immagini, video, e-mail, post sui social media e output di sensori installati su macchine e dispositivi IoT.
I moderni data warehouse possono trattare dati sia strutturati che non strutturati, mettendoli insieme per offrire alle aziende una visione più completa e integrata da cui trarre insight più validi.
Concetti chiave e confronti
Sono molti i concetti da imparare dal mondo del data warehousing e in questa sezione ci soffermeremo su quelli più importanti. Potrai trovare ulteriori definizioni e domande frequenti nel nostro glossario.
Data warehouse e database
Database e data warehouse servono entrambi ad archiviare i dati, ma per scopi diversi. Il database gestisce informazioni in tempo reale per una specifica area di business, mentre il data warehouse riunisce dati attuali e storici provenienti dall'intera l'organizzazione a supporto della rendicontazione e degli analytics. Il data warehouse funziona con la stessa tecnologia del database, ma in più utilizza strumenti per l'integrazione, la modellazione e la gestione dei dati nel tempo.
I database presiedono al funzionamento dell'operatività giornaliera elaborando le transazioni e aggiornando rapidamente i record. I data warehouse supportano gli analytics, permettendo ai team di individuare le tendenze, confrontare le performance e assumere decisioni strategiche.
Data warehouse e data lake
I data warehouse e i data lake memorizzano entrambi grandi quantità di dati, ma rispondono a finalità diverse. Il data warehouse ospita dati strutturati e preparati per la rendicontazione e gli analytics, mentre il data lake archivia dati grezzi, non elaborati che potrebbero essere utilizzati in un secondo momento. Spesso funzionano in combinazione: i dati grezzi risiedono nel data lake e vengono trasformati e spostati nel data warehouse quando necessario per gli analytics.
Puoi utilizzare il data lake per l'archiviazione flessibile e a basso costo di dati grezzi e il data warehouse per analytics rapidi e affidabili sui dati strutturati. La maggior parte delle organizzazioni si avvale di entrambi; il data lake accoglie tutto, mentre il data warehouse lo trasforma in insight.
Figura 3: data warehouse e data lake a confronto
Data warehouse e data mart
Il data mart è una sottosezione di un data warehouse, partizionata in modo specifico per un reparto o un'area aziendale, quali le vendite, il marketing o il finance. Un data mart delle vendite, per esempio, potrebbe concentrarsi su lead, attività di pipeline e trattative chiuse o vinte, mentre un data mart finanziario si concentrerebbe su budget, previsioni e metriche dei ricavi.
In alcuni casi vengono creati data mart anche per finalità operative distinte. Mentre il data warehouse funge da archivio dati centrale di un'intera azienda, il data mart si occupa di dati che interessano un gruppo di utenti selezionato. Per essi questo significa un accesso ai dati più semplice, analisi più veloci e la possibilità di esercitare un controllo sui propri dati. Accade spesso che più data mart vengano distribuiti all'interno dello stesso data warehouse.
Figura 4: schema che illustra il funzionamento del data mart
I componenti chiave del data warehouse
Un moderno data warehouse si articola in quattro componenti principali: un database centrale, strumenti di integrazione e importazione rapida dei dati, metadati e strumenti di accesso. Insieme, forniscono analytics rapidi e affidabili su vasta scala.
Figura 5: schema che illustra i componenti chiave del data warehouse
- Database centrale: è il principale motore di archiviazione del data warehouse, tradizionalmente nella forma di un database relazionale, ma ora sempre più di sistema in-memory o cloud-native per prestazioni superiori.
- Integrazione e importazione rapida dei dati: i dati vengono trasferiti dai sistemi di origine utilizzando metodi batch come ETL e ELT, oltre a opzioni in tempo reale quali la replicazione dei soli dati delle modifiche e le pipeline di streaming. Tali processi gestiscono prevedono anche fasi di trasformazione, controlli di qualità e arricchimento.
- Metadati: informazioni che descrivono i dati specificandone origine, struttura, significato e modalità d'uso previste, e che si estendono sia al contesto aziendale che tecnico.
- Strumenti di accesso: tool che consentono agli utenti di interrogare, analizzare e interagire con i dati del warehouse. Si tratta nello specifico di strumenti di rendicontazione, cruscotti, piattaforme di analytics e strumenti per lo sviluppo di applicazioni.
Architettura del data warehouse
Storicamente, i data warehouse erano organizzati in vari livelli, allineati al modo in cui i dati si muovevano all'interno del sistema. Un tipico data warehouse si articola in tre livelli. Le piattaforme moderne semplificano l'architettura per supportare movimenti più rapidi di dati e analytics.
Figura 6: schema di architettura del data warehouse
- Livello dati: i dati vengono estratti dai sistemi di origine per essere poi trasformati e caricati nel warehouse utilizzando un metodo di importazione rapida come l'ETL. Questo livello include il database principale, i data mart e i data lake, oltre a metadati e strumenti di integrazione che standardizzano e preparano i dati.
- Livello semantico: questo livello organizza e modella i dati in modo che siano facili da interrogare e analizzare, offrendo viste curate e definizioni aziendali che supportano analytics rapidi e coerenti.
- Livello analitico: il livello superiore presenta gli strumenti con cui interagiscono gli utenti, ossia cruscotti, report, monitoraggio di KPI, analisi avanzata e spazi sandbox per esplorare i dati ed elaborare nuovi modelli.
Se tradizionalmente i data warehouse erano creati e gestiti dai team IT, ora le piattaforme più evolute permettono sempre più spesso agli utenti delle aree business di lavorare direttamente con i dati. Queste le funzionalità chiave che hanno trainato questo cambiamento:
- Un livello semantico di facile utilizzo aziendale che utilizza il linguaggio naturale, chiarisce le relazioni e permette agli utenti di arricchire i dati con nuovo contesto.
- Spazi di lavoro virtuali in cui modelli di dati, logica e collaborazione convergono in un unico ambiente gestito.
- Strumenti in cloud che rendono più facile per i dipendenti mettere in connessione nuove fonti di dati, eseguire analisi e generare insight dipendendo sempre meno dall'IT.
Come funziona il data warehouse?
Il data warehouse organizza le informazioni provenienti da tutta l'azienda in modo che risultino facili da esplorare e analizzare, oltre ad essere affidabili. Il processo è generalmente articolato in quattro semplici passaggi:
- Estrazione: i dati vengono estratti da sistemi di origine che potrebbero essere applicazioni, database e servizi cloud. In questa fase, i dati vengono raccolti allo stato in cui si trovano.
- Trasformazione: i dati vengono puliti, standardizzati e modellati in modo che siano coerenti e pronti per l'uso. Questa fase può comportare l'eliminazione di errori, l'allineamento dei formati o l'applicazione di regole aziendali.
- Caricamento: i dati così preparati vengono memorizzati nel warehouse in un formato strutturato, ottimizzato per un'azione rapida di rendicontazione e analytics.
- Analisi: una volta caricati i dati, i team possono esplorarli tramite cruscotti, report e analytics avanzati e prendere decisioni informate.
ETL o ELT: che differenza c'è?
ETL (Extract → Transform → Load): i dati estratti vengono trasformati prima di essere caricati nel magazzino. È un approccio comune nei data warehouse tradizionali che hanno una potenza di elaborazione limitata.
ELT (Extract → Load → Transform): una volta estratti, i dati grezzi vengono prima caricati nel warehouse e qui trasformati. Le piattaforme cloud evolute privilegiano questo metodo perché possono gestire in modo efficiente trasformazioni su larga scala.
Quali sono le quattro caratteristiche chiave di un data warehouse?
Il data warehouse si basa su pochi principi fondamentali che ne garantiscono la capacità di fornire informazioni affidabili, coerenti e analizzabili in ogni area dell'azienda. Le quattro caratteristiche chiave sono le seguenti:
- Orientato ai temi: è strutturato attorno ai maggiori argomenti aziendali, quali i clienti o le vendite, al fine di supportare l'analisi.
- Integrato: dati provenienti da sistemi diversi, quali l'ERP e il CRM, vengono puliti e standardizzati, in modo da potersi completare reciprocamente.
- Varia in funzione del tempo: memorizza dati storici riferiti a lunghi periodi, rendendo possibile l'analisi di tendenze e performance.
- Non volatile: una volta caricati, i dati rimangono stabili, ossia sono leggibili ma non vengono aggiornati né eliminati, garantendo così una fonte affidabile di informazioni certe.
I vantaggi del data warehouse nel cloud
Per i vantaggi significativi che offrono rispetto ai sistemi on-premise tradizionali, i data warehouse in cloud stanno progressivamente guadagnando terreno. Ecco i sette principali vantaggi che comporta lo spostamento del data warehouse nel cloud:
- Distribuzione rapida: fai girare al massimo l'archiviazione, il calcolo e i nuovi ambienti come i data mart o le sandbox in pochi minuti, ovunque ti trovi.
- TCO inferiore: paghi solo le risorse che utilizzi. Eviti i costi di hardware, strutture fisiche e manutenzione, e riduci le spese separando l'archiviazione dal calcolo.
- Elasticità: adegui il tuo dimensionamento all'istante, in modo da gestire carichi di lavoro variabili ed enormi volumi di dati senza alcun intervento manuale.
- Sicurezza e disaster recovery: le piattaforme cloud prevedono spesso controlli di sicurezza più rigorosi, crittografia e backup automatici come tutela contro il rischio di perdita di dati.
- Performance in tempo reale: i motori in-memory e cloud-native consentono velocità di elaborazione elevate per generare insight in tempo reale.
- Accesso alle nuove tecnologie: integri facilmente funzionalità come il machine learning, gli insight automatizzati e gli analytics avanzati.
- Più autonomia agli utenti business: offri ai team una visione unificata dei dati, oltre a strumenti intuitivi con cui analizzare le informazioni e mettere in connessione nuove fonti senza un pesante coinvolgimento dell'IT.
Figura 7: il data warehousing supporta analytics completi delle spese
Best practice per il data warehouse
Quando crei un nuovo data warehouse o decidi di espanderne uno già esistente, seguire procedure comprovate ti permette di centrare gli obiettivi prefissati risparmiando tempo e costi. Alcune prassi riguardano le esigenze aziendali, mentre altre rientrano nella sfera di competenza generale dell'IT. L'elenco seguente è un valido punto di partenza che potrai perfezionare nel corso della collaborazione con i partner tecnologici e di servizi.
Best practice per l'azienda
- Definisci le informazioni che ti servono. Inizia individuano le domande a cui desideri rispondere e le decisioni che intendi supportare. Dopodiché, stabilisci quali fonti di dati sono necessarie. Anche i gruppi di imprese, i clienti e i fornitori possono offrire indicazioni importanti sui dati utili.
- Documenta lo stato dei dati attuali. Registra i sistemi in cui risiedono i tuoi dati, la loro strutturazione e il loro livello di qualità, in modo da individuare le lacune, le necessarie trasformazioni e le regole aziendali su cui si baserà il tuo warehouse.
- Costruisci il team giusto. Includi gli executive sponsor, i manager aziendali e gli utenti finali che andranno a utilizzare gli insight. Traccia un quadro dei report, dei KPI e delle metriche standard di cui hanno bisogno per centrare gli obiettivi.
- Assegna priorità ai tuoi primi progetti. Inizia con uno o due progetti pilota che offrono un valore di business facilmente riconoscibile e un ambito gestibile. I primi successi serviranno a dare slancio.
- Scegli un partner tecnologico forte. Seleziona un vendor che assicuri esperienza comprovata, supporto all'implementazione e una piattaforma in linea con le tue esigenze di distribuzione.
- Crea un piano di progetto realistico. Collabora con il tuo team nella definizione di una roadmap con una tempistica chiara. Con un programma regolare di comunicazioni e aggiornamenti di stato è possibile mantenere tutti allineati.
Best practice per l'IT
- Monitora le performance, gli accessi e la sicurezza. Un warehouse deve essere tanto veloce quanto protetto. Tieni traccia di come viene usato il sistema, degli eventi di sicurezza e dei pattern di accesso, in modo da garantire che i dati siano sempre sicuri e al tempo stesso facili da raggiungere per gli utenti autorizzati.
- Preserva qualità dei dati, standard, metadati, struttura e governance. I nuovi dati che affluiscono nel warehouse devono seguire regole coerenti. Standardizza le operazioni di pulizia e trasformazione, le definizioni e la governance dei dati in modo che gli utenti possano fidarsi dei risultati.
- Crea un'architettura flessibile. Con la crescita del business, i team avranno bisogno di nuovi data mart, modelli e carichi di lavoro. Un'architettura scalabile e modulare supporta queste esigenze meglio di sistemi rigidi o strettamente abbinati.
- Automatizza la manutenzione e le operazioni. Affidati all'automazione e al machine learning per snellire compiti quali indicizzazione, monitoraggio, ottimizzazione e aggiornamenti. In questo modo si migliorano le performance e si riducono i costi operativi.
- Utilizza il cloud in modo strategico. A squadre diverse corrispondono requisiti diversi. Lascia all'occorrenza alcuni carichi di lavoro on-premise, altrimenti sfrutta i data warehouse in cloud per assicurare scalabilità, costi inferiori e un accesso più semplice tramite smartphone e tablet.
In sintesi
I data warehouse di nuova generazione, specie se in cloud, svolgono un ruolo centrale nella trasformazione digitale unificando i dati provenienti da fonti interne ed esterne per offrire una visione completa e puntuale del business. Alimentano cruscotti, KPI, alert e report nell'intera organizzazione e supportano analytics rapidi e complessi senza incidere sui sistemi operativi.
Possono partire in piccolo per poi crescere facilmente, e questo aiuta sia i team corporate che le unità aziendali a prendere decisioni migliori e a potenziare le performance.
FAQ
- Data warehouse aziendale: un EDW è un data warehouse centrale esteso all'intera azienda in cui vengono archiviati tutti i dati attuali e storici. Rappresenta una fonte unica e coerente di informazioni certe ai fini di analytics, rendicontazione e KPI per l'intera organizzazione. Per favorire scalabilità e facilità di accesso, gran parte dei moderni EDW risiede nel cloud.
- Operational data store: l'ODS è un archivio di dati quasi in tempo reale utilizzato per scopi di rendicontazione operativa e di operatività giornaliera. Si colloca tra i sistemi transazionali e l'EDW, mettendo insieme i dati provenienti da molteplici fonti in una forma più attuale, ma non propriamente storica. È utile quando i dati devono essere aggiornati frequentemente in situazioni di decisioni operative rapide.
- Data mart: il data mart è una sezione limitata di un data warehouse legata a un tema specifico, progettata per un particolare team o reparto aziendale, come finance, vendite o marketing. Offre un accesso rapido ai dati più importanti per quel gruppo di utenti evitando di esporre l'intero warehouse.
- Database centrale: il livello di archiviazione primario in cui vengono ospitati i dati strutturati, puliti e integrati. Si tratta in genere di un database relazionale, colonnare o cloud-native ottimizzato per gli analytics.
- Strumenti di integrazione/importazione rapida dei dati: strumenti e processi - quali l'ETL (estrazione, trasformazione, caricamento), l'ELT (estrazione, caricamento, trasformazione), i caricamenti in batch e la replicazione in tempo reale - che trasferiscono i dati dai sistemi di origine al warehouse e li preparano per l'utilizzo.
- Metadati: informazioni che descrivono i dati, specificando da dove provengono, come sono strutturati, cosa significano e come devono essere utilizzati. I metadati aiutano gli utenti a comprendere i dati e a utilizzarli con fiducia.
- Strumenti di accesso: applicazioni e interfacce che permettono agli utenti di interrogare, analizzare, rappresentare graficamente, esplorare e analizzare i dati, quali strumenti di rendicontazione, cruscotti, piattaforme di analytics e query SQL.
Prodotto SAP
SAP Business Data Cloud
Amplifica il valore dell'AI con i tuoi dati più potenti.