Vai al contenuto
Donna intenta a osservare dati

Cos'è un data warehouse?

Il data warehouse (DW) è un sistema di archiviazione digitale che mette in collegamento e armonizza consistenti quantità di dati provenienti da molteplici fonti di vario tipo. Il suo scopo è alimentare le funzioni di business intelligence (BI), reporting e analisi, nonché sostenere i requisiti normativi – permettendo così alle aziende di trasformare i propri dati in conoscenze e assumere decisioni intelligenti e guidate dai dati. Come sistema unico in cui coabitano dati sia attuali che storici, il data warehouse funge da fonte unica e attendibile di informazioni per una organizzazione.

 

I dati confluiscono in un data warehouse da sistemi operativi (come l'ERP e il CRM), database e fonti esterne quali sistemi di partner, dispositivi collegati all'Internet of Things (IoT), app del meteo e social media – generalmente a cadenza regolare. La progressiva affermazione del cloud computing ha indotto a un cambiamento di prospettiva nell'ambiente. Negli ultimi anni, i luoghi deputati all'archiviazione dei dati hanno visto aggiungersi alla tradizionale infrastruttura on-premise le nuove destinazioni del cloud privato e pubblico.

 

I data warehouse più evoluti sono progettati per gestire dati strutturati e non strutturati, quali video, file di immagini e dati trasmessi dai sensori. Alcuni di essi sfruttano l'analisi integrata e la tecnologia del database in-memory (che registra il set di dati nella memoria del computer anziché nella memoria su disco) per consentire l'accesso in tempo reale a dati affidabili e promuovere processi decisionali sicuri. Senza il data warehousing è estremamente difficile mettere insieme dati provenienti da fonti eterogenee, verificare che abbiano un formato adatto per l'analisi e ottenere una visione dei dati sia attuale che nel lungo periodo.

Cos'è un data warehouse

Cos'è un data warehouse?

I vantaggi del data warehousing

Un data warehouse correttamente strutturato è il punto di partenza per qualsiasi programma di BI o di analisi che abbia successo. Il suo compito principale è quello di alimentare i report, i cruscotti e gli strumenti analitici divenuti ormai indispensabili per le aziende. Un data warehouse mette a disposizione le informazioni per le tue decisioni basate sui dati –aiutandoti a operare le scelte giuste in qualsiasi campo, dallo sviluppo di nuovi prodotti ai livelli di stock. I vantaggi di un data warehouse sono molteplici. Per citarne solo alcuni: 

  • Migliore analisi aziendale: con il data warehousing i decisori hanno accesso a dati provenienti da molteplici fonti e non devono più assumere decisioni sulla base di informazioni incomplete.  
  • Query più rapide: i data warehouse sono creati in modo specifico per consentire un'azione rapida di recupero e analisi dei dati. Con un DW puoi interrogare rapidamente grandi quantità di dati consolidati con un supporto minimo, se non nullo, da parte dell'IT.  
  • Migliore qualità dei dati: prima di un caricamento di dati nel DW, il sistema provvede a creare casi di ripulitura e a inserirli in una lista di lavoro per un ulteriore trattamento, per avere la certezza che i dati vengano trasformati in un formato compatibile con l'analisi – e con decisioni – basate su informazioni accurate e di alta qualità.
  • Prospettiva storica: archiviando complessi dati storici, il data warehouse consente ai decisori di trarre insegnamento da tendenze e criticità passate, di fare previsioni e di promuovere il miglioramento continuo del business.
placeholder

Screenshot di data warehouse che mostra la derivazione dei dati.

Cos'è possibile archiviare in un data warehouse?

Quando iniziarono a diffondersi verso la fine degli anni '80, i data warehouse erano pensati come sistemi per memorizzare informazioni su persone, prodotti e transazioni. Tali informazioni – che prendono il nome di  dati strutturati – erano organizzate e formattate con grande precisione, per facilitarne l'accesso. Dalle aziende è tuttavia giunta ben presto la richiesta di poter memorizzare, richiamare e analizzare anche i dati non strutturati – ossia documenti, immagini, video, e-mail, post sui social media e dati grezzi inviati da sensori installati sui macchinari.

 

In un data warehouse evoluto possono trovare posto sia dati strutturati che dati non strutturati. Unendo questi due tipi di dati e abbattendo i compartimenti stagni che li separano, le aziende possono ottenere un quadro completo ed esaustivo da cui far emergere le informazioni più preziose.

Alcuni termini chiave

Sono molti i termini legati al mondo del DW sui quali vale la pena fare chiarezza. In questa sezione ci soffermeremo sui più importanti. Approfondisci altri termini e FAQ nel nostro glossario.

 

Data warehouse e database

 

Database e data warehouse sono entrambi sistemi di archiviazione dei dati, ma finalizzati a scopi diversi.  Il database è generalmente preposto all'archiviazione dei dati di una determinata area aziendale. Il data warehouse, invece, archivia i dati attuali e storici dell'intera azienda, oltre ad alimentare BI e analisi. I data warehouse utilizzano un server per estrarre i dati dai database aziendali e prevedono funzionalità aggiuntive per la modellazione, la gestione del ciclo di vita, l'integrazione delle origini dei dati e altro ancora.

 

Data warehouse e data lake

 

Sia i data warehouse che i data lake trovano impiego nella memorizzazione dei Big Data, ma sono sistemi di archiviazione molto diversi. Il data warehouse archivia i dati formattati per uno scopo specifico, mentre il data lake registra i dati allo stato grezzo, non elaborato e con uno scopo ancora definito. I data warehouse e i data lake si completano spesso a vicenda. Per esempio, se i dati grezzi archiviati in un data lake sono necessari per rispondere a una domanda di business, possono essere estratti, puliti, trasformati e utilizzati in un data warehouse per consentirne l'analisi. Il volume di dati, le prestazioni del database e il prezzo dello storage sono altrettanti fattori determinanti nella scelta della soluzione di archiviazione più indicata.

Data warehouse e data lake

Schema di confronto tra data warehouse e data lake.

Data warehouse e data mart 

 

Il data mart è una sottosezione di un data warehouse, partizionata in modo specifico per un reparto o un'area aziendale – per esempio vendite, marketing o finanza. In alcuni casi vengono creati data mart anche per finalità operative distinte. Mentre il data warehouse funge da archivio dati centrale di un'intera azienda, il data mart si occupa di dati che interessano un gruppo di utenti selezionato. Per essi questo significa un accesso ai dati più semplice, analisi più veloci e la possibilità di esercitare un controllo sui propri dati. Accade spesso che più data mart vengano distribuiti all'interno dello stesso data warehouse.

Data warehouse e data mart

Schema di funzionamento del data mart.

Quali sono i componenti chiave del data warehouse?

Il tipico data warehouse si articola in quattro componenti principali: un database centrale, strumenti ETL (estrazione, trasformazione, caricamento), metadati e strumenti di accesso. Tutti questi elementi sono progettati per garantire velocità e permetterti di ottenere rapidamente i risultati attesi e di analizzare i dati all'istante.

Componenti del data warehouse

Schema che illustra i componenti chiave del data warehouse.

  1. Database centralizzato: ogni data warehouse ha le sue fondamenta in un database. In passato venivano utilizzati database relazionali standard installati on-premise o nel cloud. Tuttavia, con l'avvento dei Big Data, la necessità di prestazioni autenticamente in tempo reale e una drastica riduzione dei costi della RAM, le quote del database in-memory sono vertiginosamente salite.
  2. Integrazione dei dati: i dati vengono estratti dai sistemi di origine e modificati in modo da allineare le informazioni e consentirne la rapida fruizione analitica adottando una varietà di approcci all'integrazione, come l'ETL (estrazione, trasformazione e caricamento) e l'ELT, nonché la replicazione in tempo reale, l'elaborazione di massa, la trasformazione e i servizi di qualità e arricchimento dei dati.
  3. Metadati: i metadati sono dati che riguardano i dati. Servono a specificare l'origine, l'utilizzo, i valori e altre caratteristiche dei set di dati contenuti nel tuo data warehouse. Possiamo distinguere tra metadati di business, che aggiungono contesto ai dati, e metadati tecnici, che spiegano come accedere ai dati – indicando dove risiedono e come sono strutturati.
  4. Strumenti di accesso ai data warehouse: gli strumenti di accesso consentono agli utenti di interagire con i dati contenuti nel tuo data warehouse. Ecco alcuni esempi di strumenti di accesso: strumenti di interrogazione e reporting, di sviluppo applicazioni, di data mining e strumenti OLAP.

Architettura del data warehouse

In passato il funzionamento dei data warehouse si basava sull'incrocio del flusso dei dati aziendali che avveniva a vari livelli.

Schema di architettura di data warehouse

Schema di architettura di data warehouse. Il tipico data warehouse si suddivide nei tre livelli distinti indicati sopra. I data warehouse più evoluti attualmente disponibili abbinano OLTP e OLAP in un unico sistema.

 

  • Livello dati: con gli strumenti di ETL i dati vengono estratti dalle tue fonti per essere poi trasformati e caricati nel livello inferiore, in cui troviamo il server di database, i data mart e i data lake. È a questo livello che vengono creati i metadati e i dati vengono combinati e aggregati senza soluzione di continuità con strumenti di integrazione quali la virtualizzazione.
  • Livello semantico: nello strato intermedio i server di elaborazione analitica online (OLAP) e di elaborazione transazionale online (OLTP) ristrutturano i dati per consentire query e analisi rapide e complesse.
  • Livello analitico: all'estremità superiore si posiziona il livello client di front-end, in cui troviamo gli strumenti di accesso al data warehouse che consentono agli utenti di interagire con i dati, creare cruscotti e report, monitorare i KPI, estrarre e analizzare i dati, creare app e altro ancora. A questo livello è spesso associata un'area workbench o sandbox per l'esplorazione e lo sviluppo di nuovi modelli di dati.

 

I data warehouse sono nati come funzione di appoggio al processo decisionale e la loro creazione e manutenzione è stata da sempre competenza dei reparti IT. Negli ultimi anni, tuttavia, l'evoluzione li ha condotti verso una gestione più autonoma da parte degli utenti aziendali, sempre meno dipendenti dall'IT per ottenere l'accesso ai dati e ricavarne insight su cui agire. Tra le principali funzionalità di un data warehousing esteso al raggio d'azione degli utenti aziendali si possono indicare:

  1. Il livello semantico o aziendale che genera frasi in linguaggio naturale e consente a qualunque utente di comprendere istantaneamente i dati, definire le relazioni tra gli elementi nel modello di dati e arricchire i campi di dati con nuove informazioni di business.
  2. Gli workspace virtuali consentono ai team di raggruppare modelli e connessioni di dati in un'unica area protetta e disciplinata, allo scopo di favorire una migliore collaborazione tra i colleghi nell'ambito di uno spazio condiviso e con un set di dati comune.
  3. Il cloud ha migliorato ulteriormente i processi decisionali mettendo a disposizione dei dipendenti su scala globale una ricca dotazione di strumenti e funzionalità con cui eseguire facilmente compiti di analisi dei dati. Gli utenti possono così connettere nuove app e fonti di dati con un supporto minimo da parte dell'IT.
    placeholder

    Inizia subito

    Prova oggi stesso la nostra soluzione di data warehouse in cloud.

    I sette principali vantaggi del data warehouse in cloud

    I data warehouse in cloud stanno registrando una popolarità crescente – e per buoni motivi. Rispetto alle tradizionali versioni on-premise, sono più evoluti e presentano numerosi vantaggi. Riportiamo di seguito i sette principali vantaggi di  un data warehouse in cloud:  

    1. Velocità di distribuzione: con il data warehousing in cloud puoi acquisire in pochi clic risorse pressoché illimitate in termini di potenza di calcolo e archiviazione dati – e puoi creare i tuoi sistemi interni di data warehouse, data mart e sandbox ovunque ti trovi, in pochi minuti.
    2. Riduzione del costo totale di proprietà (TCO): le proposte di prezzo del data warehouse-as-a-service (DWaaS) sono formulate in modo tale da addebitare solo le risorse di cui hai effettivamente bisogno, quando ne hai bisogno. Non sei tenuto a fare previsioni dei fabbisogni a lungo termine, né a pagare per più potenza di calcolo di quanto ne sia necessaria durante l'anno. Puoi inoltre evitare onerosi esborsi iniziali in hardware, server room e addetti alla manutenzione. La stessa separazione del costo dello storage da quello del computing è un valido accorgimento per contenere i costi.
    3. Elasticità: con un data warehouse in cloud puoi adattare dinamicamente il tuo dimensionamento in base alle esigenze. Il cloud mette a disposizione un ambiente virtualizzato e altamente distribuito in grado di gestire ingenti volumi di dati le cui dimensioni sono soggette ad aumentare o a diminuire.
    4. Sicurezza e disaster recovery: in molti casi i data warehouse in cloud assicurano funzioni più solide di sicurezza e crittografia dei dati rispetto alle versioni on-premise. Inoltre, grazie alle operazioni automatiche di duplicazione e back-up, il rischio di perdita dei dati è ridotto al minimo.
    5. Tecnologie che operano in tempo reale: i data warehouse in cloud che si avvalgono della tecnologia database in-memory assicurano velocità di elaborazione estremamente elevate, producendo dati in tempo reale che assicurano una consapevolezza istantanea del quadro situazionale.
    6. Nuove tecnologie: i data warehouse in cloud ti consentono di integrare facilmente nuove tecnologie come il machine learning che puoi utilizzare per offrire un'esperienza guidata agli utenti aziendali e un supporto decisionale sotto forma, per esempio, di domande consigliate da rivolgere.
    7. Rendi più autonomi gli utenti aziendali: i sistemi di data warehouse in cloud rendono più efficace l'azione di tutti i dipendenti su scala globale, grazie a una visione unica dei dati provenienti da molteplici fonti e a una ricca dotazione di strumenti e funzionalità con cui eseguire facilmente attività di analisi dei dati. Gli utenti possono così connettere nuove app e fonti di dati senza doversi rivolgere all'IT.
    placeholder

    Il data warehousing supporta l'analisi a 360° delle spese aziendali suddivise per reparto, fornitori, regione, stato e numerosi altri criteri.

    Best practice di data warehousing

    Quando devi creare un nuovo data warehouse o aggiungere nuove applicazioni ad un warehouse esistente, puoi affidarti a una procedura comprovata per centrare gli obiettivi risparmiando tempo e denaro. Alcuni passaggi riguardano l'uso aziendale, mentre altre prassi rientrano nel programma generale del tuo reparto IT. L'elenco che segue si propone come un utile punto di partenza che potrà essere completato con nuove best practice, frutto della tua collaborazione con i partner tecnologici e di servizi. 

    Best practice per l'azienda

    • Definisci le informazioni di cui hai bisogno. Una volta tracciato un quadro chiaro delle necessità iniziali, puoi trovare le fonti di dati in grado di sostenerle. Spesso puoi trovare utili suggerimenti di dati presso le associazioni di categoria, i clienti o gli stessi fornitori. 
    • Documenta l'ubicazione, la struttura e la qualità dei tuoi dati correnti. Dopodiché puoi individuare le lacune a livello di dati e le regole aziendali con cui trasformare i dati in funzione dei requisiti del tuo data warehouse.
    • Crea un team, nel quale non dovranno mancare gli executive sponsor, i manager e gli addetti destinati a utilizzare e fornire le informazioni. Sarà importante, per esempio, definire i report standard e i KPI necessari per consentire loro di svolgere le proprie mansioni.
    • Stabilisci le priorità delle applicazioni di data warehouse. Scegli uno o due progetti pilota che presentino requisiti ragionevoli e un discreto valore di business. 
    • Individua un valido partner per la tecnologia di data warehouse. Dovrà provvedere ai servizi di implementazione e assicurare l'esperienza necessaria per i tuoi progetti. Assicurati che supporti le tue esigenze di distribuzione, in termini sia di servizi cloud che di opzioni on-premise. 
    • Elabora un valido piano di progetto. Con l'aiuto del tuo team, metti a punto un blueprint realistico e un programma che preveda comunicazioni e resoconti sullo stato di avanzamento. 

    Best practice per l'IT

    • Monitora le prestazioni e la sicurezza. Le informazioni contenute nel data warehouse sono preziose, ma per essere utili all'organizzazione devono essere facilmente accessibili. È quindi importante monitorare attentamente l'utilizzo del sistema per assicurarsi che i livelli delle performance siano elevati. 
    • Preserva la qualità dei tuoi dati con standard, metadati, struttura e governance. Nuove fonti di dati preziosi diventano disponibili ormai con continuità, ma nell'ambito di un data warehouse devono essere oggetto di una gestione sistematica. Aderisci a procedure di pulizia dei dati, definizione dei metadati e rispetto degli standard di governance.
    • Crea un'architettura agile. Con il progressivo intensificarsi dell'uso a livello di gruppo e di business unit, emergeranno svariate esigenze di data mart e data warehouse. Una piattaforma flessibile sarà allora una risposta decisamente più efficace rispetto a un singolo prodotto soggetto a limiti e restrizioni. 
    • Automatizza i processi di manutenzione. Oltre a valorizzare la business intelligence, il machine learning può automatizzare le funzioni di gestione tecnica del data warehouse al fine di preservarne la velocità e ridurre i costi di esercizio. 
    • Utilizza il cloud in modo strategico. Le business unit e i reparti hanno necessità di distribuzione diverse. Fai ricorso ai sistemi on-premise in assenza di alternative, altrimenti sfrutta i data warehouse in cloud per assicurare scalabilità, costi ridotti e accesso tramite smartphone e tablet.  

    In breve

    I data warehouse di ultima generazione, e in misura crescente i data warehouse in cloud, svolgeranno un ruolo cruciale in qualsiasi iniziativa di trasformazione digitale che vedrà coinvolte le società capogruppo e le relative controllate. Hanno la prerogativa di far leva sui sistemi gestionali esistenti, in particolare quando i dati prelevati dai vari sistemi interni vengono combinati con nuove e importanti informazioni provenienti da organizzazioni esterne. 

     

    Cruscotti, KPI, allerte e report offrono una risposta non solo alle esigenze di dirigenti, manager e addetti, ma anche alle richieste di importanti necessità di clienti e fornitori. Gli stessi data warehouse, per la loro proprietà di non interferire con il funzionamento di altri sistemi aziendali, si prestano a operazioni rapide e complesse di analisi e data mining. 

     

    Grazie alla flessibilità che permette di iniziare a piccoli passi per poi ampliarsi secondo necessità, tanto le sedi centrali quanto le business unit possono affidarsi alla moderna tecnologia del data warehouse per migliorare il processo decisionale e i risultati a bilancio.

    placeholder

    Esplora la soluzione SAP di data warehouse

    Accedi all'unione di dati e analisi per prendere decisioni sicure nel cloud.

    Altri capitoli della serie

    Glossario di data warehouse

    Il data lake è un luogo in cui archiviare Big Data di qualsiasi tipo, sia che si tratti di dati strutturati provenienti da applicazioni aziendali o di dati non strutturati di app mobile, social media o dispositivi collegati all'Internet of Things (IoT). Poiché i dati vengono archiviati nel loro formato intrinseco – strutturato, non strutturato, semi-strutturato o binario – per consentire l'estensione dell'analisi a più tipologie di dati potrebbero essere necessarie operazioni di conversione, normalizzazione o altre elaborazioni. Per motivi dovuti ai grandi volumi di dati archiviati, alla necessità di collegamento ad alta velocità con le sorgenti distribuite e all'esigenza di scalabilità, i data lake risiedono generalmente nel cloud.

    ETL è l'acronimo di “extract, transform, and load”, ossia estrazione, trasformazione e caricamento. Insieme, queste attività danno vita al processo utilizzato per prelevare i dati dalla sorgente e convertirli in un formato utilizzabile per poi trasferirli in un data warehouse o altro archivio di dati. Il processo di ETL si rivela particolarmente utile sui dati transazionali, ma con strumenti più avanzati diventa possibile gestire anche una varietà di tipi di dati non strutturati.

    Il data mart è un segmento partizionato di data warehouse finalizzato a uno specifico reparto o area aziendale, quali la finanza o il marketing. Grazie ai data mart i reparti possono non solo accedere facilmente ai dati e alle analisi di loro competenza, ma anche tenere sotto controllo i propri set di dati all'interno dell'archivio generale.

    Un ruolo cardine ai fini dello sviluppo e analisi software è affidato ai modelli di dati. Il modello di dati è una descrizione del modo in cui i dati sono strutturati e della forma in verranno archiviati nel database. Il modello di dati stabilisce un quadro di relazioni tra gli elementi dati all'interno di un database, e funge da guida per l'utilizzo dei dati stessi.

     

    La modellazione dati è il processo che si concretizza nella creazione dei modelli di dati. Nel creare una struttura di database o di data warehouse, il designer inizia con uno schema dei flussi di dati in entrata e in uscita dal database o dal data warehouse. Questo diagramma di flusso servirà a definire le caratteristiche dei formati di dati, le strutture e le funzioni di gestione del database per supportare in modo efficiente i requisiti del flusso di dati. La modellazione si propone come un metodo standardizzato per la definizione e la formattazione del contenuto dei database in modo coerente in tutti i sistemi, in modo da consentire ad applicazioni diverse di condividere gli stessi dati. 

    Il data warehouse aziendale, o EDW (Enterprise Data Warehouse), è l'archivio centralizzato in cui confluiscono tutti i dati dell'azienda attuali e storici – una significativa esemplificazione della gestione delle anagrafiche, del data warehousing e di una strategia dati basata su un approccio olistico alla gestione dei dati. Gli EDW si presentano come un ambiente particolarmente favorevole per il software di analisi e la manutenzione di KPI e report accurati su scala aziendale . Per accentuarne le caratteristiche di scalabilità, facilità di accesso e utilizzo intuitivo, gli EDW sono spesso distribuiti sul cloud.

    SAP Insights Newsletter

    placeholder
    Abbonati subito

    Acquisisci informazioni approfondite iscrivendoti alla nostra newsletter.

    Approfondimenti

    Torna all'inizio