
Glossario di gestione dati
Consulta il nostro glossario di gestione dati per passare in rassegna i termini e le definizioni in uso in questo ambito.
Il database è uno strumento che permette di organizzare, archiviare, gestire, proteggere e controllare l'accesso ai dati. I criteri di progettazione dei database rispondono a schemi di natura diversa, che in molti casi si richiamano al modello relazionale per la facilità di accesso da parte di programmi e query di dati. Tra i tipi più comuni di database troviamo i sistemi di gestione database relazionali (RDBMS), i database in-memory, i database orientati agli oggetti (OODBMS), i database NoSQL e i database NewSQL, ognuno con i propri vantaggi.
La gestione dei dati è l'insieme delle funzioni necessarie per raccogliere, controllare, salvaguardare, manipolare e fornire dati. I sistemi di gestione dati si articolano in database, data warehouse e data mart; strumenti per la raccolta, l'archiviazione e il recupero dei dati; e funzionalità a supporto della validazione, qualità e integrazione con applicazioni e strumenti analitici. Le aziende devono dotarsi di una strategia di dati per definire linee di rendicontabilità dei dati che hanno origine in particolari aree di responsabilità o le caratterizzano in modo specifico.
Per "gestione database" si intende il complesso di processi e procedure necessari per archiviare, trattare, manipolare e salvaguardare i dati. Presso numerose organizzazioni, il compito di definire e supervisionare tali procedure spetta principalmente all'amministratore database (DBA) o posizione analoga. Il più delle volte, le organizzazioni si affidano a sistemi di gestione database (DBMS) disponibili in commercio come strumento primario per la gestione dei propri database.
Il sistema di gestione database (DBMS) è un insieme di strumenti software con cui è possibile creare una struttura di archiviazione e un sistema di gestione dati dei database. Il DBMS può essere parte integrante di un sistema ERP (enterprise resource planning) acquisito in licenza, oppure uno specifico acquisto obbligatorio, parte del software di sistema (sistema operativo) o un prodotto software con licenza separata. Indipendentemente dalla provenienza, è essenziale che le applicazioni siano sviluppate attorno al DBMS e/o completamente integrate con esso, in quanto è da questa reciproca interrelazione che dipende il funzionamento efficace delle une e dell'altro. Il DBMS è sostanzialmente un toolkit per la gestione dei database.
Il database SQL è un database relazionale che archivia i dati in tabelle e righe. Le righe sono collegate sulla base di elementi dati comuni per consentire efficienza, evitare ridondanze e facilitare un recupero semplice e flessibile. Acronimo di Structured Query Language, SQL è il toolkit e protocollo di interrogazione in linguaggio naturale che gli utenti possono apprendere e applicare a qualsiasi database compatibile per l'archiviazione, la manipolazione e il recupero dei dati.
I database NoSQL sono stati messi a punto per poter gestire i dati non strutturati, che proprio per questa loro caratteristica non sono supportati dal linguaggio SQL. Per aggirare questa limitazione, il NoSQL si affida a tecniche creative quali gli schemi dinamici e vari processi di pre-elaborazione. I tipi più comuni di database per dati non strutturati sono quelli di chiave-valore, documenti, colonne e grafici e spesso includono elementi come video, immagini, testo libero e output grezzo di sensori.
Il sistema di gestione database relazionale (DBMS) è così denominato perché si basa sul modello dati relazionale. I contenuti dell'RDBMS sono memorizzati in tabelle composte da righe e colonne, ciascuna delle quali rappresenta uno specifico oggetto o entità del database che può essere correlato a un altro. Un RDBMS è generalmente composto da più tabelle e include funzioni aggiuntive per salvaguardare l'accuratezza, l'integrità e la sicurezza dei dati, oltre a un'interfaccia SQL per accedere ai dati in relazione gli uni con gli altri, tramite interrogazioni complesse.
CDBMS è una sigla coniata da Gartner per indicare principalmente un modello di distribuzione cloud per la soluzione RDBMS descritta sopra.
I dati strutturati vengono formattati correttamente in righe e colonne e mappati a campi predefiniti. Tipicamente archiviati in fogli di calcolo Excel o database relazionali, riguardano per esempio transazioni finanziarie, informazioni demografiche e registri di macchine. Fino a poco tempo fa, i dati strutturati rappresentavano l'unica tipologia di dati utilizzabile per le aziende.
Non essendo organizzati in righe e colonne, i dati non strutturati non si prestano facilmente a operazioni di archiviazione, analisi e ricerca. A titolo di esempio si possono citare i dati dell'Internet of Things (IoT), i file video e audio, i commenti postati sui social media o le trascrizioni dei call center. I dati non strutturati vengono generalmente archiviati nei data lake, nei database NoSQL o nei moderni data warehouse.
I dati semi-strutturati rispondono ad alcuni criteri di organizzazione, quali i tag semantici o i metadati, ma non si presentano nella forma di righe e colonne del foglio elettronico o del database relazionale. Un valido esempio di dati semi-strutturati è dato dall'e-mail, che include alcuni dati strutturati, come gli indirizzi del mittente e del destinatario, ma anche dati non strutturati, come il corpo del messaggio stesso.
La mappatura dei dati è il processo di associazione di campi alle diverse strutture di dati o database. Si tratta di un passaggio indispensabile se si prevedono operazioni di combinazione di database, migrazione di dati da un sistema o database a un altro o se all'interno della stessa applicazione o tool analitico occorre utilizzare fonti di dati diverse, come accade spesso nel data warehousing. La mappatura dei dati permette di identificare informazioni univoche, in conflitto e duplicate in modo da poter sviluppare un insieme di regole con cui ricondurre tutti i dati in uno schema o formato coordinato.
Nel creare una struttura di database nuova o alternativa, il progettista inizia con un diagramma del flusso di dati in entrata e in uscita dal database. La generazione di diagrammi dei flussi di dati prende il nome di modellazione dei dati. A partire da questo diagramma di flusso gli ingegneri del software possono definire le caratteristiche dei formati di dati, le strutture e le funzioni di gestione del database per supportare in modo efficiente i requisiti del flusso di dati.
Il data warehouse offre una soluzione unica e completa per l'archiviazione dei dati provenienti da molteplici fonti diverse, sia interne che esterne. Il suo scopo principale è quello di mettere a disposizione i dati destinati alle funzioni di business intelligence (BI), reporting e analisi. I data warehouse più evoluti sono in grado di archiviare e gestire tutti i tipi di dati, strutturati e non strutturati, e vengono generalmente distribuiti nel cloud per esaltarne le prerogative di scalabilità e facilità d'uso.
Il data lake è un vasto bacino di dati archiviati nel loro formato grezzo o naturale. I data lake sono generalmente finalizzati alla memorizzazione dei Big Data, grandi combinazioni di dati strutturati, non strutturati e semi-strutturati.
Con il termine "Big Data" si fa riferimento a set estremamente voluminosi di dati strutturati, non strutturati e semi-strutturati. I Big Data sono spesso caratterizzati dalle cosiddette "cinque V": il semplice volume dei dati raccolti, la varietà dei tipi di dati, la velocità alla quale vengono generati, la veridicità e il loro valore. Avvalendosi di appositi sistemi e analisi, le aziende possono perlustrare i Big Data per estrarne conoscenze approfondite con cui guidare il processo decisionale e le azioni.
A differenza dei Big Data, altamente complessi e voluminosi, gli "small data" sono facilmente comprensibili all'operatore umano. I set di small data racchiudono fonti disparate, che vanno dai sondaggi di marketing ai comuni fogli di calcolo e possono essere tanto “small” quanto un singolo messaggio e-mail o post sui social media. Oltre ai Big Data, la aziende ricorrono in misura crescente agli small data per istruire i propri algoritmi di AI e machine learning, per ottenere insight sempre più approfonditi.
I "thick data" sono informazioni qualitative che aprono una visuale sulla vita emotiva quotidiana dei consumatori. Includono commenti, stati d'animo, reazioni e altri aspetti generalmente difficili da quantificare. Utilizzati in combinazione con i Big Data, permettono di tracciare un quadro estremamente ricco delle preferenze e necessità del consumatore.
L'integrazione dati è l'insieme delle operazioni di inserimento, trasformazione, combinazione e messa a disposizione dei dati, dove e quando sono necessari. L'integrazione non avviene unicamente all'interno dell'azienda, ma si estende anche ai partner nonché alle fonti e ai casi di utilizzo dei dati di terze parti, per soddisfare i requisiti di consumo di dati di tutte le applicazioni e di tutti i processi di business. Si basa su tecniche quali il trasferimento dei dati in massa/batch, l'estrazione, la trasformazione e il caricamento (ETL), l'acquisizione dei dati di modifica, la replicazione, la virtualizzazione, l'integrazione dei dati in streaming, l'orchestrazione dei dati e altro ancora.
La virtualizzazione dei dati mette a disposizione delle imprese una visione unificata di tutti i dati aziendali – anche in presenza di sistemi e formati eterogenei – in un layer virtuale. Anziché duplicarli, la virtualizzazione lascia i dati nei rispettivi sistemi di origine e ne presenta semplicemente una rappresentazione virtuale agli utenti e alle applicazioni in tempo reale. La virtualizzazione è un approccio moderno all'integrazione dei dati che consente agli utenti di scoprirli e manipolarli indipendentemente dalla loro ubicazione fisica o dal loro formato e protocollo.
Il data fabric è una combinazione personalizzata di architettura e tecnologia. Sfruttando l'integrazione e l'orchestrazione dinamica dei dati, mette in connessione ubicazioni, origini e tipologie di dati diverse. Con le opportune strutture e i flussi definiti nell'ambito della piattaforma di data fabric, le imprese possono accedere ai dati e condividerli rapidamente, indipendentemente da dove si trovano o da come sono stati generati.
Il data mesh è un approccio alla gestione dati che si avvale di un framework di architettura distribuita. In altre parole, ripartisce la proprietà e la responsabilità di specifici set di dati tra quegli utenti, all'interno dell'intera azienda, che possiedono le conoscenze specialistiche per capire cosa significano tali dati e sanno come utilizzarli al meglio.
La pipeline di dati si riferisce a un insieme di processi automatizzati e ripetibili finalizzati alla ricerca, pulizia, trasformazione e analisi dei dati di qualsiasi tipo alla loro origine. Il fatto che i dati vengano analizzati in prossimità del punto in cui sono generati permette agli utenti aziendali di analizzare e condividere rapidamente le informazioni di cui hanno bisogno a un costo inferiore per l'organizzazione. Grazie a tecnologie come il machine learning, le pipeline di dati possono inoltre essere potenziate in termini di rapidità ed efficacia.
Il silo di dati è una espressione gergale che indica una situazione in cui i singoli reparti o aree funzionali all'interno di un'azienda non condividono dati e informazioni gli uni con le altre. Questo isolamento vanifica gli sforzi coordinati verso gli obiettivi aziendali e si traduce in prestazioni scarse (e in un servizio clienti scadente), costi elevati e nell'incapacità generale di rispondere alle richieste e ai cambiamenti del mercato. I dati duplicati e ridondanti sono difficili da riconciliare, il che ostacola ulteriormente qualsiasi tentativo di coordinare le attività e gestire efficacemente l'azienda.
Per "wrangling dei dati" si intende un processo che consiste nel trasformare i dati grezzi in un formato compatibile con i database e le applicazioni di uso comune. Se necessario per dare utilità ai dati non elaborati, il processo può prevedere fasi di strutturazione, pulizia, arricchimento e convalida dei dati.
La sicurezza dei dati è il risultato del processo mirato a proteggere i dati ponendoli al riparo da accessi o esposizioni non autorizzati, incidenti o guasti del sistema e rendendoli al contempo facilmente accessibili a utenti e applicazioni legittimi. La crittografia dei dati, la gestione delle chiavi, le procedure di ridondanza e backup e i controlli di accesso sono solo alcuni dei metodi e strumenti utilizzati allo scopo. La sicurezza dei dati è un requisito irrinunciabile per le organizzazioni di tutte le dimensioni e di tutti i tipi che vogliono salvaguardare i dati interni e dei clienti contro le minacce sempre crescenti di violazioni e rischi per la privacy. La ridondanza e i backup sono importanti ai fini della continuità aziendale e dell'azione di disaster recovery.
La privacy dei dati si riferisce alle policy e alle pratiche riservate al trattamento dei dati per tutelarli contro ogni tentativo non autorizzato di accesso o divulgazione. Le policy e le pratiche di privacy specificano le modalità di raccolta e archiviazione delle informazioni secondo la strategia dell'organizzazione in materia di dati, le modalità di condivisione o meno delle stesse con soggetti terzi e le modalità di adesione alle restrizioni normative. La privacy dei dati è un imperativo aziendale che va incontro a una precisa aspettative dei clienti, proteggendo al contempo l'integrità e la sicurezza delle informazioni archiviate.
La qualità dei dati è un'espressione piuttosto nebulosa con cui si indica l'idoneità e l'affidabilità dei dati. Quando si parla di "buona qualità" si intende semplicemente che i dati sono precisi (fedelmente rappresentativi di ciò che indicano), attendibili (coerenti, verificabili, gestiti correttamente e protetti) e completi nella misura richiesta dagli utenti e dalle applicazioni. La qualità dei dati può essere garantita solo nel quadro di una strategia progettata e attuata adeguatamente, facendo appello a strumenti e sistemi di grande funzionalità e corredata da policy e procedure di gestione dei dati rispettate scrupolosamente.
La validazione dei dati è il processo che punta a determinare la qualità, l'accuratezza e la validità dei dati prima che vengano importati o utilizzati. La validazione si può concretizzare in una sequenza di attività e processi volti ad autenticare e in genere "pulire" gli elementi dati, eliminando per esempio i duplicati, correggendo gli errori o le omissioni evidenti e le eventuali modifiche di formattazione (ripulitura dei dati). Attraverso la validazione dei dati hai la certezza che le informazioni di cui hai bisogno per prendere decisioni importanti sono accurate e affidabili.
La ripulitura dei dati è il processo di eliminazione o correzione degli errori da set di dati, tabelle o database. Gli errori possono consistere in dati danneggiati o informazioni imprecise, irrilevanti o incomplete. Questo processo, anche noto come data scrubbing, permette di rilevare i dati duplicati e altre incoerenze come errori di battitura o set numerici non sommabili. La ripulitura dei dati può rimuovere le informazioni errate o correggere errori evidenti, per esempio campi vuoti o codici mancanti.
Per "integrità dei dati" si intende la veridicità dei dati nel lungo termine. Una volta che i dati sono stati immessi o sottoposti a operazioni di wrangling, validazione, ripulitura e archiviazione, l'integrità è una istruzione che indica che la qualità dei dati è stata preservata e gli utenti possono essere certi che i dati inseriti non hanno subito né subiranno alterazioni. I dati vengono recuperati esattamente così come sono stati originariamente archiviati. A volte usata come sinonimo di "qualità", l'integrità dei dati ha invece più a che fare con l'affidabilità e l'attendibilità.
La governance dei dati è un complesso di policy e pratiche finalizzate a garantire la corretta gestione dei dati nell'intera organizzazione. Definisce l'infrastruttura informatica e designa le persone (o le posizioni) che hanno sia l'autorità che la responsabilità della gestione e della salvaguardia di specifiche tipologie di dati. Un'efficace governance dei dati garantisce la disponibilità, l'affidabilità, la sicurezza e la conformità dei dati, scongiurando il rischio di usi impropri.
La stewardship dei dati è l'attuazione delle policy e procedure atte ad accertare accuratezza, affidabilità, integrità e sicurezza dei dati. I soggetti investiti delle responsabilità di stewardship dei dati gestiscono e supervisionano le procedure e gli strumenti impiegati per manipolare, archiviare e proteggere i dati.
L'architettura dei dati è il progetto complessivo della struttura, delle politiche e delle regole che definiscono i dati di un'organizzazione e le relative modalità di utilizzo e gestione. L'architettura dei dati stabilisce i dettagli delle modalità di attuazione della strategia dati a supporto delle esigenze e degli obiettivi aziendali – e funge da base per lo sviluppo di database, procedure, salvaguardie, sicurezza e governance dei dati.
Il Master Data Management (MDM) si pone l'obiettivo di creare un’unica sorgente di riferimento, appunto un “master”, per tutti i dati aziendali importanti. Comprende le policy e le procedure con cui definire, gestire e controllare (o governare) il trattamento dei dati anagrafici. La gestione centralizzata delle anagrafiche permette di ovviare ai problemi di conflitti e confusione che derivano dalla frammentarietà dei database con informazioni duplicate e dati non coordinati che potrebbero essere obsoleti, danneggiati o diventati incoerenti nel tempo, essendo stati aggiornati in un posto ma non in un altro. Avere una versione unica dei dati al servizio dell'intera azienda significa che tutte le parti interessate lavorano con le stesse definizioni, gli stessi standard e gli stessi presupposti.
Con il termine "analisi" si intende l'analisi sistematica dei dati. Le applicazioni e i toolkit di analisi contengono algoritmi matematici e motori computazionali in grado di manipolare grandi set di dati per far emergere schemi, tendenze, relazioni e altre informazioni di intelligence che permettono agli utenti di porre domande e ottenere preziosi insight sul business, le operazioni e i mercati. Numerosi toolkit di analisi avanzati sono stati pensati per l'uso anche da parte di addetti aziendali privi di formazione tecnica, affinché possano condurre queste analisi con un'assistenza minima dei data scientist o specialisti IT.
L'augmented analytics è una funzione di analisi che è stata “aumentata” con le tecnologie di intelligenza artificiale, come il machine learning e l'elaborazione del linguaggio naturale (NLP). Oltre a far emergere più facilmente insight più approfonditi, l'augmented analytics permette di automatizzare numerosi passaggi complicati del processo, consentendo anche agli utenti non tecnici di interrogare i dati nella forma di una conversazione naturale.
Il data mining è l'operazione di estrazione di informazioni utili da grandi set di dati. Il data mining è spesso affidato a utenti aziendali che utilizzano strumenti di analisi per portare alla luce schemi, tendenze, anomalie, relazioni, dipendenze e altre utili informazioni di intelligence. Il data mining trova impiego in svariate applicazioni, che vanno dall'individuazione di frodi e rischi di cybersecurity al miglioramento delle previsioni e alla ricerca di opportunità di miglioramento delle prestazioni.
La profilazione dei dati consiste nella raccolta di statistiche e caratteristiche riferite a un set di dati, quali accuratezza, completezza e validità. Per la sua capacità di rilevare problemi di qualità dei dati quali ridondanze, valori mancanti e incoerenze, la profilazione dei dati è una delle tecniche adottate nelle operazioni di validazione e ripulitura dei dati.
Cos'è la gestione dati?
Scopri come la tua organizzazione può trasformare i dati in una preziosa risorsa.
SAP Insights Newsletter
Abbonati subito
Acquisisci informazioni approfondite iscrivendoti alla nostra newsletter.