Vai al contenuto
Cosa sono i Big Data?

Cosa sono i Big Data?

I Big Data sono il mare di informazioni in cui nuotiamo ogni giorno – smisurati zettabyte di dati in un flusso continuo che attraversa computer, dispositivi mobili e sensori di macchinari. Questi dati vengono utilizzati dalle organizzazioni per orientare le decisioni, migliorare i processi e le politiche e creare prodotti, servizi ed esperienze incentrati sul cliente. I Big Data sono definiti “grandi” non solo per il volume, ma anche per la varietà e la complessità che li contraddistingue. In genere, vanno oltre le capacità di acquisizione, gestione ed elaborazione dei database tradizionali. Non solo: i Big Data possono provenire da qualsiasi luogo o oggetto sulla Terra che l'uomo possa monitorare digitalmente. Satelliti meteorologici, dispositivi collegati all'Internet of Things (IoT), telecamere del traffico, tendenze dei social media – sono solo alcune delle fonti di dati che vengono perlustrate e analizzate per rendere le aziende più resilienti e competitive.

L'importanza dell'analisi dei Big Data

Il reale valore dei Big Data dipende dalla misura in cui si lasciano analizzare e comprendere. L'intelligenza artificiale (AI), il machine learning e le moderne tecnologie di database consentono l'analisi e la rappresentazione grafica dei Big Data per ottenere insight su cui agire – in tempo reale. L'analisi dei Big Data aiuta le aziende a mettere i dati al loro servizio – per realizzare nuove opportunità e creare modelli di business. Come opportunamente affermato da Geoffrey Moore, autore e analista gestionale, "Senza l'analisi dei Big Data, le aziende sono cieche e sorde, perse sul Web come un cervo su un'autostrada".

Per una spiegazione di Big Data e analisi

L'evoluzione dei Big Data

Per quanto oggi possa sembrare inconcepibile, il computer di bordo dell'Apollo portò la prima astronave sulla luna con neppure 80 kilobyte di memoria. Da allora, la tecnologia del calcolo informatico è cresciuta a un tasso esponenziale, e la generazione di dati ha fatto altrettanto. Per la precisione, la capacità tecnologica mondiale di memorizzare dati è raddoppiata circa ogni tre anni a partire dagli anni Ottanta. Poco più di 50 anni fa, quando l'Apollo 11 lasciò la Terra, la quantità di dati digitali generati in tutto il mondo avrebbe potuto essere contenuta in un comune computer portatile di oggi. Nel 2020, secondo le stime di IDC sono stati creati o replicati 64,2 ZB di dati e "La quantità di dati digitali che sarà creata nei prossimi cinque anni supererà di due volte la quantità di dati creati dall'avvento dell'archiviazione digitale". 

64,2

zettabyte di dati digitali creati nel 2020 – IDC

2

x

i dati creati nei prossimi 5 anni saranno il doppio di quelli generati dall'avvento dello storage digitale – IDC

Più il software e la tecnologia evolvono verso soluzioni avanzate, più il confronto con i sistemi non digitali diventa improponibile. I dati generati e raccolti in formato digitale richiedono sistemi di gestione più avanzati per essere manipolati. Inoltre, la crescita esponenziale delle piattaforme di social media, delle tecnologie per smartphone e dei dispositivi IoT connessi digitalmente ha contribuito a dare vita all'attuale epoca dei Big Data.

Tipologie di Big Data: dati strutturati e non strutturati a confronto

I set di dati sono generalmente suddivisi in tre tipologie, in base a come sono strutturati e a quanto (poco) si prestano all'indicizzazione.

Le tre tipologie di Big Data

Tipologie di Big Data
  1. Dati strutturati: questo tipo di dati è il più semplice da organizzare e consultare. Ne sono esempi i dati finanziari, i registri delle macchine e i dettagli demografici. Il foglio di calcolo Excel, con il suo layout di colonne e righe predefinite, suggerisce in modo efficace un'idea di dati strutturati. I suoi componenti sono facilmente classificabili, il che consente ai designer e agli amministratori di database di definire algoritmi semplici per la consultazione e l'analisi. Anche se presenti in volumi considerevoli, i dati strutturati non si qualificano necessariamente come Big Data perché essendo per natura relativamente semplici da gestire non soddisfano i criteri di definizione dei Big Data. Tradizionalmente, per gestire i dati strutturati i database utilizzano un linguaggio di programmazione noto con la sigla SQL (Structured Query Language). Il linguaggio SQL è stato messo a punto da IBM negli anni '70 per consentire agli sviluppatori di creare e gestire i database relazionali (sul modello del foglio di calcolo) che stavano iniziando a prendere piede in quel momento.  
  2. Dati non strutturati: in questa categoria di dati rientrano voci disparate, che vanno dai post sui social media ai file audio, dalle immagini ai commenti liberi dei clienti. Questa tipologia di dati non è facilmente inquadrabile nei normali database relazionali a colonne e righe. Tradizionalmente, le aziende che intendevano consultare, gestire o analizzare grandi quantità di dati non strutturati erano costrette a ricorrere a laboriosi processi manuali. Sul potenziale valore dell'analisi e della comprensione di tali dati non sono mai sorti dubbi, ma i costi esorbitanti delle relative procedure hanno spesso finito per scoraggiarle. Considerati i tempi che richiedevano, i risultati rischiavano l'obsolescenza ancor prima di essere consegnati. Al posto dei fogli di calcolo o dei database relazionali, i dati non strutturati vengono solitamente archiviati in data lake, data warehouse e database NoSQL.
  3. Dati semi-strutturati: come suggerito dal nome, i dati semi-strutturati sono una forma ibrida di dati strutturati e non strutturati. Un esempio significativo è suggerito dai messaggi e-mail, che contengono dati non strutturati nel corpo del messaggio, oltre a elementi più organizzati quali mittente, destinatario, oggetto e data. Anche i dispositivi che utilizzano la georeferenziazione, le marche temporali (time stamp) o i tag semantici possono fornire dati strutturati unitamente a contenuti non strutturati. Una foto non identificata dello smartphone, per esempio, può comunque dirti che si tratta di un selfie e specificare il momento e il luogo in cui è stata scattata. Oltre a identificare all'istante diversi tipi di dati, un database evoluto e supportato dalla tecnologia AI è anche in grado di generare algoritmi in tempo reale per gestire e analizzare efficacemente i diversi set di dati chiamati in causa. 

Le fonti dei Big Data

La gamma di oggetti capaci di generare dati sta crescendo a un ritmo inarrestabile, e spazia dai droni satellitari ai tostapane. Volendo introdurre una categorizzazione è comunque possibile suddividere le fonti di dati in tre tipologie:

 

Le fonti dei Big Data

Dati social

Come suggerito dal nome, i dati social sono generati da commenti, post, immagini e, in misura crescente, video che circolano sui social media. E con la crescente diffusione su scala planetaria delle reti cellulari 4G e 5G, si stima che il numero di persone al mondo che guardano regolarmente contenuti video sui propri smartphone salirà a 2,72 miliardi entro il 2023. Sebbene le tendenze nei social media e negli usi che se ne fanno tendano a evolvere rapidamente e imprevedibilmente, ciò che non cambia è la loro crescita costante come generatori di dati digitali.

 

Dati macchina

I dispositivi e le macchine collegati a una rete IoT sono dotati di sensori e hanno la capacità di trasmettere e ricevere dati digitali. I sensori IoT permettono alle aziende di raccogliere ed elaborare i dati macchina provenienti da dispositivi, veicoli e apparecchiature in uso presso l'intera struttura. Su scala mondiale, il numero di oggetti che generano dati è in rapida crescita, e vanno dai sensori meteorologici e del traffico alla sorveglianza di sicurezza. IDC stima che entro il 2025 saranno più di 40 miliardi i dispositivi IoT operanti sul pianeta e produrranno quasi la metà dei dati digitali totali del mondo.

 

Dati transazionali

Fra le varie tipologie di dati, sono forse quelli in più rapida evoluzione e crescita al mondo. È noto per esempio che una grande catena di distribuzione internazionale elabora ogni ora oltre un milione di transazioni con i clienti. Se pensiamo poi a tutte le transazioni di acquisto e bancarie del mondo, otteniamo un quadro eloquente del volume sbalorditivo di dati che vengono generati. In aggiunta, a renderne ancor più complessa la gestione e l'elaborazione, nella composizione dei dati transazionali entrano con sempre maggior peso i dati semi-strutturati, con elementi come immagini e commenti.  

Le cinque V che definiscono i Big Data

Un grande set di dati non è necessariamente un esempio di Big Data. Per meritarsi tale qualifica, i dati devono possedere almeno le cinque caratteristiche seguenti:

Le cinque caratteristiche dei Big Data, le cosiddette "5V"

Le 5 V dei big Data
  1. Volume: pur non essendo il fattore che determina di per sé il titolo di "grande" per i Big Data, il volume è indiscutibilmente una caratteristica primaria. Per gestire e sfruttare appieno i Big Data, sono necessari algoritmi avanzati e strumenti analitici guidati dall'AI. Ma perché questo sia possibile, occorre dotarsi di un sistema sicuro e affidabile per poter archiviare, organizzare e recuperare i molti terabyte di dati accumulati dalle grandi aziende.
  2. Velocità: in passato tutti i dati che venivano generati dovevano essere immessi successivamente in un sistema di database tradizionale – spesso manualmente – prima di poter essere analizzati o recuperati. Oggi la tecnologia dei Big Data consente ai database di elaborare, analizzare e configurare i dati nel momento stesso in cui vengono generati – a volte nel giro di millisecondi. Per le aziende ne consegue la possibilità di utilizzare i dati in tempo reale per cogliere opportunità finanziarie, rispondere alle esigenze dei clienti, contrastare le frodi e affrontare qualsiasi altra attività in cui la velocità è decisiva.
  3. Varietà: i set di dati composti esclusivamente da dati strutturati non sono necessariamente Big Data, per quanto voluminosi possano essere. I Big Data sono tipicamente costituiti da combinazioni di dati strutturati, non strutturati e semi-strutturati. I database tradizionali e le comuni soluzioni per la gestione dati non hanno la flessibilità e l'ambito di applicazione necessari per gestire i set di dati complessi ed eterogenei che compongono i Big Data.
  4. Veridicità: la tecnologia dei database più evoluti consente alle aziende di accumulare e organizzare logicamente quantità sorprendenti di Big Data delle più svariate tipologie, ma questi sono utili solo ed esclusivamente se accurati, pertinenti e puntuali. Nel caso dei database tradizionali che venivano popolati solo con dati strutturati, l'accuratezza dei dati era tipicamente esposta alla minaccia degli errori sintattici e dei refusi. Con i dati non strutturati, la veridicità è messa in crisi da tutta una nuova serie di problematiche. La parzialità del giudizio umano, il rumore prodotto sui social media e la provenienza dei dati sono altrettante questioni in grado di condizionare la qualità dei dati.
  5. Valore: è innegabile come l'analisi dei Big Data riesca spesso a produrre risultati intriganti e sorprendenti. Per le aziende, tuttavia, l'esito di tali analisi deve essere l'emersione di conoscenze che possano aiutarle a diventare più competitive e resilienti – e a servire meglio i propri clienti. Le moderne tecnologie dei Big Data rendono concreta la possibilità di raccogliere e recuperare dati capaci di produrre benefici misurabili sia per gli utili che per la resilienza operativa.

I vantaggi dei Big Data

Le moderne soluzioni di gestione dei Big Data consentono alle aziende di trasformare i dati grezzi in conoscenze pertinenti – a una velocità e con una precisione senza precedenti.

  • Sviluppo di prodotti e servizi: l'analisi dei Big Data consente agli sviluppatori di prodotti di analizzare dati non strutturati, quali le recensioni dei clienti e le tendenze culturali, e di reagire prontamente.
  • Manutenzione predittiva: da un sondaggio condotto da McKinsey su scala internazionale è emerso che l'analisi dei Big Data provenienti da macchine abilitate all'IoT ha ridotto fino al 40% i costi di manutenzione delle attrezzature.
  • Customer Experience: da un sondaggio condotto nel 2020 tra dirigenti di aziende globali, Gartner ha concluso che "le aziende in crescita raccolgono i dati sulla customer experience in modo più attivo rispetto a quelle che hanno smesso di crescere". L'analisi dei Big Data permette alle imprese di migliorare e personalizzare l'esperienza vissuta dai clienti con il loro brand.
  • Resilienza e gestione del rischio: l'emergenza COVID-19 è stata un brusco risveglio per molti leader aziendali, che si sono resi conto della loro vulnerabilità rispetto al rischio di interruzione delle attività. Gli insight generati dai Big Data possono aiutare le aziende ad anticipare il rischio e a prepararsi agli imprevisti.
  • Risparmi sui costi e maggiore efficienza: le aziende che applicano l'analisi avanzata dei Big Data in tutti i processi all'interno della loro organizzazione riescono non solo a individuare le inefficienze, ma anche a implementare soluzioni rapide ed efficaci.
  • Miglioramento della competitività: gli insight ricavati dai Big Data possono aiutare le aziende a risparmiare denaro, gratificare i clienti, creare prodotti migliori e innovare nelle operazioni di business.

AI e Big Data

La gestione dei Big Data è possibile solo in presenza di sistemi capaci di elaborare e analizzare in modo significativo ingenti quantità di informazioni eterogenee e complesse. In questa ottica tra i Big Data e l'AI esiste una relazione di sostanziale reciprocità. Senza l'organizzazione e l'analisi ad opera dell'intelligenza artificiale, i Big Data non troverebbero grandi sbocchi pratici. A sua volta, l'AI dipende dall'ampiezza dei set di dati contenuti nei Big Data per poter generare analisi sufficientemente solide da trasformarsi in azione. Per dirla con le parole dell’analista di Forrester Research Brandon Purcell, “I dati sono la linfa vitale dell’AI. Un sistema di AI deve apprendere dai dati per poter esercitare la sua funzione.”

I dati sono la linfa vitale dell'AI. Un sistema di AI deve apprendere dai dati per poter esercitare la sua funzione.

– Brandon Purcell, analista di Forrester Research

Machine learning e Big Data

Gli algoritmi di machine learning definiscono i dati in entrata e individuano schemi al loro interno. Gli insight così ottenuti servono alle aziende per prendere decisioni più consapevoli e automatizzare i processi. Il machine learning dà il meglio di sé con i Big Data perché quanto più robusti sono i set di dati analizzati, tanto maggiore è l'opportunità per il sistema di apprendere ed evolvere costantemente, anche adattando i propri processi.

Tecnologie di Big Data

Architettura di Big Data

 

Come in un progetto edilizio, l'architettura dei Big Data stabilisce la planimetria per gettare le fondamenta del modo in cui le aziende gestiranno e analizzeranno i loro dati. L'architettura dei Big Data traccia la mappa dei processi necessari per gestirli nel percorso che attraversa i quattro “livelli” di base, dalle fonti di dati all'archiviazione, passando per l'analisi e per approdare infine al livello del consumo, in cui i risultati analizzati vengono presentati sotto forma di business intelligence.

 

Analisi dei Big Data

 

Questo processo consente una rappresentazione grafica significativa dei dati tramite la modellazione e algoritmi specifici per le caratteristiche dei Big Data. In uno studio approfondito condotto dalla MIT Sloan School of Management e accompagnato da un sondaggio, più di 2.000 dirigenti aziendali sono stati interpellati sull'esperienza della loro azienda riguardo all'analisi dei Big Data. Come ampiamente prevedibile, le aziende che sostenevano attivamente lo sviluppo di strategie interne di gestione dei Big Data erano quelle che vantavano i risultati di business più significativi.

 

Big Data e Apache Hadoop

 

Immagina 10 monete da dieci centesimi in un'unica grande scatola contenente anche 100 monete da cinque centesimi. Poi immagina 10 scatole più piccole, una accanto all'altra, ciascuna con 10 monete da cinque centesimi e una sola da dieci. In quale situazione è più facile capire dove si trovano le monete da 10? Il funzionamento di Hadoop si basa sostanzialmente su questo principio. È un framework open-source per la gestione dell'elaborazione di Big Data distribuiti in una rete di numerosi di computer connessi. In questo modo, anziché ricorrere a un unico grande computer per archiviare ed elaborare tutti i dati, Hadoop raggruppa un certo numero di computer in una rete scalabile praticamente all'infinito per analizzare i dati in parallelo. Il processo si basa tipicamente su un modello di programmazione denominato MapReduce, che coordina l'elaborazione dei Big Data organizzando l'attività dei computer distribuiti.

 

Data lake, data warehouse e NoSQL

 

Per l'archiviazione dei dati strutturati vengono utilizzati database basati sul tradizionale foglio di calcolo SQL. Per i Big Data non strutturati e semi-strutturati, che non si prestano ad essere indicizzati e categorizzati, occorrono invece paradigmi di archiviazione ed elaborazione specifici. I data lake, i data warehouse e i database NoSQL sono altrettanti repository capaci di gestire set di dati di tipo non tradizionale. Il data lake è un vasto bacino di dati grezzi, ossia che devono ancora essere elaborati. Il data warehouse è un repository di dati che sono già stati elaborati per uno scopo specifico. I database NoSQL si basano su uno schema flessibile che può essere modificato per adattarsi alla natura dei dati da elaborare. Ognuno con i suoi punti di forza e di debolezza, questi sistemi possono essere utilizzati in combinazione, come fanno molte imprese per rispondere al meglio alle proprie esigenze.

 

Database in-memory

 

I tradizionali database installati su disco sono stati sviluppati in funzione delle tecnologie dei database relazionali e SQL. Pur essendo perfettamente in grado di gestire grandi volumi di dati strutturati, non sono progettati per archiviare ed elaborare i dati non strutturati. Con i database in-memory, l'elaborazione e l'analisi vengono eseguite interamente nella RAM, e i dati non devono essere richiamati da un sistema basato su disco. Anche i database in-memory sono costruiti su architetture distribuite. Ciò significa che possono raggiungere velocità di gran lunga superiori sfruttando l'elaborazione in parallelo, al contrario dei modelli di database a nodo singolo e basati su disco.

Come funzionano i Big Data

I Big Data funzionano quando, una volta analizzati, si traducono in insight pertinenti e fruibili, capaci di migliorare il business in modo misurabile. Nel predisporsi alla trasformazione dei Big Data, le aziende dovrebbero verificare che i propri sistemi e processi siano adeguati e pronti per raccogliere, archiviare e analizzare tali dati.

I tre passaggi principali per l'utilizzo dei Big Data

Come funzionano i Big Data
  1. Raccogliere i Big Data. La maggior parte dei Big Data è costituita da imponenti set di dati non strutturati provenienti da fonti disparate e disomogenee. I meccanismi di integrazione dei tradizionali database installati su disco non sono semplicemente adeguati al compito di manipolare tali dati. La gestione dei Big Data richiede infatti l'adozione di database in-memory e di soluzioni software specifiche per la loro acquisizione.
  2. Archiviare i Big Data. Come suggerisce il nome stesso, i Big Data sono voluminosi. Molte aziende che dispongono di soluzioni di archiviazione on-premise riservate ai propri dati sperano di risparmiare riconvertendo tali repository in vista del fabbisogno di elaborazione dei Big Data. Per funzionare al meglio, tuttavia, i Big Data non devono essere soggetti a vincoli di dimensioni e memoria. Le aziende che scelgono di non incorporare fin dal principio soluzioni di storage in cloud nei loro modelli di Big Data finiscono spesso per rimpiangere la mancata decisione soltanto pochi mesi dopo.
  3. Analizzare i Big Data. Senza l'applicazione delle tecnologie di AI e machine learning all'analisi dei Big Data, è semplicemente impossibile sfruttarne l'intero potenziale. Una delle cinque V dei Big Data è la “Velocità”. Per essere realmente utili e fruibili, gli insight dei Big Data devono essere messi a disposizione con rapidità. I processi di analisi devono essere auto-ottimizzanti, ossia capaci di apprendere sistematicamente dall'esperienza – e tale risultato può essere raggiunto solo con le funzionalità di AI e le moderne tecnologie di database.

Applicazioni dei Big Data


Gli insight e le conoscenze approfondite che si ricavano dai Big Data possono offrire vantaggi praticamente a qualsiasi azienda o settore. Spesso, tuttavia, sono solo le grandi organizzazioni, con compiti operativi complessi, a riuscire a fare un uso realmente incisivo dei Big Data.

  • Finanza
    Uno studio pubblicato nel 2020 dal Journal of Big Data sottolinea che questa tipologia di dati "svolge un ruolo importante nella trasformazione del settore dei servizi finanziari, in particolare in termini di commercio e investimenti, riforma fiscale, individuazione e accertamento delle frodi, analisi dei rischi e automazione". I Big Data hanno peraltro contribuito a trasformare il settore finanziario attraverso l'analisi dei dati e del feedback dei clienti, fornendo preziose informazioni necessarie per migliorare in termini di customer satisfaction e customer experience. Tra le varie tipologie, i set di dati transazionali sono forse quelli più voluminosi e in più rapida evoluzione al mondo. Il ricorso sempre più diffuso alle soluzioni di gestione avanzata dei Big Data aiuterà le banche e gli istituti finanziari a proteggere questi dati e a sfruttarli in modo da favorire e tutelare sia il cliente che l'azienda.
  • Sanità
    L'analisi dei Big Data consente agli operatori sanitari di formulare diagnosi più accurate e basate su elementi comprovati. Non solo, i Big Data aiutano gli amministratori delle strutture ospedaliere a riconoscere le tendenze, gestire i rischi e ridurre al minimo le spese superflue – indirizzando le più alte quote di budget possibili alle aree di cura dei pazienti e ricerca. Nel pieno della pandemia, ricercatori di tutto il mondo sono scesi in campo per scoprire metodi più efficaci per trattare e gestire il COVID-19 – e i Big Data hanno svolto un ruolo di primissimo piano in questo processo. Un articolo del luglio 2020 apparso su The Scientist riporta come le équipe mediche hanno saputo collaborare analizzando i Big Data per contribuire alla lotta contro il coronavirus: "Abbiamo i mezzi per trasformare il modo di condurre la scienza clinica, sfruttando gli strumenti e le risorse dei Big Data e della data science dati in modi finora impossibili."
  • Trasporti e logistica
    "Effetto Amazon" è l'espressione che testimonia il modo in cui il colosso dell'e-commerce ha talmente abituato i consumatori alla consegna entro le 24 ore che ora quel tipo di servizio viene richiesto per qualsiasi ordine effettuato online. La rivista Entrepreneur sottolinea che come diretta conseguenza dell’effetto Amazon, “la corsa all'ultimo miglio scatenerà la concorrenza nella logistica”. Le società di servizi logistici si affidano in misura crescente all'analisi dei Big Data per ottimizzare la pianificazione degli itinerari, il consolidamento dei carichi e le misure di efficienza energetica.
  • Istruzione
    Durante la pandemia, gli istituti di insegnamento di tutto il mondo hanno dovuto reinventare programmi e metodi didattici per sostenere l'apprendimento a distanza. Tra i principali nodi da sciogliere vi era l'individuazione di un metodo affidabile per analizzare e valutare il rendimento degli studenti e l’efficacia complessiva dei metodi di didattica online. Un articolo del 2020 sull'impatto dei Big Data sull'istruzione e l'apprendimento online rimarcava quanto segue in ordine agli insegnanti: "I Big Data li fanno sentire molto più sicuri nella personalizzazione dell'istruzione, nella messa a punto della didattica mista, nella trasformazione dei sistemi di valutazione e nella promozione dell'apprendimento permanente".
  • Energia e Utilities
    Secondo il Bureau of Labor Statistics, le aziende statunitensi di pubblici servizi spendono oltre 1,4 miliardi di dollari per la lettura dei contatori, affidandosi in genere a strumenti analogici e a letture manuali sporadiche. I lettori di contatori intelligenti forniscono dati digitali più volte al giorno e, con il vantaggio dell'analisi dei Big Data, queste informazioni possono orientare un consumo più efficiente dell'energia e formule più accurate di tariffazione e previsioni. Inoltre, una volta liberati i lavoratori dalle mansioni di lettura dei contatori, l'analisi dei dati acquisiti può suggerire più rapidamente gli interventi più urgenti di riparazioni e sostituzioni a cui destinarli.
placeholder

Esplora le soluzioni SAP di gestione dati

Gestisci la tua infrastruttura di dati diversificati e unifica i dati per rendere più trasparente il business.

Altri capitoli della serie

Domande frequenti sui Big Data

Nei Big Data confluiscono tutti i dati – strutturati e non strutturati – provenienti da una varietà di fonti disparate e di potenziale interesse per l'azienda. Una volta analizzati, vengono utilizzati per ottenere conoscenze più approfondite e informazioni più accurate su tutte le aree operative di un'azienda e sul mercato in cui opera.   

Per "tecnologia dei Big Data" si intende l'insieme di strumenti, software e metodi impiegati per elaborare e analizzare i Big Data – quali il data mining e le operazioni di archiviazione, condivisione e rappresentazione grafica dei dati.

Apache Hadoop è una soluzione software open-source di elaborazione distribuita. Il suo scopo è velocizzare e facilitare la gestione dei Big Data mettendo in connessione diversi computer per l'elaborazione dei Big Data in parallelo.

Apache Spark è una soluzione software open-source di elaborazione distribuita. Il suo scopo è velocizzare e facilitare la gestione dei Big Data mettendo in connessione diversi computer per l'elaborazione dei Big Data in parallelo. Sebbene il suo predecessore Hadoop sia molto più diffuso, Spark sta guadagnando popolarità grazie all'utilizzo del machine learning e di altre tecnologie che ne aumentano la velocità e l'efficienza.  

Il data lake è un repository in cui è possibile archiviare e recuperare quantità consistenti di dati grezzi e non strutturati. I data lake sono necessari perché i Big Data sono perlopiù dati non strutturati che non possono essere memorizzati in un tradizionale database relazionale a colonne e righe. 

I dark data sono tutti i dati che le aziende raccolgono nell'ambito delle normali operazioni di business (come i filmati di sorveglianza e i file di registro dei siti web). Vengono salvati a scopo di conformità, ma di norma non trovano alcun impiego. Sono grandi set di dati il cui costo di archiviazione supera il valore da essi generato. 

Per "data fabric" si intende l'integrazione dell'architettura e delle tecnologie dei Big Data in un intero ecosistema aziendale. Il suo scopo è mettere in connessione i Big Data provenienti da tutte le fonti e di qualsiasi tipo con tutti i servizi di gestione dati in ogni area dell'azienda.  

SAP Insights Newsletter

placeholder
Abbonati subito

Acquisisci informazioni approfondite iscrivendoti alla nostra newsletter.

Approfondimenti

Torna all'inizio