Cos'è il data mining?
Il data mining è l'estrazione di informazioni utili da grandi set di dati, utilizzando il machine learning e altri strumenti per scoprire schemi, anomalie e insight a supporto del processo decisionale.
default
{}
default
{}
primary
default
{}
secondary
Panoramica del data mining
Nell'era digitale, le organizzazioni accumulano naturalmente volumi sempre maggiori di dati, considerati da molti dirigenti come un vero tesoro di insight fruibili. Cos'è quindi il data mining e come facilita l'estrazione di informazioni preziose dai set di dati? Il data mining è il processo di scoperta di informazioni utili da un accumulo di dati, spesso da un data warehouse o da una raccolta di set di dati collegati. Può includere il machine learning, l'analisi statistica e altri strumenti analitici avanzati utilizzati per passare al setaccio grandi quantità di dati, al fine di identificare tendenze, schemi nascosti, anomalie e relazioni a supporto di decisioni e pianificazione informate.
Uno dei vantaggi meno evidenti del data mining, e una delle principali ragioni della sua importanza oggi, è che trasforma l'accumulo di dati, spesso conseguente alla digitalizzazione, in un vantaggio competitivo. Man mano che le organizzazioni modernizzano e digitalizzano le proprie operazioni, generano e accumulano quantità sempre maggiori di dati. Per una grande impresa con enormi set di dati, il data mining offre un modo efficiente per sfruttare al meglio la grande quantità di informazioni di cui già dispone.
Perché il data mining è importante?
Il data mining è importante perché trasforma i dati aziendali in una componente chiave della business intelligence. Gli strumenti di data mining sono integrati in cruscotti executive, che raccolgono informazioni dai Big Data, inclusi i dati provenienti dai social media, i feed dei sensori di Internet of Things (IoT), i dispositivi sensibili alla posizione, i testi non strutturati, i video e altro ancora. Il data mining moderno si basa sul cloud e virtual computing, nonché sui database in-memory, per gestire i dati provenienti da molte fonti in modo conveniente e scalare su richiesta.
Quindi, che tipo di valore aziendale può offrire il data mining? Il principale vantaggio del data mining è la sua capacità di individuare schemi e relazioni all'interno di grandi volumi di dati provenienti da molteplici fonti, tra cui social media, sensori remoti e altri dispositivi di monitoraggio, report sempre più dettagliati sui movimenti dei prodotti e sull'attività di mercato e, soprattutto, applicazioni e altri software utilizzati dall'organizzazione.
Ciò significa due cose. Il data mining può aiutare le persone in diversi ruoli e settori a pensare fuori dagli schemi, attingendo a un'ampia gamma di fonti e rivelando relazioni e schemi non evidenti tra informazioni apparentemente scollegate. Questo rende il data mining particolarmente importante per le grandi organizzazioni, soprattutto per le imprese in cui le informazioni tendono a essere compartimentate in silos.
Inoltre, i vantaggi del data mining non si limitano alle vendite, ma si estendono ad altre aree aziendali: grazie alla sua capacità di eliminare i silos informativi, può supportare un'ampia gamma di ruoli. Ingegneri e progettisti possono analizzare l'efficacia delle modifiche ai prodotti e individuare le possibili cause del loro successo o insuccesso. Le funzioni di assistenza e riparazione possono pianificare meglio scorte di ricambi e personale. Le organizzazioni di servizi professionali possono avvalersi del data mining per identificare nuove opportunità create dalle mutevoli tendenze economiche e dai cambiamenti demografici. Il data mining può persino contribuire all'individuazione delle frodi, in particolare in settori come finance, retail e sanità.
In altre parole, i potenziali vantaggi del data mining coprono l'intero spettro delle funzioni aziendali: contribuisce ad aumentare i ricavi, contenere i costi, rafforzare le relazioni con i clienti, prevenire le frodi e perfezionare le previsioni di vendita.
Il data mining è importante perché può generare un valore significativo per diversi obiettivi aziendali, per esempio:
- Produrre insight fruibili per prendere decisioni informate e basate sui dati
- Offrire maggiore contesto per rendere più accurate la pianificazione e le previsioni di vendita
- Individuare opportunità di riduzione dei costi, eliminare le spese superflue e rimuovere colli di bottiglia e inefficienze nei processi
- Riconoscere schemi indicativi di frodi e identificare le vulnerabilità prima che vengano sfruttate
- Personalizzare le attività di marketing e migliorare la customer experience grazie a una comprensione più approfondita dei comportamenti dei clienti
Come funziona il data mining?
In parole semplici, il data mining funziona utilizzando machine learning, analisi statistica e altri strumenti analitici per esaminare grandi insiemi di dati grezzi e scoprire schemi nascosti che possono generare insight fruibili. Le tecniche e le fasi effettive del data mining dipendono dal tipo di domande poste e dai contenuti e dall'organizzazione del database o dei set di dati che costituiscono il materiale di base per la ricerca e l'analisi. Detto questo, il processo di data mining segue in genere alcune fasi ricorrenti.
Le 5 fasi del processo di data mining
1. Raccolta dei dati:
- Definisci il problema o l'area di indagine che intendi esplorare.
- Valuta quali fattori interni ed esterni possano essere rilevanti per l'analisi.
- Raccogli dati grezzi da diverse fonti, inclusi i database aziendali e dati esterni collegati alle operazioni, come dati di vendita sul campo, assistenza, IoT o social media.
2. Pre-elaborazione dei dati:
- Esamina le fonti di dati raccolte e verifica di avere i diritti di accesso e utilizzo dei dati esterni, inclusi dati demografici ed economici e intelligence di mercato, come tendenze di settore e benchmark finanziari forniti da associazioni di categoria ed enti governativi; le normative sulla privacy dei dati possono variare significativamente a seconda della regione ed essere soggette a modifiche, rendendo questo passaggio cruciale.
- Coinvolgi esperti della materia per definire, categorizzare e organizzare i dati: questa fase è talvolta definita data wrangling o data munging.
- Pulisci i dati raccolti, eliminando duplicazioni, incoerenze, record incompleti o formati obsoleti.
3. Costruzione del modello:
- Seleziona algoritmi e tecniche rilevanti (come alberi decisionali, regressione o clustering; di seguito sono riportati ulteriori dettagli sulle tecniche di data mining).
- Addestra più modelli sui dati preelaborati o ottimizzane i parametri per migliorare le prestazioni.
- Testa l'accuratezza dei modelli utilizzando tecniche di validazione per garantire performance affidabili su nuovi dati.
- Confronta diversi approcci di modellazione e identifica l'opzione migliore in base ai tuoi obiettivi specifici.
4. Valutazione:
- Valuta l'affidabilità del modello rispetto a metriche chiave come accuratezza, precisione e tassi di errore.
- Individua potenziali problemi, come distorsioni, overfitting o problemi di qualità dei dati.
5. Interpretazione:
- Identifica i fattori dei dati che hanno il maggiore impatto sulle previsioni e sugli esiti, in questo modo potrai spiegare i principali risultati agli stakeholder.
- A seconda della struttura del team, potrebbe essere necessario tradurre i risultati del modello in insight e presentare report o visualizzazioni che rendano chiari i risultati anche ai responsabili decisionali non tecnici e agli altri stakeholder dell'organizzazione.
- Formula suggerimenti specifici e fruibili per la strategia aziendale, le operazioni e i processi in base agli schemi individuati.
- Seleziona le metriche rilevanti e definisci un piano per misurare l'effetto dell'implementazione dei suggerimenti derivanti dal data mining.
Tecniche chiave di data mining
Classificazione
Una tecnica comune di data mining consiste nel classificare i nuovi dati in categorie predefinite sulla base degli schemi appresi dai dati storici: per esempio, raggruppare i clienti in base alla probabilità che ritornino, analizzando i loro comportamenti di acquisto, la cronologia dei pagamenti e i livelli di engagement. Questo non solo aiuta a distinguere segmenti di clienti importanti, ma approfondisce anche la comprensione delle relazioni con la clientela.
Rilevamento delle anomalie
Il rilevamento delle anomalie è particolarmente importante per obiettivi come la prevenzione delle frodi, la sicurezza delle reti e la verifica delle identità. Per esempio, questa tecnica di data mining può permettere di individuare attività insolite relative alle carte di credito rispetto all'uso tipico di un cliente, basandosi su fattori come luoghi inattesi, acquisti online insoliti o importi eccezionalmente elevati. Inoltre, i metodi di data mining possono rivelare anche predittori meno evidenti, il che ci porta alla tecnica successiva.
Clustering
Il clustering è una tecnica di data mining che mira a scoprire raggruppamenti naturali basati su somiglianze nei dati, anziché su ipotesi predefinite (a differenza della classificazione), rivelando relazioni e schemi nascosti. Nell'esempio delle carte di credito, il clustering potrebbe evidenziare ulteriori segnali di attività sospette. Per esempio, i dati storici di conti vittime di frodi potrebbero mostrare che una proporzione statisticamente significativa condivide un'altra caratteristica: magari tutti hanno effettuato piccoli acquisti di prova presso un determinato commerciante, seguiti da transazioni di importo elevato. Di conseguenza, in futuro questo schema potrebbe essere utilizzato per rilevare frodi in tempo reale.
Regole di associazione
Un'altra tecnica chiave di data mining è l'estrazione di regole di associazione, che consiste nel collegare due attività o eventi apparentemente non correlati. Immagina di voler ottimizzare il posizionamento dei prodotti in un supermercato per massimizzare le vendite. Non è necessario il data mining per ipotizzare che, per esempio, i clienti che acquistano pannolini comprano anche altri prodotti per bambini, come salviette umidificate. Tuttavia, questa tecnica potrebbe rivelare altre opportunità di cross-selling meno ovvie: magari potresti notare che i clienti che acquistano stoviglie monouso in estate tendono anche a comprare repellenti per insetti e marshmallow. Questi prodotti normalmente si trovano in reparti diversi, ma il data mining potrebbe evidenziare un comportamento di acquisto stagionale: procurarsi tutto il necessario per attività all'aperto. In questo scenario, l'uso delle regole di associazione permetterebbe al rivenditore di sfruttare l'opportunità stagionale.
Regressione
Una delle tecniche matematiche di data mining, l'analisi di regressione, permette di prevedere un valore numerico sulla base di modelli storici. Si tratta di uno strumento classico utilizzato in molti ambiti, tra cui la previsione delle vendite, l'andamento dei prezzi azionari e l'analisi finanziaria.
Tieni presente che queste rappresentano solo alcune delle tipologie di tecniche più comuni spesso disponibili nei kit di strumenti di data mining.
Applicazioni ed esempi di data mining
I casi d'uso del data mining comprendono l'analisi del sentiment, l'ottimizzazione dei prezzi, il marketing basato su database, la gestione del rischio di credito, la formazione e l'assistenza, la prevenzione delle frodi, le diagnosi mediche e sanitarie, la valutazione dei rischi, i sistemi di raccomandazione per cross-selling e up-selling, e molto altro ancora. Può rappresentare uno strumento efficace praticamente in ogni settore, dal retail e la distribuzione all'ingrosso, alla produzione, la sanità e la finanza.
Casi d'uso chiave del data mining
Sviluppo del prodotto
Le aziende che progettano, realizzano o distribuiscono prodotti fisici possono avvalersi del data mining per individuare le opportunità per orientare meglio i propri prodotti analizzando i modelli di acquisto abbinati a dati economici e demografici. Progettisti e ingegneri possono inoltre fare riferimento incrociato al feedback dei clienti e degli utenti, ai record di riparazione e ad altri dati per identificare le opportunità di miglioramento del prodotto. I decisori aziendali possono persino scegliere quali nuovi prodotti introdurre in base a ciò che i clienti tendono ad acquistare insieme ai prodotti già esistenti.
Esempi di utilizzo del data mining per guidare lo sviluppo dei prodotti:
- L'analisi dei dati sugli acquisti dei clienti rivela un'associazione: chi compra fitness tracker tende anche ad acquistare altri accessori, come borracce o abbigliamento sportivo. Questo rappresenta un'opportunità per il produttore di fitness tracker di offrire borracce a marchio proprio o di collaborare con un brand di abbigliamento sportivo per creare una linea esclusiva di prodotti brandizzati.
- I dati di utilizzo di un dispositivo smart per la casa mostrano che pochi clienti usano la funzione premium del prodotto, mentre i sondaggi evidenziano che molti faticano a individuare quale pulsante attiva la funzione. Cambiare il design del dispositivo per rendere il pulsante più evidente può incoraggiare un maggior numero di clienti a utilizzare la funzione premium e, di conseguenza, migliorare la loro percezione del rapporto qualità-prezzo del prodotto.
Produzione
Le aziende manifatturiere possono monitorare le tendenze di qualità, i dati di riparazione, i tassi di produzione e i dati sulle prestazioni dei prodotti sul campo per individuare le problematiche di produzione. Possono anche riconoscere possibili aggiornamenti di processo che migliorerebbero la qualità, risparmierebbero tempo e risorse, migliorerebbero le prestazioni del prodotto e indicherebbero la necessità di attrezzature di fabbrica nuove o migliori.
Esempi di utilizzo del data mining per ottimizzare i processi produttivi:
- L'analisi dello storico delle richieste di assistenza mostra che i guasti delle attrezzature aumentano durante i mesi freddi, suggerendo che alcune macchine potrebbero essere sensibili alle variazioni di temperatura. Investire in un migliore controllo termico nell'area di produzione potrebbe ridurre i tempi di inattività e far risparmiare tempo ai tecnici sul campo.
- Un'analisi accurata della domanda storica di pezzi di ricambio e di altri dati legati alla fornitura può prevedere i periodi in cui è probabile la carenza di componenti critici, permettendo alle aziende di rifornirsi in anticipo.
Settore terziario
Nel settore terziario, le aziende possono trovare opportunità simili per il miglioramento dei servizi incrociando il feedback dei clienti (diretto o dai social media o altre fonti) con servizi specifici, canali, casi di assistenza clienti, dati sulle prestazioni di pari livello, regione, prezzi, dati demografici, dati economici e altri fattori.
Esempi di utilizzo del data mining per garantire la personalizzazione per i clienti nel settore terziario:
- Incrociando dati dei clienti, record sulle visite e impostazioni delle relazioni con i clienti, un fornitore di servizi sanitari scopre che i tassi di mancata presentazione agli appuntamenti variano a seconda dell'età, in base al canale utilizzato per i promemoria. Personalizzare le comunicazioni sugli appuntamenti per ciascun gruppo di età aiuterebbe più clienti a presentarsi alle visite.
- L'analisi delle richieste al servizio clienti mostra che i pazienti in attesa del rinnovo di determinate tipologie di farmaci tendono a contattare l'assistenza per avere aggiornamenti sullo stato della richiesta. Se il fornitore di servizi sanitari invia proattivamente notifiche automatiche per i rinnovi, questa comunicazione personalizzata potrebbe aumentare la soddisfazione dei clienti e ridurre il carico dell'assistenza.
- L'analisi dell'engagement dei clienti con un servizio digitale in abbonamento mostra che uno specifico calo nell'utilizzo è predittivo della cancellazione dell'abbonamento entro trenta giorni. Coinvolgere nuovamente l'utente con raccomandazioni personalizzate, suggerimenti per ottimizzare l'uso o sconti mirati potrebbe migliorare l'utilizzo, la percezione del valore e, in ultima analisi, favorire la fidelizzazione del cliente.
Previsione vendite
Indipendentemente dal settore, il data mining è prezioso per la previsione delle vendite e la pianificazione. Gli insight basati sui dati possono aiutare a prevedere le fluttuazioni della domanda, affinare l'analisi del mercato, stimare le variazioni dei prezzi e molto altro ancora.
Esempi di utilizzo del data mining per perfezionare le previsioni di vendita:
- Una compagnia assicurativa analizza un'ampia gamma di set di dati, sia interni sia esterni, e scopre che le condizioni di guida sono destinate a peggiorare in un determinato periodo, a causa del maltempo previsto, e contemporaneamente si registra una temporanea carenza di pneumatici invernali. Queste informazioni consentono di elaborare previsioni più accurate sulle vendite di polizze auto, sulla base dell'aumento atteso della domanda.
- Un produttore di beni di consumo di fascia media analizza il mercato e scopre che diversi concorrenti stanno introducendo linee di prodotti di lusso vendute a prezzi più elevati. Alcuni clienti restano delusi da questo cambiamento e decidono di rivolgersi altrove, orientandosi verso offerte di fascia intermedia. Questo produttore può quindi adattare la propria strategia di vendita per cogliere l'opportunità e conquistare questi clienti.
Rilevamento delle frodi
Il data mining è ampiamente utilizzato nel rilevamento delle frodi: l'esempio delle carte di credito citato in precedenza è solo uno dei tanti casi d'uso legati alla prevenzione delle frodi. La tecnica di rilevamento delle anomalie consente di individuare valori sospetti, ma anche altri metodi di data mining risultano utili, permettendo di scoprire nuovi schemi e di affinare costantemente le misure antifrode.
Esempi di utilizzo del data mining per migliorare il rilevamento delle frodi:
- Un venditore di beni digitali individua uno schema di acquisti insoliti su account che eseguono l'accesso da una nuova posizione geografica. Per ridurre gli accessi non autorizzati, l'azienda può contattare i titolari degli account quando si verifica questo schema, segnalare le transazioni sospette e offrire una procedura semplice per annullare gli acquisti o aggiornare le impostazioni di sicurezza.
- Un'organizzazione può addestrare un modello perché filtri le e-mail di phishing tramite la tecnica di classificazione del data mining, associando determinati indicatori linguistici (linguaggio urgente, errori ortografici, ecc.) all'etichetta "phishing" e impedendo che tali messaggi raggiungano la casella di posta degli utenti.
Vantaggi e sfide del data mining
La maggior parte degli svantaggi del data mining è superata dai suoi vantaggi, ma esistono alcune sfide di cui le organizzazioni devono essere consapevoli.
Big data
Vantaggio: vengono generati sempre più dati; ciò offre opportunità crescenti per il data mining e, di conseguenza, per un processo decisionale migliore.
Sfida: a causa dell'elevato volume, dell'alta velocità e della grande varietà delle strutture dei dati, nonché della crescente diffusione dei dati non strutturati, i sistemi esistenti faticano a gestire, archiviare e sfruttare questo flusso di informazioni. Pertanto, per estrarre valore dai Big Data, le aziende hanno bisogno di software adeguati e potenti.
Competenze degli utenti
Vantaggio: gli strumenti di data mining e analisi permettono agli utenti e agli stakeholder di prendere decisioni più informate e basate sui dati.
Sfida: sebbene gli strumenti di data mining siano diventati molto più facili da usare, è comunque necessaria una certa formazione per sfruttarli appieno. Gli utenti devono comprendere quali dati sono disponibili, avere almeno una conoscenza di base di come funziona il data mining e conoscere il contesto aziendale, oltre che gli aspetti normativi e di compliance legati all'uso dei dati – tutti elementi che richiedono un'adeguata formazione.
Privacy dei dati e supervisione normativa
Vantaggio: la personalizzazione resa possibile dagli insight basati sui dati può migliorare l'esperienza del cliente.
Sfida: i dati, e in particolare quelli degli utenti privati, sono soggetti a controlli normativi. Tuttavia, le effettive pratiche e regolamentazioni sulla protezione dei dati variano a seconda della regione e sono ancora soggette a cambiamenti, per cui può essere difficile, ma fondamentale, per le organizzazioni che trattano i dati rimanere aggiornate.
Qualità e disponibilità dei dati
Vantaggio: l'aumento costante del volume e della varietà dei dati disponibili rende il data mining più importante che mai.
Sfida: dato il volume, i nuovi dati disponibili potrebbero anche essere incompleti, errati, fuorvianti, fraudolenti, danneggiati o semplicemente inutili. Gli utenti devono essere sempre consapevoli della fonte dei dati, della loro credibilità e affidabilità, nonché delle implicazioni relative alla privacy e alla protezione dei dati; le organizzazioni, a loro volta, devono essere responsabili della protezione dei propri dati e di quelli dei clienti da violazioni o trattamento improprio.
Data mining e concetti correlati a confronto
Data mining e machine learning a confronto
La differenza tra data mining e machine learning consiste nel fatto che il machine learning è un insieme di strumenti e algoritmi addestrati per individuare schemi e correlazioni in grandi set di dati, mentre il data mining è il processo di estrazione di informazioni utili da un accumulo di dati. Il machine learning è uno degli strumenti utilizzati nel data mining per costruire modelli predittivi, ma non è l'unico, e allo stesso tempo il data mining non rappresenta l'unica applicazione del machine learning.
Data mining e analisi a confronto
Esiste una sottile differenza tra data mining e analisi dei dati. L'analisi dei dati, o semplicemente analisi, è un termine generale che indica l'insieme delle pratiche volte a identificare informazioni utili, valutarle e fornire risposte specifiche. Il data mining è un tipo di analisi dei dati che si concentra sullo studio di grandi set di dati combinati per scoprire schemi, tendenze e relazioni che possono portare a insight e previsioni.
Data mining e data science a confronto
La data science non è la stessa cosa del data mining, ma i concetti sono correlati. Data science è un termine che include molte tecnologie dell'informazione tra cui statistica, matematica e tecniche computazionali sofisticate applicate ai dati. Il data mining rappresenta un caso d'uso della data science, focalizzato sull'analisi di grandi set di dati provenienti da un'ampia gamma di fonti con l'obiettivo di scoprire insight utili.
Data mining e data warehouse a confronto
Un data warehouse è una raccolta di dati, di solito provenienti da più fonti (ERP, CRM e così via) che un'azienda integrerà nel magazzino per aggiungere funzionalità di archiviazione e analisi su larga scala, come il data mining.
FAQ
PRODOTTO SAP
Amplifica il valore dell'AI grazie ai dati
Sfrutta i tuoi dati per ottenere prestazioni affidabili e scalabili con SAP Business Data Cloud.