Qu'est-ce que le data mining ?
Le data mining désigne l'extraction d'informations utiles à partir de grands ensembles de données, à l'aide du Machine Learning et d'autres outils permettant de découvrir des modèles, des anomalies et des informations utiles pour la prise de décision.
default
{}
default
{}
primary
default
{}
secondary
Présentation du data mining
À l'ère du digital, les entreprises accumulent naturellement des volumes de données de plus en plus importants, et de nombreux dirigeants les considèrent aujourd'hui comme une mine d'informations exploitables. Alors, qu'est-ce que le data mining et comment facilite-t-il l'extraction d'informations précieuses à partir d'ensembles de données ? Le data mining est le processus qui consiste à découvrir des informations utiles à partir d'une accumulation de données, provenant souvent d'un entrepôt de données ou d'une collection de jeux de données liés. Le data mining peut impliquer le Machine Learning, l'analyse statistique et d'autres outils analytiques puissants utilisés pour examiner de grands ensembles de données afin d'identifier les tendances, les modèles cachés, les anomalies et les relations nécessaires à une prise de décision et à une planification avisées.
L'un des avantages les moins évidents du data mining (et l'une des principales raisons pour lesquelles il est si important aujourd'hui) est qu'il transforme l'accumulation de données, qui accompagne souvent la digitalisation, en avantage. Les entreprises modernisent et digitalisent de plus en plus leurs opérations, ce qui les amène à générer et à accumuler de plus en plus de données. Ainsi, pour une grande entreprise qui dispose d'énormes ensembles de données, le data mining offre un moyen efficace d'exploiter la mine d'informations dont elle dispose déjà.
Pourquoi le data mining est-il important ?
Le data mining est important car il transforme les données de l'entreprise en un composant clé de la Business Intelligence. Les outils de data mining sont intégrés aux tableaux de bord exécutifs, récoltant des enseignements à partir du Big Data, y compris les données des réseaux sociaux, des flux de capteurs de l'Internet des Objets (IoT), des appareils de localisation, du texte non structuré, des vidéos, etc. Le data mining moderne repose sur le cloud et l'IT virtuelle, ainsi que sur les bases de données In-Memory, pour gérer de manière rentable les données provenant de nombreuses sources et pour s'adapter à la demande.
Quel type de valeur ajoutée le data mining peut-il apporter ? Le principal avantage du data mining, c'est sa capacité à identifier des modèles et des relations dans de grands volumes de données provenant de sources multiples, notamment les réseaux sociaux, les capteurs à distance et d'autres équipements de surveillance, les rapports de plus en plus détaillés sur le mouvement des produits et l'activité du marché, et, surtout, les applications et autres logiciels utilisés par l'entreprise.
Cela signifie deux choses. Le data mining peut aider les personnes occupant divers rôles, tous secteurs confondus, à sortir des sentiers battus en s'appuyant sur un large éventail de sources et en révélant des relations et des modèles peu évidents dans des bribes d'informations apparemment sans rapport les unes avec les autres. Le data mining revêt donc une importance particulière pour les grandes entreprises, notamment celles où les informations ont tendance à être cloisonnées.
De plus, les avantages du data mining ne se limitent pas aux ventes, et s'étendent aussi à d'autres domaines d'activité : grâce à sa capacité à décomposer les silos, il peut renforcer un large éventail de rôles. Les ingénieurs et les concepteurs peuvent analyser l'efficacité des modifications apportées aux produits et rechercher les causes possibles de leur succès ou de leur l'échec. Les opérations de service et de réparation peuvent mieux planifier le stock de pièces de rechange et l'affectation du personnel. Les entreprises de services professionnels peuvent recourir au data mining pour identifier de nouvelles opportunités créées par l'évolution des tendances économiques et des changements démographiques. Le data mining peut même aider à détecter les fraudes, en particulier dans des secteurs tels que la finance, le Retail et la santé.
En d'autres termes, les avantages potentiels du data mining couvrent l'ensemble des fonctions métier : de l'augmentation du chiffre d'affaires et la réduction des coûts à l'amélioration des relations clients, en passant par la prévention de la fraude et l'affinement des prévisions de ventes.
Le data mining est important car il peut générer une valeur ajoutée substantielle pour un large éventail d'objectifs, par exemple :
- Générer des informations exploitables qui aident à prendre des décisions éclairées et fondées sur les données.
- Fournir un contexte supplémentaire pour améliorer la planification et les prévisions de ventes.
- Révéler les opportunités de réduire les coûts, diminuer les dépenses inutiles et supprimer les goulets d'étranglement et les inefficacités dans les processus.
- Identifier les modèles suggérant des fraudes et repérer les vulnérabilités avant qu'elles ne soient exploitées.
- Personnaliser le marketing et améliorer l'expérience client, grâce à une meilleure compréhension des comportements des clients.
Comment fonctionne le data mining ?
En d'autres termes, le data mining consiste à utiliser le Machine Learning, l'analyse statistique et d'autres outils analytiques pour analyser de grands ensembles de données brutes et découvrir des modèles cachés qui peuvent être utilisés pour obtenir des informations exploitables. Les techniques de data mining et les étapes concrètes impliquées dépendent du type de questions posées ainsi que du contenu et de l'organisation de la base de données ou des jeux de données qui fournissent la matière première pour la recherche et l'analyse. Cela dit, le processus de data mining comporte généralement certaines étapes.
Le processus en 5 étapes du data mining
1. Collecte des données :
- Définir le problème ou le domaine d'enquête que vous explorez.
- Déterminer quels types de facteurs externes et internes pourraient être pertinents pour le sujet de votre exploration.
- Collecter des données brutes provenant de différentes sources, notamment la base de données de votre entreprise et les données externes qui font partie de vos opérations, telles que les données de vente sur le terrain et de services, les données IoT ou des réseaux sociaux.
2. Prétraitement des données :
- Examiner les sources de données que vous avez collectées et vous assurer que vous disposez des droits d'accès et d'utilisation des données externes, y compris les données démographiques, économiques et de renseignements sur le marché, telles que les tendances sectorielles et les benchmarks financiers fournis par les associations professionnelles et les gouvernements. Les réglementations en matière de confidentialité des données peuvent varier considérablement d'une région à l'autre et sont susceptibles de changer. Il s'agit donc d'une étape cruciale.
- Impliquer des spécialistes pour vous aider à définir, catégoriser et organiser les données. Cette partie du processus est parfois appelée « data wrangling » ou « data munging », la préparation préalable des données.
- Nettoyer les données collectées, en supprimant les doublons, les incohérences, les enregistrements incomplets ou les formats obsolètes.
3. Création de modèles :
- Sélectionner les algorithmes et techniques pertinents (tels que les arbres de décision, la régression ou le regroupement. Plus d'informations sur les techniques de data mining ci-dessous).
- Former plusieurs modèles sur vos données prétraitées ou affiner leurs paramètres pour optimiser les performances.
- Tester la précision du modèle à l'aide de techniques de validation afin de garantir des performances fiables sur de nouvelles données.
- Comparer différentes approches de modélisation et identifier la meilleure option pour vos objectifs spécifiques.
4. Évaluation :
- Évaluer la fiabilité du modèle à travers des métriques clés telles que l'exactitude, la précision et les taux d'erreur.
- Identifier les problèmes potentiels tels que les préjugés, le surajustement ou les problèmes de qualité des données.
5. Interprétation :
- Identifier les facteurs de données qui ont le plus d'impact sur les prévisions et les résultats. Cela vous aidera à expliquer les principaux constats aux parties prenantes.
- Selon la structure de l'équipe : traduire les conclusions du modèle en informations exploitables et fournir des rapports ou des visualisations qui rendront les résultats clairs pour les décideurs non techniques et les autres parties prenantes de l'entreprise.
- Formuler des recommandations spécifiques et exploitables pour la stratégie de gestion, les opérations et les processus en fonction des modèles découverts.
- Sélectionner les indicateurs pertinents et établir un plan pour mesurer l'effet de la mise en œuvre des recommandations issues du data mining.
Principales techniques de data mining
Classification
Une technique courante de data mining consiste à trier les nouvelles données dans des catégories prédéfinies basées sur des modèles tirés des données historiques : par exemple, regrouper les clients en fonction de leur probabilité de retour en analysant leurs habitudes d'achat, leur historique de paiement et leurs niveaux d'engagement. Cela vous aiderait non seulement à distinguer les segments de clientèle importants, mais aussi à approfondir votre compréhension de vos relations clients.
Détection des anomalies
La détection des anomalies est particulièrement importante pour des objectifs tels que la prévention de la fraude, la sécurité des réseaux et la vérification d'identité. Par exemple, cette technique de data mining peut aider à repérer les activités inhabituelles des cartes de crédit qui s'écartent de l'utilisation habituelle d'un client, en se basant sur des facteurs tels que les lieux inattendus, des achats en ligne inhabituels ou des montants anormalement élevés. Mais les méthodes de data mining peuvent également aider à découvrir de nouveaux prédicteurs moins évidents, ce qui nous amène à la technique de data mining suivante.
Clustering
Le regroupement est une technique de data mining visant à découvrir des regroupements naturels basés sur des similitudes dans les données plutôt que sur des hypothèses prédéfinies (par opposition à la classification), révélant ainsi des modèles et des relations cachés. Dans l'exemple de carte de crédit, le regroupement pourrait permettre de détecter d'autres signaux d'activité suspecte. Par exemple, les données historiques des comptes ayant été victimes de fraudeurs pourraient révéler qu'une proportion statistiquement significative d'entre eux partagent une autre similitude : peut-être ont-ils tous montré une tendance à effectuer de petits achats tests auprès d'un commerçant particulier, suivis de transactions importantes. À l'avenir, ce modèle pourrait être utilisé pour détecter les activités frauduleuses en temps réel.
Règles d'association
Une autre technique clé de data mining est l'exploration de règles d'association : relier deux événements ou activités apparemment sans rapport entre eux. Imaginez que vous essayez d'optimiser le placement des produits dans un supermarché afin de maximiser les ventes. Il n'est pas nécessaire de recourir au data mining pour supposer que, par exemple, les clients qui achètent des couches sont également susceptibles d'acheter d'autres produits pour bébés, tels que des lingettes. Mais cette technique de data mining pourrait révéler d'autres opportunités de vente croisée, moins évidentes : vous remarquerez peut-être que les clients qui font des provisions de couverts jetables en été sont également plus susceptibles d'acheter des insecticides et des guimauves. Ces produits se trouveraient normalement dans des rayons différents, mais le data mining pourrait mettre en évidence une mission d'achat saisonnière : se procurer des articles pour passer du temps à l'extérieur. Dans ce scénario, la technique de data mining par règles d'association aiderait le détaillant à exploiter cette opportunité saisonnière.
Régression
L'analyse de régression, l'une des techniques mathématiques du data mining, prédit un nombre à partir de modèles historiques. C'est un outil classique utilisé dans de nombreux domaines et contextes, y compris la prévision des ventes, les prévisions boursières et l'analyse financière.
Notez qu'il ne s'agit là que de quelques-unes des techniques de data mining les plus courantes souvent disponibles dans les boîtes à outils de data mining.
Applications et exemples de data mining
Les cas d'utilisation de data mining comprennent l'analyse du ressenti, l'optimisation des prix, le marketing de bases de données, la gestion des risques de crédit, la formation et le support, la détection des fraudes, les diagnostics médicaux, l'évaluation des risques, les systèmes de recommandation de ventes croisées et incitatives, et bien plus encore. Et cela peut être un outil efficace dans presque tous les secteurs, du Retail et du commerce de gros à la production, en passant les secteurs de la santé et de la finance.
Cas d'utilisation clés du data mining
Développement de produits
Les entreprises qui conçoivent, produisent ou distribuent des produits physiques peuvent utiliser le data mining pour identifier les opportunités de mieux cibler leurs produits en analysant les habitudes d'achat ainsi que les données économiques et démographiques. Les concepteurs et ingénieurs peuvent également croiser les avis des clients et des utilisateurs, l'historique des réparations et d'autres données afin d'identifier les opportunités d'amélioration des produits. Les décideurs peuvent même sélectionner les nouveaux types de produits à introduire en fonction de ce que les clients cherchent généralement à acheter en même temps les produits actuels.
Exemples de data mining utilisés pour guider le développement produit :
- L'analyse des données d'achat des clients révèle une association : lorsqu'ils achètent des montres connectées, les clients sont également susceptibles d'acheter d'autres accessoires, tels que des bouteilles d'eau ou des vêtements de sport. Cela représente une opportunité pour le fabricant de montres connectées de commencer à proposer des bouteilles d'eau à son effigie ou de s'associer avec une marque de vêtements de sport pour créer une ligne de vêtements de marque exclusive.
- Les données d'utilisation d'un appareil domotique intelligent révèlent que très peu de clients utilisent la fonctionnalité premium de ce produit, tandis que des enquêtes auprès des clients montrent que beaucoup ont du mal à identifier le bouton qui active cette fonctionnalité. En modifiant la conception de l'appareil afin de rendre le bouton plus visible, on pourrait inciter davantage de clients à utiliser la fonctionnalité premium et, par conséquent, améliorer leur perception du rapport qualité-prix du produit.
Production
Les fabricants peuvent suivre les tendances de qualité, les données de réparation, les taux de production et les données de performance des produits sur le terrain afin d'identifier les problèmes de production. Ils peuvent également identifier les mises à niveau possibles de processus qui permettraient d'améliorer la qualité, de gagner du temps et d'économiser des ressources, d'améliorer la performance des produits et de mettre en évidence la pertinence d'un nouvel équipement, ou d'un équipement plus performant pour l'usine.
Exemples d'utilisation du data mining pour optimiser les processus de production :
- L'analyse de l'historique des demandes de service révèle que les incidents de dysfonctionnement des équipements augmentent pendant les mois froids, ce qui suggère que certains équipements pourraient être sensibles aux fluctuations de température. En investissant dans un meilleur contrôle de la température dans l'atelier, on pourrait réduire les temps d'arrêt et faire gagner du temps aux techniciens de terrain.
- Une analyse précise de la demande historique de pièces de rechange et d'autres données relatives à l'approvisionnement permet de prévoir les périodes de pénuries probables de pièces critiques, ce qui permet aux fabricants de constituer des stocks à l'avance.
Secteur tertiaire
Dans le secteur tertiaire, les entreprises peuvent trouver des opportunités similaires d'amélioration des services en recoupant les avis des clients (directs ou provenant de réseaux sociaux ou d'autres sources) avec des services, canaux, cas de support client, données de performance des pairs, région, tarification, données démographiques, économiques et d'autres facteurs.
Exemples d'utilisation de data mining pour garantir la personnalisation des services dans le secteur tertiaire :
- En recoupant les données client, les enregistrements de visites et les paramètres de relation client, un professionnel de santé découvre que les taux d'absentéisme aux rendez-vous diffèrent selon le groupe d'âge du client, selon les canaux utilisés pour les rappels de rendez-vous. En personnalisant les messages relatifs aux prochains rendez-vous pour chaque tranche d'âge, on aiderait un plus grand nombre de clients à se présenter à leurs rendez-vous.
- L'analyse des demandes adressées au service clientèle montre que les patients qui attendent le renouvellement de certains traitements sont plus susceptibles de contacter le service clientèle pour obtenir des informations sur l'état d'avancement du renouvellement. Si le prestataire de santé cible de manière proactive ces patients avec des notifications de renouvellement automatique, ce type de communication personnalisée pourrait à la fois améliorer la satisfaction des clients et réduire la charge de travail du service clientèle.
- L'analyse de l'engagement client envers un service d'abonnement digital montre qu'une certaine baisse de l'utilisation permet de prédire la résiliation de l'abonnement dans les trente jours. En réengageant l'utilisateur grâce à des recommandations personnalisées, des conseils d'optimisation de l'utilisation ou même des remises personnalisées, vous pouvez améliorer l'utilisation et la perception de la valeur et, au final, fidéliser le client.
Prévisions de ventes
Quel que soit le secteur, le data mining est un outil inestimable pour prévoir et planifier les ventes. Les informations pilotées par les données peuvent aider à anticiper les fluctuations de la demande, à affiner l'analyse du marché, à prévoir l'évolution des prix et bien plus encore.
Exemples d'utilisation du data mining pour affiner la prévision des ventes :
- Une compagnie d'assurance analyse un large éventail de données internes et externes, et constate que les conditions de conduite devraient se détériorer pendant une période donnée, marquée par des conditions météorologiques défavorables, et que, parallèlement, il y a une pénurie temporaire de pneus d'hiver. Ces informations les aident à établir des prévisions plus précises pour leurs ventes d'assurance automobile, en fonction de l'augmentation prévue de la demande.
- Un fabricant de produits de biens de grande consommation de milieu de gamme analyse le marché et constate que plusieurs concurrents lancent des gammes de produits de luxe vendus à un prix élevé. Certains de leurs clients sont déçus par ce changement et décident de se tourner vers d'autres prestataires, en s'intéressant aux offres de milieu de gamme. Ce fabricant peut adapter sa stratégie de vente pour tenter de saisir cette opportunité pour conquérir ces clients.
Détection de la fraude
Le data mining est largement utilisé dans la détection de la fraude. L'exemple ci-dessus concernant les cartes de crédit n'est qu'un cas d'utilisation parmi tant d'autres du data mining dans la prévention des fraudes. La technique de détection des anomalies permet de signaler les valeurs aberrantes suspectes, mais d'autres méthodes de data mining sont également utiles, car elles permettent de découvrir de nouveaux modèles et d'affiner en permanence les mesures de prévention des fraudes.
Exemples d'utilisation du data mining pour améliorer la détection des fraudes :
- Un vendeur de marchandises digitales repère un modèle d'achats inhabituels sur des comptes utilisés depuis un nouvel emplacement. Pour réduire ces accès non autorisés, l'entreprise peut contacter les titulaires des comptes lorsqu'un tel modèle se produit, signaler ces transactions et offrir un moyen facile d'annuler les achats ou de mettre à jour la sécurité du compte.
- Une entreprise peut entraîner un modèle à filtrer les e-mails de hameçonnage à l'aide de la technique de data mining de classification, qui consiste à associer certains marqueurs linguistiques (langage d'urgence, fautes d'orthographe, etc.) à l'étiquette « hameçonnage » et à empêcher ces e-mails d'atteindre la boîte de réception des utilisateurs.
Avantages et défis du data mining
La plupart des inconvénients du data mining sont compensés par ses avantages. Toutefois, les entreprises doivent être conscientes de certains défis liés au data mining.
Big Data
Avantage : de plus en plus de données sont générées, offrant ainsi davantage d'opportunités pour le data mining et, par conséquent, une meilleure prise de décision.
Défi : compte tenu du volume important, de la vitesse élevée et de la grande variété de structures de données, ainsi que de la prévalence croissante des données non structurées, les systèmes existants ont du mal à gérer, stocker et utiliser ce flot d'informations. Ainsi, pour extraire du sens du Big Data, les entreprises ont besoin de logiciels puissants et adaptés.
Compétence de l'utilisateur
Avantage : les outils de data mining et d'analyse des données peuvent aider les utilisateurs et autres parties prenantes à prendre des décisions mieux informées et fondées sur les données.
Défi : bien que les outils utilisés pour le data mining soient devenus beaucoup plus conviviaux, leur utilisation optimale nécessite tout de même une certaine formation. Les utilisateurs doivent comprendre quelles données sont disponibles, avoir au moins une idée générale du fonctionnement du data mining et maîtriser le contexte métier, ainsi que les questions réglementaires et de conformité liés à l'utilisation des données, ce qui nécessite une certaine formation des utilisateurs.
Confidentialité des données et surveillance réglementaire
Avantage : la personnalisation favorisée par des informations pilotées par les données peut améliorer l'expérience client.
Défi : les données, et en particulier les données des utilisateurs appartenant à des particuliers, sont soumises à une surveillance réglementaire. Cependant, les pratiques et réglementations actuelles en matière de protection des données varient d'une région à l'autre et sont toujours susceptibles d'évoluer. Il peut donc s'avérer difficile, mais crucial, pour les entreprises qui gèrent les données de se tenir à jour.
Qualité et disponibilité des données
Avantage : en raison de l'augmentation constante du volume et de la diversité des données disponibles, le data mining revêt aujourd'hui une importance sans précédent.
Défi : les volumes de nouvelles données s'accompagnent aussi de quantités de données incomplètes, incorrectes, trompeuses, frauduleuses, endommagées ou tout simplement inutiles. Les utilisateurs doivent toujours être conscients de la source des données, de leur crédibilité et de leur fiabilité, ainsi que des préoccupations en matière de confidentialité et de protection des données. Les entreprises doivent quant à elles assumer la protection de leurs données, ainsi que celles de leurs clients, contre les violations et autres erreurs de traitement.
Différences entre le data mining et les concepts associés
Différence entre le data mining et le Machine Learning
La différence entre le data mining et le Machine Learning réside dans le fait que le Machine Learning est un ensemble d'outils et d'algorithmes entraînés pour trouver des modèles et des corrélations dans de grands ensembles de données, tandis que le data mining est le processus d'extraction d'informations utiles à partir d'une accumulation de données. Le Machine Learning est l'un des outils utilisés dans l'exploration de données pour créer des modèles prédictifs, mais ce n'est pas le seul, tout comme le data mining n'est pas la seule application du Machine Learning.
Différence entre data mining et analytique
Il existe une différence subtile entre le data mining et l'analytique des données. L'analyse des données ou l'analytique sont des termes généraux qui désignent un vaste éventail de pratiques visant à identifier des informations utiles, à les évaluer et à fournir des réponses spécifiques. Le data mining est un type d'analyse des données qui consiste à explorer de grands ensembles de données combinées afin d'en extraire des modèles, des tendances et des relations qui peuvent générer des informations et des prévisions.
Différence entre le data mining et la science des données
La science des données diffère du data mining, mais ces deux concepts sont liés. La science des données est un terme qui englobe de nombreuses technologies de l'information, telles que les statistiques, les mathématiques et les techniques computationnelles sophistiquées appliquées aux données. Le data mining est un cas d'utilisation de la science des données axé sur l'analyse de grands jeux de données à partir d'un large éventail de sources dans le but de découvrir des informations utiles.
Différence entre le data mining et l'entrepôt de données
Un entrepôt de données est un ensemble de données, généralement issues de plusieurs sources (ERP, CRM, etc.) qu'une entreprise combine dans l'entrepôt à des fins d'archivage et d'analyses à grande échelle telles que le data mining.
FAQ
PRODUIT SAP
Amplifiez la valeur de l'IA grâce aux données
Exploitez vos données pour obtenir des performances fiables et évolutives avec SAP Business Data Cloud.