Qu'est-ce que le data mining ?

Le data mining est le processus consistant à utiliser des outils analytiques avancés pour extraire des informations utiles d'une accumulation de données.

Présentation du data mining

Le data mining est le processus d'extraction d'informations utiles à partir d'une accumulation de données, provenant souvent d'un entrepôt de données ou d'une collection de jeux de données liés. Les outils de data mining comprennent de puissantes fonctionnalités statistiques, mathématiques et analytiques. Leur principal objectif consiste à passer au crible de vastes ensembles de données pour identifier les tendances, les modèles et les relations nécessaires à une prise de décision et à une planification avisées.

 

Souvent associé aux demandes du service marketing, le data mining est considéré par bien des responsables comme un moyen de mieux comprendre la demande et de voir l'impact de l'évolution des produits, des prix ou des promotions sur les ventes. Toutefois, d'autres domaines d'activités bénéficient de ces avantages considérables. Les ingénieurs et les concepteurs peuvent analyser l'efficacité des modifications apportées aux produits et rechercher les causes possibles du succès ou de l'échec d'un produit en fonction de la manière, du moment et de l'endroit où il est utilisé. Les opérations de service et de réparation peuvent mieux planifier le stock de pièces de rechange et l'affectation du personnel. Les entreprises de services professionnels peuvent recourir au data mining pour identifier de nouvelles opportunités à partir l'évolution des tendances économiques et des changements démographiques.

 

Plus les jeux de données sont conséquents et plus il y a d'expérience utilisateur, plus le data mining est utile et précieux. En toute logique, plus il y a de données, plus il devrait y avoir d'insights et de renseignements à en extraire. De plus, plus les utilisateurs se familiarisent avec les outils et mieux ils comprennent la base de données, plus ils peuvent être créatifs avec leurs explorations et analyses.

Pourquoi utiliser le data mining ?

Le principal avantage du data mining, c'est sa capacité à identifier des modèles et des relations dans de grands volumes de données provenant de sources multiples. Face à la multiplication des données disponibles, provenant de sources aussi variées que les réseaux sociaux, les capteurs à distance et les rapports de plus en plus détaillés sur les mouvements de produits et l'activité du marché, le data mining offre les outils nécessaires pour exploiter pleinement le Big Data et le transformer en renseignements exploitables. De plus, il peut aider à « sortir des sentiers battus ».

 

Le processus de data mining permet de détecter des relations et des modèles aussi surprenants qu'intrigants dans des éléments d'information apparemment sans rapport. L'information ayant tendance à être compartimentée, il a toujours été difficile, voire impossible, de l'analyser dans son ensemble. Toutefois, une relation peut exister entre les facteurs externes – démographiques ou économiques par exemple – et les performances des produits d'une entreprise. Et si les dirigeants examinent régulièrement les chiffres des ventes par territoire, ligne de produits, canal de distribution et par région, ils ne disposent pas toujours du contexte externe lié. Leur analyse souligne « ce qui s’est passé » n'aide en rien à découvrir le « pourquoi ». Le data mining peut pallier cette lacune.

 

Le data mining peut rechercher des corrélations avec des facteurs externes. Bien qu'un lien de causalité n'est pas toujours identifié, les tendances extraites peuvent être de précieux indicateurs pour guider les décisions relatives aux produits, aux canaux et à la production. La même analyse profite à d'autres services de l'entreprise, depuis la conception de produits jusqu'à l'efficacité opérationnelle et la prestation de services.

Histoire du data mining

Cela fait des milliers d'années que l'on collecte et analyse des données et, à bien des égards, le processus est resté inchangé : identifier les informations nécessaires, trouver des sources de qualité, collecter et combiner les données, utiliser les outils les plus efficaces disponibles pour mener les analyses et tirer parti des enseignements reçus. Les outils de gestion et d'analyse des données se sont développés en parallèle des systèmes IT basés sur les données. Le véritable point d'inflexion s'est produit dans les années 1960 avec le développement de la technologie de base de données relationnelle et des outils de requête en langage naturel orientés utilisateur, tels que le SQL (le langage d'interrogation structuré). Les programmes codés sur mesure n'étaient désormais plus nécessaires pour accéder aux données. Grâce à cette percée, les utilisateurs métier peuvent explorer leurs données de manière interactive et en extraire les mines d'informations cachées.

 

Traditionnellement, le data mining est un ensemble de compétences spécialisées dans la science des données. Cependant, chaque nouvelle génération d'outils analytiques commence par nécessiter des compétences techniques avancées, mais évolue rapidement pour devenir accessible aux utilisateurs. L'interactivité, c'est-à-dire la possibilité de communiquer avec les données, est la principale avancée. Posez une question, vous verrez la réponse. À partir de ce que vous venez d'apprendre, posez une autre question. Ce genre d'errance non structurée à travers les données permet à l'utilisateur de dépasser les limites de la conception de la base de données spécifique à l'application et de découvrir des relations qui dépassent les limites fonctionnelles et organisationnelles.

 

Le data mining est un élément clé de la Business Intelligence. Les outils de data mining sont intégrés aux tableaux de bord exécutifs, récoltant des insights à partir du Big Data, y compris les données des réseaux sociaux, des flux de capteurs de l'Internet des Objets (IoT), des appareils de localisation, du texte non structuré, des vidéos, etc. Le data mining moderne repose sur le cloud et l'IT virtuelle, ainsi que sur les bases de données In-Memory, pour gérer de manière rentable les données provenant de nombreuses sources et pour s'adapter à la demande.

Comment fonctionne le data mining ?

Il existe à peu près autant d'approches du data mining qu'il y a de data miners (explorateur de données). L'approche dépend du type de questions posées ainsi que du contenu et de l'organisation de la base de données ou des jeux de données qui fournissent la matière première pour la recherche et l'analyse. Ceci dit, certaines étapes organisationnelles et préparatoires doivent être menées afin de préparer les données, les outils et les utilisateurs :

  1. Appréhension du problème – ou du moins de son domaine d'application. Le décideur de l'entreprise, qui devrait être à la tête de cette aventure de data mining exploratoire, doit avoir une compréhension générale du domaine dans lequel il va travailler, et des types de données internes et externes qui doivent être pris en compte. On part du principe qu'il bénéficie d'une connaissance approfondie de l'entreprise et des domaines fonctionnels concernés.
  2. Collecte de données. Commencez par vos systèmes et bases de données internes. Connectez-les par le biais de leurs modèles de données et de divers outils relationnels ou rassemblez les données dans un entrepôt de données. Sont concernées toutes les données provenant de sources externes qui font partie de vos opérations, telles que les données de vente sur le terrain et/ou de services, les données IoT ou des réseaux sociaux. Recherchez et obtenez les droits sur les données externes, y compris les données démographiques, économiques, et de veille économique, telles que les tendances sectorielles et les références financières auprès des associations professionnelles et des gouvernements. Intégrez-les au champ d'application du kit d'outils (intégrez-les à votre entrepôt de données ou reliez-les à l'environnement de data mining).
  3. Préparation et compréhension des données. Faites appel à des experts en la matière pour vous aider à définir, catégoriser et organiser les données. Cette partie du processus est parfois appelée « data wrangling » ou « data munging », la préparation préalable des données. Certaines données ont parfois besoin d'être nettoyées pour supprimer les doublons, les incohérences, les enregistrements incomplets ou les formats obsolètes. La préparation et le nettoyage des données peuvent se faire en continu, au fur et à mesure que de nouveaux projets ou des données provenant de nouveaux champs d'investigation deviennent intéressants.
  4. Formation des utilisateurs. Personne ne confierait les clés de la voiture familiale à son adolescent sans lui avoir fait suivre au préalable des cours de code de la route et de conduite. De la même façon, veillez à fournir une formation formelle à vos futurs data miners, ainsi qu’une pratique supervisée lorsqu'ils commenceront à se familiariser avec ces puissants outils. Une fois que les bases sont maîtrisées et que les techniques plus avancées peuvent être abordées, la formation continue est également une bonne idée.

Techniques de data mining

Gardez à l'esprit que le data mining repose sur un kit d'outils plutôt que sur une routine ou un processus fixe. Les techniques spécifiques de data mining citées ici ne sont que des exemples de la manière dont ces outils sont utilisés par les entreprises pour explorer leurs données à la recherche de tendances, de corrélations, de renseignements et d'insights métier.

 

D'une manière générale, les approches de data mining peuvent être classées comme étant dirigées (axées sur un résultat spécifique souhaité) ou non dirigées, comme processus de découverte. D'autres explorations peuvent viser à trier ou classer les données, par exemple en regroupant les clients potentiels en fonction des caractéristiques métier telles que le secteur, les produits, la taille et le site. Un objectif similaire, la détection de valeurs aberrantes ou d'anomalies, est une méthode automatisée de reconnaissance d'anomalies réelles (plutôt que la simple variabilité) au sein d'un ensemble de données présentant des motifs identifiables.

 

Association

Un autre objectif intéressant est l'association, qui consiste à relier deux événements ou activités apparemment sans rapport. Une anecdote classique des débuts de l'analytique et du data mining, peut-être fictive, relate la découverte, par une chaîne d'épiceries, d'une corrélation entre les ventes de bières et de couches. Elle a supposé que les jeunes pères débordés qui devaient ressortir acheter des couches le soir en profitaient pour prendre un ou deux packs de bières. En plaçant la bière à proximité des couches, cette chaîne a réussi à augmenter les ventes de cet alcool.

 

Clustering

Cette approche vise à regrouper les données en fonction des similitudes et non d'hypothèses prédéfinies. Par exemple, en analysant vos informations sur les ventes combinées à des données démographiques et de crédit à la consommation externes, vous découvrirez peut-être que vos clients les plus rentables sont originaires de villes de taille moyenne. La plupart du temps, le data mining sert à appuyer les prévisions. Plus vous comprenez les modèles et les comportements, mieux vous pouvez prévoir les actions futures liées aux causalités ou aux corrélations.

 

Régression

L'analyse de régression est l'une des techniques mathématiques offertes dans les kits d'outils de data mining. Elle permet de prédire un nombre basé sur des modèles historiques projetés dans le futur. Divers autres algorithmes de détection et de suivi des modèles fournissent des outils flexibles pour aider les utilisateurs à mieux comprendre les données et le comportement qu'elles représentent. Ce ne sont que quelques-unes des techniques et outils disponibles dans les kits d'outils de data mining. Le choix de l'outil ou de la technique est en quelque sorte automatisé, dans la mesure où la façon même dont la question est posée va influencer le choix de la technique. Auparavant, le data mining se résumait à « découper en tranches » la base de données. Aujourd'hui, la pratique est plus sophistiquée et des termes tels que l'association, le clustering et la régression sont devenus monnaie courante.

Cas d'utilisation et exemples

Le data mining est indispensable à l'analyse du ressenti, à l'optimisation des prix, au marketing de base de données, à la gestion des risques de crédit, à la formation et au support, à la détection des fraudes, aux diagnostics médicaux, à l'évaluation des risques, aux systèmes de recommandation (« les clients qui l'ont acheté ont également aimé… »), et bien plus encore. Il peut être un outil efficace dans presque tous les secteurs, y compris le Retail, le commerce de gros, les industries de services, les télécommunications, les communications, l'assurance, l'éducation, la production, la santé, la banque, la science, l'ingénierie et le marketing en ligne ou les réseaux sociaux.

  • Développement de produits : les entreprises qui conçoivent, produisent ou distribuent des produits physiques peuvent identifier les opportunités de mieux cibler leurs produits en analysant les habitudes d'achat ainsi que les données économiques et démographiques. Leurs concepteurs et ingénieurs peuvent également croiser les avis des clients et des utilisateurs, l'historique des réparations et d'autres données afin d'identifier les opportunités d'amélioration des produits.

  • Production : les fabricants peuvent suivre les tendances de qualité, les données de réparation, les taux de production et les données de performance des produits sur le terrain afin d'identifier les problèmes de production. Ils peuvent également identifier les mises à niveau possibles de processus qui permettraient d'améliorer la qualité, de gagner du temps et de réduire les coûts, d'améliorer la performance des produits et/ou de mettre en évidence la pertinence d'un nouvel équipement, ou d'un équipement plus performant pour l'usine.

  • Secteur tertiaire : les utilisateurs du secteur tertiaire peuvent trouver des opportunités similaires d'amélioration des produits en recoupant les avis des clients (directs ou provenant de réseaux sociaux ou d'autres sources) avec des services, canaux, données sur les performances des pairs, région, tarification, données démographiques, données économiques spécifiques, etc.

Enfin, tous ces résultats doivent être intégrés aux prévisions et à la planification afin que l'ensemble de l'entreprise soit au fait des changements anticipés de la demande en se basant sur une connaissance plus approfondie du client, et qu'elle soit mieux placée pour exploiter les nouvelles opportunités identifiées.

Défis liés au data mining

  • Big Data : les données sont générées à un rythme accéléré, offrant de plus en plus d'opportunités de data mining. Cependant, des outils de data mining modernes sont nécessaires pour en extraire du sens, compte tenu du volume important, de la vitesse élevée et de la grande variété de structures de données, ainsi que de la quantité croissante de données non structurées. Beaucoup de systèmes existants peinent à gérer, stocker et utiliser ce flot d'informations.

  • Compétences des utilisateurs : les outils de data mining et d'analyse sont conçus pour aider les utilisateurs et les décideurs à comprendre et tirer des insights de la quantité de données. Bien que très techniques, ces puissants outils sont désormais accompagnés d'une excellente expérience utilisateur, si bien que pratiquement n'importe qui peut les utiliser avec une formation minime. Toutefois, pour en tirer pleinement parti, l'utilisateur doit comprendre les données disponibles et le contexte métier des informations recherchées. Il doit également savoir, au moins de manière générale, comment les outils fonctionnent et ce qu'ils peuvent faire. C'est à la portée des responsables et cadres moyens, mais cela reste un processus de formation. Les utilisateurs doivent faire l'effort de développer ce nouvel ensemble de compétences.

  • Qualité et disponibilité des données : les masses de nouvelles données s'accompagnent aussi de quantités de données incomplètes, incorrectes, trompeuses, frauduleuses, endommagées ou tout simplement inutiles. Les outils peuvent aider à faire le tri, mais les utilisateurs doivent toujours rester attentifs à la source des données, à leur crédibilité et à leur fiabilité. Les préoccupations en matière de confidentialité sont également importantes, tant en ce qui concerne l'acquisition des données que leur prise en charge et leur traitement une fois qu'elles sont en votre possession.

FAQ sur le data mining

Le data mining est le processus consistant à utiliser des outils analytiques avancés pour extraire des informations utiles d'une accumulation de données. Le Machine Learning est un type d'intelligence artificielle (IA) qui permet aux systèmes d'apprendre par l'expérience. Le data mining peut utiliser le Machine Learning, lorsque les programmes analytiques ont la capacité d'adapter leurs fonctionnalités aux analyses de données qu'ils effectuent.

L'analyse des données ou l'analytique sont des termes généraux qui désignent un vaste éventail de pratiques visant à identifier des informations utiles, à les évaluer et à fournir des réponses spécifiques. Le data mining est un type d'analyse des données qui consiste à explorer de grands ensembles de données combinées afin d'en extraire des modèles, des tendances et des relations qui peuvent générer des insights et des prévisions.

La science des données est un terme qui englobe de nombreuses technologies de l'information, telles que les statistiques, les mathématiques et les techniques computationnelles sophistiquées appliquées aux données. Le data mining est un cas d'utilisation de la science des données axé sur l'analyse de grands jeux de données à partir d'un large éventail de sources.

Un entrepôt de données est un ensemble de données, généralement issues de plusieurs sources (ERP, CRM, etc.) qu'une entreprise combine dans l'entrepôt à des fins d'archivage et d'analyses à grande échelle telles que le data mining.

placeholder

Développez votre expertise en gestion des données

Découvrez le processus de gestion des données et ses avantages.

placeholder

Idées que vous ne trouverez nulle part ailleurs

Inscrivez-vous pour recevoir une dose de Business Intelligence directement dans votre boîte de réception.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel