Qu'est-ce qu'un entrepôt de données ?
Un entrepôt de données est un système de stockage digital qui connecte et harmonise de grandes quantités de données provenant de nombreuses sources.
Présentation de l'entrepôt de données
Un entrepôt de données est un système de stockage numérique qui connecte et harmonise de grandes quantités de données provenant de nombreuses sources. Le but d'un entrepôt de données est d'alimenter la Business Intelligence (BI), le reporting et l'analytique, et de respecter les exigences réglementaires, afin que les entreprises puissent transformer leurs données en insights et prendre des décisions intelligentes et fondées sur les données. Les entrepôts de données stockent les données actuelles et historiques au même endroit, et offrent aux entreprises une version unique de la réalité.
Les données sont transférées dans un entrepôt de données à partir de systèmes opérationnels (un ERP ou un CRM), de bases de données et de sources externes telles que des systèmes partenaires, des appareils IoT (Internet des Objets), des applications météorologiques et des réseaux sociaux, généralement à une fréquence régulière. L'émergence du Cloud Computing a transformé le paysage. Ces dernières années, les emplacements de stockage des données ont changé ; d'une infrastructure on-premise traditionnelle, on est passé à plusieurs emplacements, notamment on-premise, dans le cloud privé et le cloud public.
Les entrepôts de données modernes sont conçus pour gérer les données structurées comme non structurées, telles que des vidéos, des fichiers image et des données de capteurs. Certains exploitent l'analytique intégrée et la technologie de base de données In-Memory (qui contient l'ensemble de données dans la mémoire de l'ordinateur plutôt que sur le disque) pour fournir un accès en temps réel à des données fiables et faciliter la prise de décision. Sans entreposage de données, il est très difficile de combiner des données provenant de sources hétérogènes, de veiller à ce qu'elles soient au bon format pour l'analytique et d'obtenir une vue à la fois actuelle et à long terme des données.
Qu'est-ce qu'un entrepôt de données ?
Les avantages de l'entreposage de données
Un entrepôt de données bien conçu est la base de tout programme de BI ou d'analytique efficace. Il sert principalement à optimiser les rapports, les tableaux de bord et les outils analytiques, désormais indispensables aux entreprises. Un entrepôt de données fournit les informations nécessaires aux décisions fondées sur les données et vous aide à systématiquement faire le bon choix, qu'il s'agisse du développement d'un nouveau produit ou des niveaux de stock. Un entrepôt de données présente de nombreux avantages. En voici quelques-uns :
Meilleur reporting analytique : grâce à l'entreposage de données, les décideurs ont accès à des données provenant de plusieurs sources et n'ont plus besoin de prendre leurs décisions sur la base d'informations incomplètes.
Requêtes plus rapides : les entrepôts de données sont spécialement conçus pour l'extraction et l'analyse rapides des données. Un entrepôt de données vous permet d'interroger très rapidement de grandes quantités de données consolidées en ne sollicitant que très peu le service informatique, voire pas du tout.
Meilleure qualité des données : avant d'être chargés dans l'entrepôt de données, les cas de nettoyage des données sont créés par le système et saisis dans une réserve de travail pour la suite du traitement, garantissant ainsi la conversion des données dans un format cohérent pour exécuter l'analytique et prendre des décisions sur la base de données précises et de haute qualité.
Visibilité historique : grâce aux riches données historiques stockées sur un entrepôt de données, les décideurs peuvent s'appuyer sur les tendances et défis passés, faire des prévisions et encourager l'amélioration métier continue.
Capture d'écran d'un entrepôt de données affichant le lignage des données.
Que peut stocker un entrepôt de données ?
Lorsque les entrepôts de données sont devenus populaires à la fin des années 1980, ils étaient conçus pour stocker des informations sur les personnes, les produits et les transactions. Ces données, appelées données structurées, étaient soigneusement organisées et mises en forme pour en faciliter l'accès. Mais les entreprises ont rapidement voulu stocker, récupérer et analyser des données non structurées, telles que des documents, des images, des vidéos, des e-mails, des publications sur les réseaux sociaux et des données brutes provenant de capteurs de machines.
Un entrepôt de données moderne peut stocker des données structurées comme non structurées. En fusionnant ces types de données et en éliminant les silos entre les deux, les entreprises peuvent obtenir une vue d'ensemble complète des insights les plus précieux.
Quelques termes clés
Dans le domaine des entrepôts de données, il y a beaucoup de termes à connaître. Voici quelques-uns des plus importants. Découvrez d'autres termes et questions fréquentes dans notre glossaire.
Entrepôt de données ou base de données
Les bases de données et les entrepôts de données sont tous deux des systèmes de stockage de données, mais avec des finalités différentes. Une base de données stocke généralement des données pour un domaine d'activité particulier, tandis qu'un entrepôt de données stocke les données actuelles et historiques pour l'ensemble de l'entreprise, et alimente la BI et l'analytique. Les entrepôts de données utilisent un serveur de base de données pour extraire les données des bases de données d'une entreprise et disposent de fonctionnalités supplémentaires pour la modélisation des données, la gestion du cycle de vie des données, l'intégration des sources de données, etc.
Entrepôt de données ou lac de données
Les entrepôts de données et les lacs de données sont tous deux utilisés pour stocker le Big Data, mais ce sont deux systèmes de stockage très différents. Un entrepôt de données stocke les données qui ont été formatées dans un but spécifique, tandis qu'un lac de données stocke les données brutes, non traitées, dont l'objectif n'a pas encore été défini. Les entrepôts de données et les lacs de données sont souvent complémentaires. Par exemple, si on a besoin de données brutes stockées dans un lac pour répondre à une question, on peut les extraire, les nettoyer, les transformer et les utiliser dans un entrepôt de données à des fins d'analyse. Le volume de données, les performances de la base de données et la tarification du stockage sont les principaux critères dans le choix d'une solution de stockage.
Schéma d'un entrepôt de données comparé à un lac de données.
Entrepôt de données ou datamart
Un datamart est une sous-section d'un entrepôt de données, partitionnée spécifiquement pour un service ou une direction métier, comme les ventes, le marketing ou la fonction Finance. Certains datamarts sont également créés à des fins opérationnelles distinctes. Un entrepôt de données sert de magasin de données central pour l'ensemble d'une entreprise, tandis qu'un datamart fournit des données pertinentes à un groupe d'utilisateurs restreint. Ces derniers bénéficient ainsi d'un accès aux données simplifié, d'une analyse accélérée et d'un contrôle sur leurs propres données. Plusieurs datamarts sont souvent déployés dans un entrepôt de données.
Schéma d'un datamart et de son fonctionnement.
Quels sont les composants clés d'un entrepôt de données ?
Un entrepôt de données classique a quatre composants principaux : une base de données centrale, des outils ETL (extraction, transformation, chargement), des métadonnées et des outils d'accès. Tous ces composants sont conçus pour être rapides et vous permettre d'obtenir des résultats et d'analyser les données à la volée.
Schéma illustrant les composants d'un entrepôt de données.
- Base de données centrale : une base de données sert de socle à votre entrepôt de données. Traditionnellement, il s'agissait de bases de données relationnelles standard exécutées on-premise ou dans le cloud. Mais avec l'arrivée du Big Data, le besoin de véritables performances en temps réel et la réduction drastique du coût de la RAM, les bases de données In-Memory sont de plus en plus populaires.
- Intégration des données : les données sont extraites des systèmes source et modifiées pour aligner les informations en vue d'une utilisation analytique rapide à l'aide de diverses approches d'intégration des données telles que l'ETL (extraction, transformation, chargement) et l'ELT, ainsi que de la réplication des données en temps réel, du traitement en masse, de la transformation des données et des services de qualité et d'enrichissement des données.
- Métadonnées : les métadonnées sont les données sur les données. Elles indiquent la source, l'utilisation, les valeurs et d'autres fonctionnalités des ensembles de données dans votre entrepôt de données. On peut faire la distinction entre les métadonnées métier, qui apportent plus de contexte à vos données, et les métadonnées techniques, qui indiquent comment accéder aux données, notamment le lieu où elles résident et la façon dont elles sont structurées.
- Outils d'accès aux entrepôts de données : les outils d'accès permettent aux utilisateurs d'interagir avec les données de votre entrepôt de données. Ce peut être des outils de requête et de reporting, des outils de développement d'applications, des outils de data mining, ou des outils OLAP.
Architecture d'un entrepôt de données
Avant, les entrepôts de données fonctionnaient en couches correspondant au flux des données métier.
Diagramme de l'architecture d'un entrepôt de données. Un entrepôt de données classique comprend les trois couches distinctes ci-dessus. Aujourd'hui, les entrepôts de données modernes combinent OLTP et OLAP en un seul système.
Couche de données : les données sont extraites de vos sources, puis transformées et chargées dans le niveau inférieur à l'aide des outils ETL. Le niveau inférieur comprend votre serveur de base de données, vos datamarts et vos lacs de données. Les métadonnées sont créées à ce niveau et les outils d'intégration des données, de virtualisation des données par exemple, servent à combiner et agréger les données en toute cohérence.
Couche sémantique : au niveau intermédiaire, les serveurs OLAP (traitement analytique en ligne) et OLTP (traitement transactionnel en ligne) restructurent les données pour des requêtes et des analytiques rapides et complexes.
Couche analytique : le niveau supérieur est la couche client front-end. Elle contient les outils d'accès à l'entrepôt de données qui permettent aux utilisateurs d'interagir avec les données, de créer des tableaux de bord et des rapports, de surveiller les KPI, d'explorer et d'analyser des données, de créer des applications, etc. Ce niveau comprend souvent un workbench ou une zone de test pour l'exploration des données et le développement d'un nouveau modèle de données.
Pensés pour faciliter la prise de décision, les entrepôts de données ont été principalement créés et gérés par des équipes informatiques, mais ces dernières années, ils ont évolué pour donner plus d'autonomie aux utilisateurs professionnels, afin de les aider à accéder aux données et obtenir des insights exploitables en ayant moins besoin de l'aide du service informatique. Voici quelques-unes des principales fonctionnalités d'entreposage de données qui ont aidé les utilisateurs professionnels :
- La couche sémantique ou métier fournit des expressions en langage naturel et permet à chacun de comprendre instantanément les données, de définir des relations entre les éléments dans le modèle de données et d'enrichir les zones de données avec de nouvelles informations métier.
- Les espaces de travail virtuels permettent aux équipes de regrouper les modèles et connexions de données dans un emplacement sécurisé et gouverné, améliorant ainsi la collaboration entre les collègues grâce à un espace et un ensemble de données communs.
- En dotant les collaborateurs d'un large éventail d'outils et de fonctionnalités pour effectuer facilement des tâches d'analyse des données, le cloud a rendu la prise de décision encore plus simple. Ils peuvent connecter de nouvelles applications et sources de données sans beaucoup solliciter l'aide du service informatique.
Les sept principaux avantages d'un entrepôt de données cloud
Les entrepôts de données basés dans le cloud ont de plus en plus de succès, et ce n'est pas surprenant. Ils offrent plusieurs avantages par rapport aux versions traditionnelles on-premise. Voici les sept principaux avantages d'un entrepôt de données cloud :
- Déploiement rapide : avec l'entreposage de données cloud, vous pouvez acheter en quelques clics une puissance de calcul et un stockage de données presque illimités, et vous pouvez en quelques minutes créer votre propre entrepôt de données, vos datamarts et vos zones de test.
- Faible coût total de possession : les modèles de tarification d'entrepôt de données en tant que service sont établis de manière à ne vous facturer que les ressources dont vous avez besoin, quand vous en avez besoin. Vous n'avez pas à prévoir vos besoins à long terme ni à payer dans l'année une puissance de calcul plus importante que ce dont vous avez besoin. Vous pouvez également éviter les coûts initiaux tels que le matériel onéreux, les salles de serveurs et le personnel de maintenance. Distinguer le prix du stockage de celui du traitement est un autre moyen de réduire les coûts.
- Élasticité : un entrepôt de données cloud s'adapte à vos besoins de manière dynamique. Le cloud offre un environnement virtualisé et hautement distribué capable de gérer d'immenses volumes de données amenés à évoluer.
- Sécurité et restauration après sinistre : dans de nombreux cas, les entrepôts de données cloud offrent une sécurité et un chiffrement des données plus solides que les entrepôts de données on-premise. Les données sont également dupliquées et sauvegardées automatiquement, ce qui vous permet de limiter le risque de perte de données.
- Technologies en temps réel : les entrepôts de données cloud basés sur la technologie de base de données In-Memory offrent des vitesses de traitement extrêmement élevées pour fournir des données en temps réel, et donc une connaissance instantanée de la situation.
- Nouvelles technologies : les entrepôts de données cloud vous permettent d'intégrer facilement de nouvelles technologies, telles que le Machine Learning, qui peuvent offrir aux utilisateurs métier une expérience guidée et une aide à la décision sous forme, par exemple, de recommandations de questions à poser.
- Autonomiser les utilisateurs métier : les entrepôts de données cloud offrent à tous les collaborateurs une vue unique des données issues de nombreuses sources et un riche ensemble d'outils et de fonctionnalités pour faciliter les tâches d'analyse des données. Ils peuvent connecter de nouvelles applications et sources de données sans solliciter l'aide du service IT.
L'entreposage de données se charge de l'analytique complète des dépenses de l'entreprise par service, fournisseur, région, statut, etc.
Bonnes pratiques d'entreposage de données
Lorsque vous créez un nouvel entrepôt de données ou que vous ajoutez de nouvelles applications à un entrepôt existant, vous pouvez appliquer des pratiques éprouvées pour atteindre vos objectifs tout en économisant du temps et de l'argent. Certaines de ces pratiques concernent votre gestion, d'autres font partie de votre programme informatique global. La liste suivante constitue un bon point de départ ; en travaillant avec vos partenaires technologiques et de services, vous découvrirez d'autres bonnes pratiques.
Bonnes pratiques métier
Définir les informations dont vous avez besoin. Après avoir cerné vos besoins initiaux, vous pourrez trouver les sources de données qui vous permettront d'y répondre. Les groupes commerciaux, les clients et les fournisseurs ont souvent des données à vous recommander.
Préciser l'emplacement, la structure et la qualité de vos données actuelles. Vous pourrez ensuite identifier les lacunes en matière de données et les règles métier pour transformer les données et répondre aux besoins de votre entrepôt.
Constituer une équipe. Cette équipe doit comprendre des sponsors exécutifs, des responsables et des collaborateurs qui utiliseront et fourniront les informations. Par exemple, identifiez le reporting standard et les KPI dont ils ont besoin pour faire leur travail.
Hiérarchiser vos applications d'entrepôt de données. Choisissez un ou deux projets pilotes qui présentent des exigences raisonnables et une bonne valeur ajoutée pour votre entreprise.
Choisir un solide partenaire technologique pour votre entrepôt de données. Ce partenaire doit avoir les services de mise en œuvre et l'expérience nécessaires pour réaliser vos projets. Veillez à ce qu'ils prennent en charge vos besoins de déploiement, y compris les services cloud et les options on-premise.
Élaborer un bon plan de projet. Travaillez avec votre équipe sur un projet et un calendrier réalistes qui tiennent compte de la communication et du reporting de statut.
Bonnes pratiques informatiques
Surveiller les performances et la sécurité. Les informations de votre entrepôt de données sont précieuses, mais pour apporter de la valeur à votre entreprise, elles doivent être facilement accessibles. Surveillez attentivement l'utilisation du système pour veiller à ce que les niveaux de performance soient élevés.
Gérer les normes de qualité des données, les métadonnées, la structure et la gouvernance. Régulièrement, de nouvelles sources de données précieuses sont disponibles, mais elles nécessitent une gestion cohérente dans le cadre d'un entrepôt de données. Suivez les procédures de nettoyage des données, de définition des métadonnées et de respect des normes de gouvernance.
Fournir une architecture agile. Au fur et à mesure de l'utilisation croissance dans l'entreprise mère et les filiales, vous découvrirez tous les datamarts et entrepôts dont vous avez besoin. Avec une plateforme flexible, vous y répondrez bien mieux qu'avec un produit limité et restrictif.
Automatiser les processus tels que la maintenance. En plus d'améliorer la Business Intelligence, le Machine Learning peut automatiser les fonctions de gestion technique des entrepôts de données pour maintenir la vitesse et réduire les coûts d'exploitation.
Opter pour une utilisation stratégique du cloud.Pour une filiale ou un service, les besoins de déploiement sont différents. Utilisez des systèmes on-premise quand cela est nécessaire et exploitez les entrepôts de données cloud pour favoriser la capacité de mise à l'échelle, réduire les coûts et obtenir un accès sur téléphone et tablette.
En résumé
Les entrepôts de données modernes, en particulier les entrepôts de données cloud, vont devenir une composante essentielle de toute initiative de transformation numérique pour une société mère et ses filiales. Ces entrepôts s'appuient sur les systèmes métier existants, en particulier lorsque vous combinez les données de plusieurs systèmes internes avec de nouvelles informations importantes provenant d'organisations externes.
Les tableaux de bord, les indicateurs de performance clés, les alertes et le reporting répondent aux besoins des dirigeants et collaborateurs, ainsi qu'à ceux des clients et fournisseurs. Les entrepôts de données fournissent également de data mining et d'analytique de données rapides et complexes, sans disrupter les performances des autres systèmes métier.
Commencer petit et se développer au fur et à mesure que les besoins augmentent demande de la flexibilité. La technologie moderne d'entrepôt de données permet aux entreprises mères et aux filiales d'améliorer leur prise de décision et leurs résultats nets.
FAQ sur l'entrepôt de données
Découvrir des entrepôts de données modernes
SAP Datasphere est la nouvelle génération de SAP Data Warehouse Cloud.
Idées que vous ne trouverez nulle part ailleurs
Inscrivez-vous pour recevoir une dose de Business Intelligence directement dans votre boîte de réception.