Qu'est-ce qu'un entrepôt de données ?
Un entrepôt de données (ou Data Warehouse en anglais) est un système de stockage digital qui connecte et harmonise de grandes quantités de données provenant de nombreuses différentes sources. Le but d'un entrepôt de données est d'alimenter la Business Intelligence (BI), le reporting et l'analytique, et de respecter les exigences réglementaires, afin que les entreprises puissent transformer leurs données en insights et prendre des décisions intelligentes et fondées sur les données. Les entrepôts de données stockent les données actuelles et historiques au même endroit, et offrent aux entreprises une version unique de la réalité.
Les données sont transférées dans un entrepôt de données à partir de systèmes opérationnels (un ERP ou un CRM), de bases de données et de sources externes telles que des systèmes partenaires, des terminaux IoT (Internet des Objets), des applications météorologiques et des réseaux sociaux, généralement à une fréquence régulière. L'émergence du cloud computing a transformé le paysage. Ces dernières années, les emplacements de stockage des données ont changé ; d'une infrastructure sur site traditionnelle, on est passé à plusieurs emplacements, notamment sur site, dans le cloud privé et le cloud public.
Les entrepôts de données modernes sont conçus pour gérer les données structurées comme non structurées, telles que des vidéos, des fichiers image et des données de capteurs. Certains exploitent l'analytique intégrée et la technologie de base de données In-Memory (qui contient l'ensemble de données dans la mémoire de l'ordinateur plutôt que sur le disque) pour fournir un accès en temps réel à des données fiables et faciliter la prise de décision. Sans entreposage de données, il est très difficile de combiner des données provenant de sources hétérogènes, de veiller à ce qu'elles soient au bon format pour l'analytique et d'obtenir une vue à la fois actuelle et à long terme des données.
Qu'est-ce qu'un entrepôt de données ?
Les avantages de l'entreposage de données
Un entrepôt de données bien conçu est la base de tout programme de BI ou d'analytique efficace. Il sert principalement à optimiser les rapports, les tableaux de bord et les outils analytiques, désormais indispensables aux entreprises. Un entrepôt de données fournit les informations nécessaires aux décisions fondées sur les données et vous aide à systématiquement faire le bon choix, qu'il s'agisse du développement d'un nouveau produit ou des niveaux de stock. Un entrepôt de données présente de nombreux avantages. En voici quelques-uns :
- Meilleur reporting analytique : grâce à l'entreposage de données, les décideurs ont accès à des données provenant de plusieurs sources et n'ont plus besoin de prendre leurs décisions sur la base d'informations incomplètes.
- Requêtes plus rapides : les entrepôts de données sont spécialement conçus pour l'extraction et l'analyse rapides des données. Un entrepôt de données vous permet d'interroger très rapidement de grandes quantités de données consolidées en ne sollicitant que très peu le service informatique, voire pas du tout.
- Meilleure qualité des données : avant d'être chargés dans l'entrepôt de données, les cas de nettoyage des données sont créés par le système et saisis dans une réserve de travail pour la suite du traitement, garantissant ainsi la conversion des données dans un format cohérent pour exécuter l'analytique – et prendre des décisions – sur la base de données précises et de haute qualité.
- Visibilité historique : grâce aux riches données historiques stockées sur un entrepôt de données, les décideurs peuvent s'appuyer sur les tendances et défis passés, faire des prévisions et encourager l'amélioration métier continue.
Capture d'écran d'un entrepôt de données affichant le lignage des données.
Que peut stocker un entrepôt de données ?
Lorsque les entrepôts de données sont devenus populaires à la fin des années 1980, ils étaient conçus pour stocker des informations sur les personnes, les produits et les transactions. Ces données, appelées données structurées, étaient soigneusement organisées et mises en forme pour en faciliter l'accès. Mais les entreprises ont rapidement voulu stocker, récupérer et analyser des données non structurées, telles que des documents, des images, des vidéos, des e-mails, des publications sur les réseaux sociaux et des données brutes provenant de capteurs de machines.
Un entrepôt de données moderne peut stocker des données structurées comme non structurées. En fusionnant ces types de données et en éliminant les silos entre les deux, les entreprises peuvent obtenir une vue d'ensemble complète des insights les plus précieux.
Quelques termes clés
Dans le domaine des entrepôts de données, il y a beaucoup de termes à connaître. Voici quelques-uns des plus importants. Découvrez d'autres termes et questions fréquentes dans notre glossaire.
Entrepôt de données ou base de données
Les bases de données et les entrepôts de données sont tous deux des systèmes de stockage de données, mais avec des finalités différentes. Une base de données stocke généralement des données pour un domaine d'activité particulier, tandis qu'un entrepôt de données stocke les données actuelles et historiques pour l'ensemble de l'entreprise, et alimente la BI et l'analytique. Les entrepôts de données utilisent un serveur de base de données pour extraire les données des bases de données d'une entreprise et disposent de fonctionnalités supplémentaires pour la modélisation des données, la gestion du cycle de vie des données, l'intégration des sources de données, etc.
Entrepôt de données ou lac de données
Les entrepôts de données et les lacs de données sont tous deux utilisés pour stocker le Big Data, mais ce sont deux systèmes de stockage très différents. Un entrepôt de données stocke les données qui ont été formatées dans un but spécifique, tandis qu'un lac de données stocke les données brutes, non traitées, dont l'objectif n'a pas encore été défini. Les entrepôts de données et les lacs de données sont souvent complémentaires. Par exemple, si on a besoin de données brutes stockées dans un lac pour répondre à une question, on peut les extraire, les nettoyer, les transformer et les utiliser dans un entrepôt de données à des fins d'analyse. Le volume de données, les performances de la base de données et la tarification du stockage sont les principaux critères dans le choix d'une solution de stockage.
Schéma d'un entrepôt de données comparé à un lac de données.
Entrepôt de données ou datamart
Un datamart est une sous-section d'un entrepôt de données, partitionnée spécifiquement pour un service ou une direction métier, comme les ventes, le marketing ou la finance. Certains datamarts sont également créés à des fins opérationnelles à part. Un entrepôt de données sert de magasin de données central pour l'ensemble d'une entreprise, tandis qu'un datamart fournit des données pertinentes à un groupe d'utilisateurs restreint. Ces derniers bénéficient ainsi d'un accès aux données simplifié, d'une analyse accélérée et d'un contrôle sur leurs propres données. Plusieurs datamarts sont souvent déployés dans un entrepôt de données.
Schéma d'un datamart et de son fonctionnement.
Quels sont les composants clés d'un entrepôt de données ?
Un entrepôt de données classique a quatre composants principaux : une base de données centrale, des outils ETL (extraction, transformation, chargement), des métadonnées et des outils d'accès. Tous ces composants sont conçus pour être rapides et vous permettre d'obtenir des résultats et d'analyser les données à la volée.
Schéma illustrant les composants d'un entrepôt de données.
- Base de données centrale : une base de données sert de socle à votre entrepôt de données. Traditionnellement, il s'agissait de bases de données relationnelles standard exécutées sur site ou dans le cloud. Mais avec l'arrivée du Big Data, le besoin de véritables performances en temps réel et la réduction drastique du coût de la RAM, les bases de données In-Memory sont de plus en plus populaires.
- Intégration des données : les données sont extraites des systèmes source et modifiées pour aligner les informations en vue d'une utilisation analytique rapide à l'aide de diverses approches d'intégration des données telles que l'ETL (extraction, transformation, chargement) et l'ELT, ainsi que de la réplication des données en temps réel, du traitement en masse, de la transformation des données et des services de qualité et d'enrichissement des données.
- Métadonnées : les métadonnées sont les données sur les données. Elles indiquent la source, l'utilisation, les valeurs et d'autres fonctionnalités des ensembles de données dans votre entrepôt de données. Les métadonnées de gestion apportent plus de contexte à vos données, et les métadonnées techniques décrivent comment accéder aux données, notamment où elles résident et comment elles sont structurées.
- Outils d'accès aux entrepôts de données : les outils d'accès permettent aux utilisateurs d'interagir avec les données de votre entrepôt de données. Ce peut être des outils de requête et de reporting, des outils de développement d'applications, des outils d'exploration de données, ou des outils OLAP.
Architecture d'un entrepôt de données
Avant, les entrepôts de données fonctionnaient en couches correspondant au flux des données de gestion.
Diagramme de l’architecture d'un entrepôt de données. Un entrepôt de données classique comprend les trois couches distinctes ci-dessus. Aujourd'hui, les entrepôts de données modernes combinent OLTP et OLAP en un seul système.
- Couche de données : les données sont extraites de vos sources, puis transformées et chargées dans le niveau inférieur à l'aide des outils ETL. Le niveau inférieur comprend votre serveur de base de données, vos datamarts et vos lacs de données. Les métadonnées sont créées à ce niveau et les outils d'intégration des données, de virtualisation des données par exemple, servent à combiner et agréger les données en toute transparence.
- Couche sémantique : au niveau intermédiaire, les serveurs OLAP (traitement analytique en ligne) et OLTP (traitement transactionnel en ligne) restructurent les données pour des requêtes et des analytiques rapides et complexes.
- Couche analytique : le niveau supérieur est la couche client front-end. Elle contient les outils d'accès à l'entrepôt de données qui permettent aux utilisateurs d'interagir avec les données, de créer des tableaux de bord et des rapports, de surveiller les KPI, d'explorer et d'analyser des données, de créer des applications, etc. Ce niveau comprend souvent un workbench ou une zone de test pour l'exploration des données et le développement d'un nouveau modèle de données.
Pensés pour faciliter la prise de décision, les entrepôts de données ont été principalement créés et gérés par des équipes informatiques, mais ces dernières années, ils ont évolué pour donner plus d'autonomie aux utilisateurs professionnels, afin de les aider à accéder aux données et obtenir des insights exploitables en ayant moins besoin de l'aide du service informatique. Voici quelques-unes des principales fonctionnalités d'entreposage de données qui ont aidé les utilisateurs professionnels :
- La couche sémantique ou métier fournit des expressions en langage naturel et permet à chacun de comprendre instantanément les données, de définir des relations entre les éléments dans le modèle de données et d'enrichir les zones de données avec de nouvelles informations de gestion.
- Les espaces de travail virtuels permettent aux équipes de regrouper les modèles et connexions de données dans un emplacement sécurisé et gouverné, améliorant ainsi la collaboration entre les collègues grâce à un espace et un ensemble de données communs.
- En dotant les collaborateurs d'un large éventail d'outils et de fonctionnalités pour effectuer facilement des tâches d'analyse des données, le cloud a rendu la prise de décision encore plus simple. Ils peuvent connecter de nouvelles applications et sources de données sans beaucoup solliciter l'aide du service informatique.
Les sept principaux avantages d'un entrepôt de données cloud
Les entrepôts de données basés dans le cloud ont de plus en plus de succès, et ce n'est pas surprenant. Ils offrent plusieurs avantages par rapport aux versions traditionnelles sur site. Voici les sept principaux avantages d'un entrepôt de données cloud :
- Déploiement rapide : avec l'entreposage de données cloud, vous pouvez acheter en quelques clics une puissance de calcul et un stockage de données presque illimités, et vous pouvez en quelques minutes créer votre propre entrepôt de données, vos datamarts et vos zones de test.
- Faible coût total de possession : les modèles de tarification d'entrepôt de données en tant que service sont établis de manière à ne vous facturer que les ressources dont vous avez besoin, quand vous en avez besoin. Vous n'avez pas à prévoir vos besoins à long terme ni à payer dans l'année une puissance de calcul plus importante que ce dont vous avez besoin. Vous pouvez également éviter les coûts initiaux tels que le matériel onéreux, les salles de serveurs et le personnel de maintenance. Distinguer le prix du stockage de celui du traitement est un autre moyen de réduire les coûts.
- Élasticité : un entrepôt de données cloud s'adapte à vos besoins de manière dynamique. Le cloud offre un environnement virtualisé et hautement distribué capable de gérer d'immenses volumes de données amenés à évoluer.
- Sécurité et restauration après sinistre : dans de nombreux cas, les entrepôts de données cloud offrent une sécurité et un chiffrement des données plus solides que les entrepôts de données sur site. Les données sont également dupliquées et sauvegardées automatiquement, ce qui vous permet de minimiser le risque de perte de données.
- Technologies en temps réel :les entrepôts de données cloud basés sur la technologie de base de données In-Memory offrent des vitesses de traitement extrêmement élevées pour fournir des données en temps réel, et donc une connaissance instantanée de la situation.
- Nouvelles technologies : les entrepôts de données cloud vous permettent d'intégrer facilement de nouvelles technologies, telles que le Machine Learning, qui peuvent offrir aux utilisateurs professionnels une expérience guidée et une aide à la décision sous forme, par exemple, de recommandations de questions à poser.
- Autonomiser les utilisateurs métier : les entrepôts de données cloud offrent à tous les collaborateurs une vue unique des données issues de nombreuses sources et un riche ensemble d'outils et de fonctionnalités pour faciliter les tâches d'analyse des données. Ils peuvent connecter de nouvelles applications et sources de données sans le service informatique.
L'entreposage de données se charge de l'analytique complet des dépenses de l'entreprise par service, fournisseur, région, statut, etc.
Bonnes pratiques d'entreposage de données
Lorsque vous créez un nouvel entrepôt de données ou que vous ajoutez de nouvelles applications à un entrepôt existant, vous pouvez appliquer des pratiques éprouvées pour atteindre vos objectifs tout en économisant du temps et de l'argent. Certaines de ces pratiques concernent votre gestion, d'autres font partie de votre programme informatique global. La liste suivante constitue un bon point de départ ; en travaillant avec vos partenaires technologiques et de services, vous découvrirez d'autres bonnes pratiques.
Bonnes pratiques de gestion
- Définissez les informations dont vous avez besoin. Après avoir cerné vos besoins initiaux, vous pourrez trouver les sources de données qui vous permettront d'y répondre. Les groupes commerciaux, les clients et les fournisseurs ont souvent des données à vous recommander.
- Précisez l'emplacement, la structure et la qualité de vos données actuelles. Vous pourrez ensuite identifier les lacunes en matière de données et les règles de gestion pour transformer les données et répondre aux besoins de votre entrepôt.
- Constituez une équipe. Cette équipe doit comprendre des sponsors exécutifs, des responsables et des collaborateurs qui utiliseront et fourniront les informations. Par exemple, identifiez le reporting standard et les KPI dont ils ont besoin pour faire leur travail.
- Hiérarchisez vos applications d'entrepôt de données. Choisissez un ou deux projets pilotes qui présentent des exigences raisonnables et une bonne valeur ajoutée pour votre entreprise.
- Choisissez un solide partenaire technologique pour votre entrepôt de données. Ce partenaire doit avoir les services de mise en œuvre et l'expérience nécessaires pour réaliser vos projets. Veillez à ce qu'ils prennent en charge vos besoins de déploiement, y compris les services cloud et les options sur site.
- Élaborez un bon plan de projet. Travaillez avec votre équipe sur un projet et un calendrier réalistes qui tiennent compte de la communication et du reporting de statut.
Bonnes pratiques informatiques
- Surveillez les performances et la sécurité. Les informations de votre entrepôt de données sont précieuses, mais pour apporter de la valeur à votre entreprise, elles doivent être facilement accessibles. Surveillez attentivement l'utilisation du système pour veiller à ce que les niveaux de performance soient élevés.
- Gérez les normes de qualité des données, les métadonnées, la structure et la gouvernance. Régulièrement, de nouvelles sources de données précieuses sont disponibles, mais elles nécessitent une gestion cohérente dans le cadre d'un entrepôt de données. Suivez les procédures de nettoyage des données, de définition des métadonnées et de respect des normes de gouvernance.
- Fournissez une architecture agile. Au fur et à mesure de l'utilisation de votre unité d'entreprise et de gestion, vous découvrirez tous les datamarts et entrepôts dont vous avez besoin. Avec une plateforme flexible, vous y répondrez bien mieux qu'avec un produit limité et restrictif.
- Automatisez les processus tels que la maintenance. En plus d'améliorer la Business Intelligence, le Machine Learning peut automatiser les fonctions de gestion technique des entrepôts de données pour maintenir la vitesse et réduire les coûts d'exploitation.
- Faites une utilisation stratégique du cloud. Pour une unité de gestion ou un service, les besoins de déploiement sont différents. Utilisez des systèmes sur site quand cela est nécessaire et exploitez les entrepôts de données cloud pour favoriser la capacité de mise à l'échelle, réduire les coûts et obtenir un accès sur téléphone et tablette.
En résumé
Les entrepôts de données modernes, en particulier les entrepôts de données cloud, vont devenir une composante essentielle de toute initiative de transformation digitale pour une société mère et ses unités de gestion. Ces entrepôts s'appuient sur les systèmes de gestion existants, en particulier lorsque vous combinez les données de plusieurs systèmes internes avec de nouvelles informations importantes provenant d'organisations externes.
Les tableaux de bord, les indicateurs de performance clés, les alertes et le reporting répondent aux besoins des dirigeants et collaborateurs, ainsi qu'à ceux des clients et fournisseurs. Les entrepôts de données fournissent également des outils d'exploration et d'analytique de données rapides et complexes, sans entamer les performances des autres systèmes de gestion.
Commencer petit et se développer au fur et à mesure que les besoins augmentent demande de la flexibilité. La technologie moderne d'entrepôt de données permet aux bureaux d'entreprise et aux unités de gestion d'améliorer leur prise de décision et leurs résultats.
Découvrir la solution d'entrepôt de données de SAP
Bénéficiez de données et d'analytique unifiées pour une prise de décision fiable dans le cloud.
Autres ressources de cette série
Glossaire sur l'entrepôt de données
Un lac de données est l'endroit où sont stockés tous types de Big Data, données structurées issues d'applications de gestion ou données non structurées provenant d'applications mobiles, de réseaux sociaux ou d'appareils IoT (Internet des Objets). Les données étant stockées dans leur format naturel (structuré, non structuré, semi-structuré ou binaire), il peut être nécessaire de les convertir, de les normaliser ou d'exécuter tout autre traitement pour permettre l'analytique de plusieurs types de données. La plupart des lacs de données sont basés dans le cloud en raison des volumes importants qu'ils comportent, du besoin de connexions haute vitesse aux sources distribuées et du besoin d'évolutivité.
ETL signifie « extraction, transformation et chargement ». L'ensemble de ces activités constitue le processus utilisé pour extraire des données d'une source et les convertir dans un format utilisable, avant de les déplacer dans un entrepôt de données ou un autre magasin de données. L'ETL est particulièrement utile pour les données transactionnelles, mais il existe aussi des outils plus avancés pour gérer divers types de données non structurées.
Un datamart est un segment partitionné d'un entrepôt de données tourné vers un domaine d'activité ou une équipe spécifique, comme la finance ou le marketing. Les datamarts permettent aux services d'accéder plus facilement aux données et aux insights dont ils ont besoin, ainsi que de contrôler leurs propres ensembles de données dans un plus grand magasin de données.
Les modèles de données sont un élément fondamental du développement et de l'analytique des logiciels. Un modèle de données est une description de la manière dont les données sont structurées et de la forme sous laquelle les données seront stockées dans la base de données. Un modèle de données fournit une structure des relations entre les éléments de données au sein d'une base de données, ainsi qu'un guide d'utilisation des données.
La modélisation des données est le processus de création de modèles de données. Lors de la création d'une structure de base de données ou d'entrepôt de données, le concepteur commence par créer un diagramme montrant comment les données entreront et sortiront de la base de données ou de l'entrepôt de données. Ce diagramme de flux sert à définir les caractéristiques des formats de données, des structures et des fonctions de gestion des bases de données afin de prendre en charge efficacement les besoins en flux de données. La modélisation apporte une méthode standardisée pour définir et mettre en forme les contenus de la base de données de manière cohérente dans tous les systèmes, permettant à différentes applications de partager les mêmes données.
Un entrepôt de données d'entreprise stocke toutes les données de gestion actuelles et historiques au même endroit. C'est la solution qui regroupe gestion des données de base, entreposage des données et stratégie de données basée sur une approche holistique de la gestion des données. Les entrepôts de données sont un environnement convivial pour les logiciels d'analytique et la maintenance de KPI et d'un reporting précis dans toute l'entreprise. De nombreux entrepôts de données sont basés sur le cloud pour des raisons d'évolutivité, d'accès et de convivialité.
Lettre d'information SAP Insights
S'abonner
Obtenez des insights clés en vous abonnant à notre lettre d'information.