media-blend
text-black

Professionnels analysant des graphiques sur un écran interactif en réunion

Lac de données ou entrepôt de données

Les lacs de données stockent des données brutes dans leur format natif, quelle que soit la manière dont elles sont transmises. Les entrepôts de données stockent des données qui ont été nettoyées et structurées selon un modèle prédéfini.

default

{}

default

{}

primary

default

{}

secondary

Présentation des lacs de données et entrepôts de données

Les lacs de données et les entrepôts de données sont des systèmes qui stockent, gèrent et récupèrent de grands volumes de données numériques. Les entreprises collectent des données afin d'obtenir des insights sur leurs opérations, leurs clients, leurs marchés et leurs Supply Chains, ce qui leur permet de réagir de manière plus stratégique.

Les entrepôts de données se sont imposés comme une solution pour éliminer les silos de données et relever le défi de la dispersion des données métier entre plusieurs systèmes, formats et services.

Les utilisateurs avaient en effet du mal à accéder à ces données, à les intégrer et à les analyser afin d'identifier des tendances, de prévoir la demande ou d'évaluer les performances. Les entrepôts de données ont été développés afin de consolider ces données dans un référentiel centralisé, où elles peuvent être intégrées, nettoyées et structurées en vue de leur analyse. Cette approche a permis d'établir une « source unique de vérité » pour soutenir les processus de conformité, de suivi des performances et de Business Intelligence.

Les lacs de données, quant à eux, sont apparus comme une solution aux limites des entrepôts de données, qui ne parvenaient pas à gérer de manière adéquate l'explosion des données non structurées et semi-structurées générées par de nouvelles sources telles que les réseaux sociaux, les appareils IoT, les capteurs, les applications mobiles, etc. Le stockage et le traitement d'énormes quantités de données diverses, telles que des images, des vidéos et du texte, étaient trop coûteux et inefficaces, car les entrepôts de données traditionnels exigeaient initialement que les données soient nettoyées et traitées à l'avance et avant leur stockage.

Les entreprises avaient donc besoin d'un moyen plus flexible et peu coûteux de stocker les données dans leur format brut d'origine, ce qui a donné naissance aux lacs de données.

Aujourd'hui, de nombreuses entreprises modernes adoptent une approche hybride combinant entrepôts de données et lacs de données : les « data lakehouses ». Cette architecture combine les capacités de reporting rapides et structurées du premier et le potentiel des applications d'IA et de Machine Learning du second.

Principales différences entre lacs de données et entrepôts de données

La principale différence entre les lacs de données et les entrepôts de données réside dans le type de données qu'ils stockent et la manière dont ils les stockent, deux éléments qui jouent un rôle clé dans la stratégie de données d'une organisation.

Les entrepôts de données stockent des données structurées qui ont été nettoyées et traitées selon une structure ou un schéma prédéfini. Comme le schéma est appliqué avant le stockage des données, l'approche est connue sous le nom de schéma d'écriture.

Par exemple, un schéma peut imposer que les données d'identification des clients soient des nombres entiers, que les dates de commande soient au format AAAA-MM-JJ et que les montants totaux des ventes soient au format décimal. Comme toutes les données respectent ces règles, les utilisateurs peuvent effectuer des requêtes telles que « trouver le total des ventes par client en avril 2025 » de manière rapide et fiable. Cette rapidité et cette précision font des entrepôts de données des outils idéaux pour les cas d'utilisation liés au reporting, aux tableaux de bord et à la Business Intelligence.

En revanche, les lacs de données peuvent stocker les données brutes dans leur format d'origine, quelle que soit leur structure. Aucun schéma prédéfini n'est requis à l'avance.

Le schéma n'est défini que lorsque les données sont interrogées, c'est pourquoi cette approche est appelée « schéma de lecture ». Ce n'est qu'à ce moment-là que les données brutes sont analysées, structurées et interprétées en fonction de la requête.

En résumé, les entrepôts de données appliquent le schéma avant de stocker les données afin de garantir que toutes les données sont structurées et nettoyées pour être utilisées. Les lacs de données, quant à eux, appliquent le schéma lorsque les données sont interrogées, et peuvent stocker toutes les données, structurées ou non, dès le départ.

Différences entre les lacs de données et les entrepôts de données

Lacs de données
Entrepôts de données
Type de données
Stocke des données structurées, semi-structurées et non structurées (par exemple, journaux, vidéos, texte).
Stocke uniquement les données structurées (par exemple, les transactions commerciales, les données financières).
Schéma
Schéma de lecture : le schéma est appliqué lorsque les données sont interrogées.
Schéma d'écriture : le schéma est appliqué avant le stockage des données.
Utilisateurs
Data Scientists, ingénieurs et analystes explorant des schémas, entraînant des modèles ou exécutant des workflows de Machine Learning.
Analystes métier, cadres et équipes opérationnelles générant des rapports et des indicateurs clés de performance.
Objectif
Stockage flexible pour de grands volumes de données brutes et diverses utilisées pour l'exploration, l'IA et le Machine Learning.
Référentiel centralisé pour les données structurées et traitées, utilisées pour le reporting, les tableaux de bord et la Business Intelligence.
Coût
Stockage d'objets à moindre coût
Coûts de stockage et de traitement plus élevés en raison du prétraitement et de l'optimisation.

Lac de données ou entrepôt de données : lequel choisir ?

Les lacs de données pouvant stocker des données brutes dans n'importe quel format, ils sont idéaux pour les entreprises qui ont besoin de flexibilité. Les détaillants, par exemple, collectent des quantités massives de données provenant de multiples sources, telles que des sites Web, des applications mobiles, des réseaux sociaux, des systèmes de point de vente, et bien d'autres encore. Comme les données qu'ils collectent n'ont pas besoin d'être nettoyées, transformées ou structurées, ils peuvent utiliser des systèmes de stockage plus rentables et facilement évolutifs. Cependant, le coût du traitement des données brutes au moment de la requête peut être plus élevé que celui des requêtes optimisées d'un entrepôt de données.

En comparaison, les coûts seront plus élevés avec les entrepôts de données. Les processus de nettoyage, de transformation et de structuration avant le chargement, ainsi que l'indexation et le partitionnement après le chargement, nécessitent des ressources et un stockage supplémentaires pour fonctionner. Toutefois, cette optimisation permet d'obtenir des données prêtes à l'emploi pour la Business Intelligence, le reporting et l'analytique opérationnelle. Grâce aux entrepôts de données, les analystes et les dirigeants peuvent générer des rapports, surveiller les indicateurs clés de performance et prendre des décisions éclairées en toute rapidité et simplicité.

Il convient de noter que les lacs de données ouvrent de nouvelles perspectives pour les applications d'IA et de Machine Learning. Les ensembles de données vastes et variés qu'ils stockent permettent aux Data Scientists d'identifier des tendances, de créer des modèles prédictifs et d'exécuter des applications de Machine Learning. Cela se traduit, par exemple, par des systèmes de recommandation qui suggèrent des produits aux utilisateurs en fonction de leurs interactions passées ou par des outils de traitement du langage naturel qui analysent les sentiments exprimés dans les avis clients ou les commentaires sur les réseaux sociaux.

Aujourd'hui, de nombreuses entreprises modernes utilisent des architectures de données qui sont essentiellement des combinaisons des deux. Ces « data lakehouses » visent à offrir la flexibilité d'un lac de données avec la gouvernance et les performances d'un entrepôt de données. Bien que leur adoption connaisse une croissance rapide, de nombreuses entreprises continuent de s'appuyer sur les entrepôts traditionnels pour leurs activités critiques de reporting.

Exemples et cas d'utilisation concrets

Voici quelques exemples illustrant comment différents secteurs utilisent les lacs de données, les entrepôts de données ou une combinaison des deux pour répondre à leurs besoins spécifiques.

Santé : les hôpitaux utilisent souvent une architecture de lac de données pour stocker, gérer et analyser les quantités considérables et les types variés de données générées par leurs activités. Cela comprend les données non structurées provenant d'appareils portables et d'images médicales, les données semi-structurées HL7 sur les patients et les résultats structurés des tests de laboratoire. En consolidant toutes ces données dans un référentiel central, ils peuvent appliquer l'analytique avancée et l'IA aux données brutes afin, par exemple, d'identifier les patients à risque ou d'analyser la génomique pour personnaliser les plans de traitement. Les patients étant désormais équipés de dispositifs portables « intelligents » qui transmettent en continu des données sur leurs constantes vitales, les prestataires de soins de santé peuvent même détecter les signes avant-coureurs et intervenir plus rapidement. Les patients étant désormais équipés de dispositifs portables « intelligents » qui transmettent en continu des données sur leurs constantes vitales, les prestataires de soins de santé peuvent même détecter les signes avant-coureurs et intervenir plus rapidement.

Finance : les banques et autres établissements financiers doivent se conformer aux réglementations en matière de lutte contre le blanchiment d'argent et à des réglementations strictes en matière de reporting financier (telles que la loi Sarbanes-Oxley aux États-Unis ou l'Accord mondial de Bâle III). En utilisant des entrepôts de données pour stocker des données financières structurées provenant de plusieurs systèmes, notamment des enregistrements de transactions, des soldes de comptes et des données commerciales, ils peuvent générer des rapports réglementaires qui répondent aux exigences en matière de gouvernance et de sécurité. Outre la conformité, les établissements financiers utilisent également des entrepôts de données pour alimenter leur Business Intelligence, gérer les risques et détecter les fraudes en exécutant des requêtes complexes sur des ensembles de données historiques et actuels.

Médias : les services de streaming vidéo utilisent une approche de data lakehouse pour collecter, stocker et analyser les données utilisateur afin d'offrir des expériences personnalisées. Ils collectent divers types de données provenant de multiples sources, telles que les journaux de streaming et les commentaires sur les réseaux sociaux, et les stockent dans un référentiel central. Ces données peuvent ensuite être utilisées pour créer des modèles de Machine Learning qui recommandent le contenu le plus pertinent. Les mêmes données peuvent également être organisées et structurées en sous-ensembles à des fins d'analytique ou de reporting, alimentant ainsi des tableaux de bord sur les taux de rétention ou éclairant les décisions relatives à l'acquisition de contenu.

Tendances émergentes des plateformes de données

Les data lakehouses sont en passe de devenir l'option privilégiée des entreprises qui cherchent à optimiser la valeur de leurs données. Ils peuvent prendre en charge à la fois la Business Intelligence et les cas d'utilisation de l'IA et du Machine Learning sur une seule et même plateforme. Il convient toutefois de noter qu'ils sont encore en pleine évolution et que certaines entreprises continuent de s'appuyer sur des entrepôts de données traditionnels pour leur reporting critique.

Le potentiel de l'IA en tant que moteur de productivité et d'efficacité a particulièrement influencé les architectures de données, certaines plateformes émergentes de lacs de données et de data lakehouses étant désormais dotés de LLM. Cela permet aux utilisateurs non techniques d'explorer et d'analyser les données en posant des questions en langage naturel. Par exemple, un utilisateur peut demander « montre-moi les tendances des ventes au deuxième trimestre », suite à quoi le LLM génère un code SQL compréhensible par le système. Cela démocratise l'accès aux insights issus des données.

Les architectures sans serveur apparaissent également comme une stratégie, dans laquelle les entreprises font appel à un fournisseur de services cloud pour gérer leur infrastructure de données. Dans cette configuration, une entreprise paie pour accéder à une plateforme de données au lieu de mettre en place et de gérer la sienne. Les avantages de cette approche sont une évolutivité plus facile et une meilleure rentabilité. Le fournisseur de services cloud offre une flexibilité en termes de bande passante en cas de pics de volume de données ou de charge de requêtes, et l'entreprise ne paie qu'en fonction de son utilisation. De cette façon, les développeurs peuvent accélérer le déploiement, puisqu'ils n'ont pas à se soucier des considérations liées à l'infrastructure.

Certaines entreprises optent même pour une stratégie multicloud, répartissant leurs lacs et leurs entrepôts de données entre plusieurs services cloud. Le principal avantage réside dans la résilience offerte par la redondance. Si un cloud tombe en panne, l'entreprise peut continuer à fonctionner sur un autre. Elle peut également optimiser des workflows spécifiques sur certains clouds, par exemple si un service est spécialisé dans le Machine Learning. Dans certains secteurs ou pays, les données sensibles doivent être stockées dans une région ou chez un fournisseur de cloud qui répond aux exigences de conformité locales.

Pour connecter, gérer et gouverner les données dans plusieurs environnements cloud, les entreprises peuvent mettre en œuvre des architectures de structure de données. Ces dernières fournissent un accès en temps réel aux données dans des systèmes et applications distincts mais synchronisés, créant ainsi une vue unifiée de l'ensemble de l'environnement.

Pour protéger les données sensibles telles que les dossiers médicaux, les numéros de sécurité sociale et les codes sources, les organisations adoptent également des politiques telles que des contrôles d'accès Zero Trust dans leurs plateformes de données. Ces contrôles nécessitent que tous les utilisateurs vérifient leur identité pour accéder aux données dont ils ont besoin.

FAQ

Qu'est-ce qu'un lac de données ?
Un lac de données est un système de stockage conçu pour contenir de grands volumes de données brutes dans leur format d'origine, comme des nombres, du texte, des images, des vidéos ou des journaux. C'est un peu comme un « réservoir digital » géant où toutes sortes d'informations peuvent circuler sans être organisées immédiatement.

Les lacs de données sont utiles pour les Data Scientists souhaitant entraîner des modèles de Machine Learning qui alimentent les systèmes de recommandation de contenu.
Qu'est-ce qu'un entrepôt de données ?

Un entrepôt de données est un système de stockage principalement conçu pour contenir de gros volumes de données structurées. Les données structurées sont nettoyées, organisées et mises en forme d'une certaine manière, à l'instar d'une feuille de calcul contenant des lignes et colonnes définies. Les entrepôts plus modernes peuvent également gérer certains formats semi-structurés tels que JSON ou XML.

Les entreprises utilisent des entrepôts de données pour répondre rapidement aux questions, générer des rapports et suivre les indicateurs de performance clés. Toutes ces fonctions sont classées dans la catégorie de Business Intelligence.

Qu'est-ce qu'un data lakehouse ?
Un data lakehouse est une plateforme de données moderne qui combine le meilleur des lacs de données et des entrepôts de données. Il peut stocker tous les types de données (brutes, non structurées ou semi-structurées) sans avoir à les organiser au préalable. Il permet une analyse et un reporting rapides et structurés lorsque cela est nécessaire.
Qu'est-ce qu'un schéma ? Quelle est la différence entre le schéma de lecture et le schéma d'écriture ?

Les schémas sont des règles qui régissent l'organisation des données, telles que le type de données pouvant être stockées (chiffres, dates), la manière dont les données sont organisées (tableaux et colonnes) et les relations entre les informations.

Un schéma d'écriture signifie que les données doivent s'inscrire dans une structure prédéfinie (schéma) avant d'être stockées. C'est ainsi que fonctionnent les entrepôts de données. Ils garantissent que les données sont propres et prêtes à être analysées dès le départ.

Un schéma de lecture signifie que la structure n'est appliquée que lorsque quelqu'un souhaite utiliser ou analyser les données. C'est ainsi que fonctionnent les lacs de données. Ils offrent davantage de flexibilité, car les données peuvent d'abord être stockées sous n'importe quelle forme, ce qui évite d'avoir à les organiser immédiatement. Cependant, cette approche présente certains inconvénients, notamment des temps de requête plus longs et un risque d'incohérence, car différents utilisateurs peuvent interpréter les mêmes données brutes de manière différente.

En revanche, le schéma d'écriture garantit la cohérence dès le départ, mais limite la flexibilité.

Quelle est la différence entre des données structurées, non structurées et semi-structurées ?

Les données structurées sont très organisées, faciles à rechercher et peuvent généralement être stockées dans des tables. Il peut s'agir de noms de clients, de chiffres de vente ou encore de dates.

Les données non structurées n'ont pas de format fixe et sont plus difficiles à organiser, comme les vidéos, les images, les fichiers audio et les publications sur les réseaux sociaux.

Les données semi-structurées se situent entre les deux. Elles sont organisées, mais pas aussi rigoureusement que les tableaux. Il peut s'agir, par exemple, de fichiers JSON, de documents XML et d'e-mails.

Logo SAP

Optimisez la valeur de vos données

SAP Business Data Cloud : là où tout se rejoint

En savoir plus