Photo d'un lac

Qu'est-ce qu'un lac de données (ou datalake) ?

Un lac de données est un référentiel de données central qui permet de résoudre les problèmes liés aux silos de données.

 

Cette page Web a été traduite automatiquement pour vous faciliter la tâche. SAP ne fournit aucune garantie concernant l'exactitude ou l'exhaustivité de la traduction automatique. La page web originale en anglais peut être trouvée en utilisant la carte du monde située dans le coin supérieur droit de cette page.

Par définition, un lac de données est un référentiel d'informations. Les lacs de données sont souvent confondus avec les entrepôts de données, pourtant les deux répondent à des besoins de gestion différents et ont des architectures différentes. Plus précisément, les lacs de données dans le cloud sont un élément essentiel d'une stratégie moderne de gestion des données, car la prolifération des données sociales, des données machine de l'Internet des Objets (IoT) et des données transactionnelles ne cesse de s'accélérer. La capacité à stocker, transformer et analyser tout type de données ouvre la voie à de nouvelles opportunités commerciales et à la transformation digitale : voilà le rôle d'un lac de données.

90

%

des institutions financières pensent que les initiatives de Big Data déterminent la réussite future

64,2

zettaoctets de données numériques ont été créés en 2020

17,6

B $USD

la valeur estimée du marché des lacs de données d'ici 2026

Définition de « lac de données »

Un lac de données est un référentiel de données central qui permet de résoudre les problèmes liés aux silos de données. Il est important de noter qu'un lac de données stocke de grandes quantités de données brutes dans leur format natif ou original. Ce format peut être structuré, non structuré ou semi-structuré. Les lacs de données, en particulier ceux qui se trouvent dans le cloud, sont peu coûteux, facilement évolutifs et souvent utilisés avec des analytiques de Machine Learning appliquées.

Lac de données ou entrepôt de données

Contrairement à un lac de données, un entrepôt de données offre des fonctionnalités de gestion des données et stocke des données traitées et filtrées qui ont déjà été traitées pour des questions ou des cas d'utilisation métier prédéfinis.

Schéma d'un entrepôt de données comparé à un lac de données.

Bien souvent, les entrepôts et les lacs de données sont complémentaires. Par exemple, lorsque des données brutes stockées dans un lac de données sont nécessaires pour répondre à une question métier, elles peuvent être extraites, nettoyées, transformées et utilisées dans un entrepôt de données pour une analyse plus approfondie.

 

Un « data lakehouse » est un concept nouveau et en pleine évolution, qui ajoute des fonctionnalités de gestion des données à un lac de données traditionnel. En résumé, il s'agit de la combinaison d'un lac de données et d'un entrepôt de données. 

 

Outre le type de données et les différences de processus évoqués ci-dessus, voici quelques détails permettant de comparer un lac de données avec une solution d'entrepôt de données.

Edit Table Feature Comparison Component

Enfin, le volume des données, les performances de la base de données et la tarification du stockage joueront un rôle important dans le choix de la solution de stockage appropriée.

Éléments clés d'une solution « lac de données »

  • Mouvement de données : les lacs de données permettent d'importer n'importe quel type de données à partir de sources multiples dans leur format natif. Cela permet aux entreprises d'adapter la taille des données en fonction des besoins sans avoir à définir de structures, de schémas et de transformations des données, ce qui peut entraîner des économies de frais généraux.
  • Stockage et catalogage des données en toute sécurité : le lac de données stocke des données structurées, semi-structurées et non structurées provenant de diverses sources telles que des données de gestion issues de logiciels CRM ou ERP, des dispositifs IoT, de réseaux sociaux ou même de données historiques provenant de systèmes hérités. Et les lacs de données vous permettent de capturer des données par lots et de streaming tout en appliquant les techniques de gouvernance, de sécurité et de contrôle. Les données peuvent être interrogées directement ou intégrées dans un entrepôt de données à l'aide des outils appropriés.
  • Analytique et Machine Learning : les lacs de données permettent un accès aux informations en fonction des rôles afin d'exécuter des analyses et des analyses de Machine Learning sans avoir à déplacer les données vers une base de données analytique distincte. De même, les lacs de données permettent de combiner des données historiques avec des données en temps réel pour affiner les modèles de Machine Learning ou d'analyse prédictive afin de fournir de meilleurs et/ou de nouveaux résultats.

Fonctionnement des lacs de données

Un lac de données moderne présente trois caractéristiques principales :

  1. Une zone d'atterrissage pour vos données brutes.
  2. Une zone de transit où les données sont transformées dans un but analytique.
  3. Une zone d'exploration des données où les données sont utilisées au moyen d'applications analytiques et pour alimenter des modèles de Machine Learning.

À partir du lac de données, les informations sont transmises à diverses sources, telles que des applications analytiques ou d'autres applications de gestion, ou à des outils de Machine Learning pour une analyse plus approfondie.

 

Cas d'utilisation d'un lac de données

Voici deux exemples de cas d'utilisation d'un lac de données dans le secteur du Retail.

 

Les données de vente à long terme sont stockées dans un lac de données avec des données non structurées telles que les flux de navigation sur les sites Web, la météo, les actualités et les données micro/macroéconomiques. Le fait de stocker ces données ensemble et de les rendre accessibles permet à un expert des données de combiner plus facilement ces différentes sources d'information dans un modèle qui permettra de prévoir la demande pour un produit ou une gamme de produits spécifiques. Ces informations sont ensuite utilisées comme données d'entrée dans le système ERP du Retail afin d'augmenter ou de diminuer les plans de production. 

 

En parallèle, un expert en marketing peut accéder à ce même lac de données et examiner une analyse des sentiments à l'égard du site Web et de l'engagement sur les réseaux sociaux avec des données d'historique sur les actualités, sur la situation macroéconomique et sur les ventes pour déterminer les produits sur lesquels se concentrer et la meilleure façon de maximiser les ventes, les bénéfices et/ou l'adoption.

Types de lacs de données

Les lacs de données peuvent résider sur site, dans le cloud, dans un mélange hybride des deux, et dans plusieurs hyperscalers cloud, comme Amazon Web Services (AWS), Microsoft Azure ou Google Cloud.

 

Le type de lac de données le plus populaire est de loin le lac de données dans le cloud. Un lac de données dans le cloud offre toutes les caractéristiques habituelles des lacs de données, mais dans un service cloud entièrement géré.

  • Lac de données sur site : avec un lac de données sur site, les ressources internes d'ingénierie informatique gèrent le matériel, les logiciels et les processus. Cette approche implique un engagement plus important en termes de dépenses d'investissement (CAPEX) et les données ont tendance à être cloisonnées.
  • Lac de données dans le cloud : dans le cas d'un lac de données dans le cloud, l'infrastructure sur site est externalisée. L'engagement en matière de dépenses opérationnelles (OPEX) est plus élevé, mais cette approche de déploiement permet aux entreprises d'évoluer plus facilement, avec de nombreux autres avantages (voir ci-dessous).
  • Lac de données hybride : dans certains cas, certaines entreprises choisissent de gérer simultanément des lacs de données sur site et dans le cloud. Cette situation est plutôt rare et se produit surtout dans le cadre de scénarios de migration de l'infrastructure sur site vers le cloud.
  • Lac de données multi-cloud :dans le cas d'un lac de données multi-cloud, deux ou plusieurs offres cloud sont combinées. Par exemple, une entreprise peut utiliser à la fois AWS et Azure pour gérer et maintenir des lacs de données dans le cloud. Cela exige une plus grande expertise afin de garantir que ces plateformes disparates communiquent entre elles.

Les six principaux avantages d'un lac de données dans le cloud

Pourquoi choisir un lac de données dans le cloud ? Transformer les données en actifs commerciaux à forte valeur ajoutée favorise la transformation digitale. Les atouts du cloud combinés à un lac de données constituent ce socle. Un lac de données dans le cloud permet aux entreprises d'appliquer l'analytique aux données historiques ainsi qu'à de nouvelles sources de données, telles que les fichiers journaux, les flux de navigation, les réseaux sociaux, les terminaux connectés à Internet, etc., pour obtenir des insights exploitables.

 

Voici quelques-uns des principaux avantages auxquels vous pouvez vous attendre :

  1. Rentabilité : les fournisseurs de stockage sur le cloud offrent de nombreuses options de stockage et de tarification.
  2. Auto-évolutivité : les services cloud sont conçus pour fournir une fonctionnalité évolutive permettant aux entreprises de calculer et d'exploiter la capacité de stockage à la demande.
  3. Référentiel de données central : un lac de données dans le cloud rassemble les informations, servant de version unique de la réalité avec un accès aux données gouverné qui permet l'efficacité des processus entre les équipes.
  4. Sécurité des données : les fournisseurs de stockage dans le cloud garantissent la sécurité des données grâce à un modèle de responsabilité partagée.
  5. Outils : les fournisseurs de stockage dans le cloud et d'autres vendeurs fournissent des outils ETL qui explorent les données, créent un catalogue de données et procèdent à la préparation, la transformation et l'ingestion de ces données pour les rendre interrogeables.
  6. Amélioration de l'analytique pour de nouveaux insights et de meilleurs résultats : un lac de données dans le cloud peut combiner les données de façons nouvelles. Par exemple, les données CRM et l'analyse des réseaux sociaux peuvent fournir de nouveaux insights sur les causes de l'attrition ou montrer quelles promotions augmentent la fidélité. De plus, l'efficacité opérationnelle peut être améliorée grâce à l'analyse des données de l'IoT.  
placeholder

Démarrer avec les solutions de lacs de données

Explorer les fonctionnalités d'un lac de données au sein de SAP HANA Cloud

Autres ressources de cette série


Foire aux questions sur les lacs de données

Découvrez ci-dessous quelques-unes de nos FAQ sur les lacs de données, et consultez notre glossaire sur la gestion des données pour davantage de définitions.

Le terme « lac de données » a évolué pour refléter le concept d'un stock de données fluide et plus important, par rapport à un stock de données plus cloisonné, bien défini et structuré.

 

Il y a plus de dix ans, à mesure que les sources de données augmentaient, les lacs de données ont évolué pour répondre au besoin de stocker des pétaoctets de données non définies en vue d'une analyse ultérieure. Les premiers lacs de données reposaient sur le système de fichiers Hadoop (HDFS) et sur du matériel de base installé dans des centres de données sur site. Toutefois, les défis inhérents à une architecture distribuée et la nécessité de transformer et d'analyser les données de manière personnalisée ont contribué aux performances sous-optimales des systèmes basés sur Hadoop.

 

Les technologies d'informatique et de stockage de données dans le cloud constituent désormais le principal fondement de la pile de données moderne et des lacs de données dans le cloud.

Un entrepôt de données (DW) est un système de stockage digital qui relie et harmonise de grandes quantités de données structurées et formatées provenant de nombreuses sources différentes. En revanche, un lac de données stocke les données dans leur forme originale, et n'est pas structuré ou formaté.

La gestion des données est le processus de collecte, d'organisation et d'accès aux données pour favoriser la productivité, l'efficacité et la prise de décision.

Un data lakehouse ajoute des fonctionnalités de gestion et d'entreposage des données aux fonctionnalités d'un lac de données traditionnel. Il s'agit d'un domaine nouveau et évolutif qui change rapidement. 

Le multi-cloud est l'utilisation de plusieurs services d'informatique et de stockage sur le cloud dans une architecture hétérogène unique. Il s'agit de la répartition des actifs, des logiciels et des applications cloud, par exemple, entre plusieurs environnements d'hébergement dans le cloud.

Le stockage de fichiers organise et représente les données sous la forme d'une hiérarchie de fichiers dans des dossiers. Le stockage par blocs regroupe les données dans des volumes organisés de manière arbitraire et de taille régulière. Le stockage d'objets, quant à lui, gère les données et les relie aux métadonnées associées. Les systèmes de stockage objet permettent de conserver des quantités massives de données non structurées.

Lettre d'information SAP Insights

Idées que vous ne trouverez nulle part ailleurs

Inscrivez-vous pour obtenir une dose de Business Intelligence directement dans votre boîte de réception.

Autres ressources