Accès rapide au contenu
Entrepôt de données

Glossaire Gestion de données

Parcourez une série de termes liés aux données et les définitions associées dans notre glossaire Gestion de données.

Une base de données permet d'organiser, de stocker, de gérer, de protéger et de contrôler l'accès aux données. Les bases de données peuvent être conçues suivant un certain nombre de modèles différents (schémas), dont beaucoup sont axés sur le modèle relationnel pour faciliter l'accès via les programmes et requêtes de données. Les types courants de bases de données sont notamment les systèmes de gestion de bases de données relationnelles (SGBDR), les bases de données In-Memory, les bases de données objet (SGBDO), les bases de données NoSQL et les bases de données NewSQL, chacun ayant ses propres avantages.

La gestion des données désigne toutes les fonctions nécessaires à la collecte, au contrôle, à la sauvegarde, au traitement et à la livraison des données. Les systèmes de gestion des données comprennent des bases de données, des entrepôts de données et des datamarts, mais aussi des outils de collecte, de stockage et d'extraction de données, ainsi que des utilitaires facilitant la validation et renforçant la qualité ou encore l'intégration aux applications et outils analytiques. Les entreprises ont besoin d'une stratégie de données pour établir la responsabilité concernant les données provenant de domaines de responsabilité particuliers (ou étant endémiques à ces domaines).

Un système de gestion de bases de données (SGBD) est un kit de ressources logicielles offrant une structure de stockage et de gestion de données pour la gestion de base de données. Le SGBD peut faire partie intégrante d'un système ERP (progiciel de gestion intégré) sous licence, résulter d'un achat distinct, faire partie du logiciel du système (système d'exploitation) ou bien être un produit logiciel sous licence séparée. Quelle qu'en soit la source, il est essentiel que les applications soient conçues autour du SGBD et/ou entièrement intégrées au SGBD en raison de leur interdépendance : ensemble, ils conditionnent l'efficacité des fonctionnalités, tant des applications que du SGBD. Le SGBD est essentiellement un kit de ressources axé sur la gestion de base de données.

Une base de données relationnelle est un type de base de données qui organise les données dans des tables. Ces tables peuvent être liées (ou reliées) les unes aux autres pour aider les utilisateurs à comprendre les relations entre tous les points de données disponibles. Les bases de données relationnelles utilisent un langage de requête structuré (SQL) pour permettre aux administrateurs de communiquer avec la base de données, de joindre des tables, d'insérer et de supprimer des données, etc.

Une base de données SQL est une base de données relationnelle qui stocke les données dans des tables et des lignes. Les éléments de données (lignes) sont liés en fonction d'éléments de données communs pour renforcer l'efficacité, éviter la redondance et favoriser une extraction facile et flexible. L'appellation SQL provient de « Structured Query Language » (langage de requête structuré), kit de ressources et protocole de requête en langage naturel que les utilisateurs peuvent apprendre et appliquer à toute base de données compatible pour le stockage, la manipulation et l'extraction des données.

Les bases de données NoSQL ont été développées pour la gestion de données non structurées, que SQL ne peut pas prendre en charge du fait même de l'absence de structure. NoSQL utilise des techniques créatives pour surmonter cette limitation, notamment des schémas dynamiques et diverses techniques de prétraitement. Les types de bases de données les plus courants pour les données non structurées sont les bases de données clé-valeur, document, colonne et graphique, comprenant souvent des éléments tels que des vidéos, des graphiques, du texte libre et des sorties brutes de capteurs.

Les données structurées sont parfaitement mises en forme, en lignes et en colonnes, et mappées sur des champs prédéfinis. Elles sont généralement stockées dans des feuilles de calcul Excel ou des bases de données relationnelles : il peut s'agir par exemple de transactions financières, d'informations démographiques ou de journaux de machine. Jusqu'à récemment, les données structurées constituaient le seul type de données utilisable par les entreprises.

Les données non structurées ne sont pas organisées en lignes et colonnes, ce qui complique le stockage, les analyses et les recherches associées. Il peut s'agir par exemple de données brutes de l'Internet des Objets (IoT), de fichiers vidéo et audio, de commentaires de réseaux sociaux ou encore de transcriptions de centre d'appels. Les données non structurées sont généralement stockées dans des lacs de données, des bases de données NoSQL ou des entrepôts de données modernes.

Les données semi-structurées ont certaines propriétés organisationnelles, telles que des balises sémantiques ou des métadonnées, mais ne présentent pas les lignes et colonnes d'une feuille de calcul ou la structure d'une base de données relationnelle. Les e-mails constituent un bon exemple de données semi-structurées, incluant certaines données structurées, telles que les adresses de l'expéditeur et du destinataire, mais aussi des données non structurées, telles que le contenu même du message.

Le mappage de données consiste à mettre en correspondance des champs entre différentes structures de données ou bases de données. Cette étape est nécessaire si les bases de données doivent être combinées, si les données sont transférées d'un système ou d'une base de données vers un autre, ou si différentes sources de données doivent être utilisées dans une application ou un outil analytique unique, comme c'est souvent le cas avec l'entreposage de données. Le mappage des données identifiera les informations uniques, contradictoires et dupliquées afin qu'un ensemble de règles puisse être développé pour rassembler toutes les données dans un schéma ou un format coordonné.

Lors de la création d'une nouvelle structure de base de données ou d'une structure alternative, le concepteur commence par créer un diagramme montrant comment les données entreront et sortiront de la base de données. La création de ce diagramme des flux de données est nommée modélisation des données. À partir de ce diagramme de flux, les ingénieurs logiciels peuvent définir les caractéristiques des formats de données, des structures et des fonctions de gestion des bases de données afin de prendre en charge efficacement les besoins en flux de données.

Un entrepôt de données fournit une structure de stockage unique et complète pour les données provenant de nombreuses sources différentes, internes et externes. Son principal objectif est de fournir les données pour la Business Intelligence (BI), le reporting et l'analytique. Les entrepôts de données modernes peuvent stocker et gérer tous les types de données, structurées ou non structurées, et sont généralement déployés dans le cloud pour offrir une évolutivité et une facilité d'utilisation accrues.

Le Big Data est un terme qui désigne des ensembles de données extrêmement volumineux, comportant des données structurées, non structurées et semi-structurées. Le Big Data se caractérise souvent par les cinq V : le volume important de données collectées, la variété des types de données, la vitesse à laquelle les données sont générées, la véracité des données et leur valeur. Grâce aux systèmes de gestion et à l'analytique du Big Data, les entreprises peuvent explorer le Big Data pour obtenir des insights approfondis qui guident leur prise de décision et leurs actions.

L'intégration des données est la pratique consistant à ingérer, transformer, combiner et fournir des données, où et quand elles sont nécessaires. Cette intégration s'effectue au sein de l'entreprise et au-delà, à travers les partenaires ainsi que les sources de données et les cas d'utilisation tiers, afin de répondre aux exigences de consommation des données de toutes les applications et de tous les processus métier. Les techniques comprennent, entre autres, le déplacement de données en masse/par lots, la technologie Extract-transform-load (ETL), la capture des changements de données, la réplication des données, la virtualisation des données, l'intégration des données en continu et l'orchestration des données.

La virtualisation des données fournit aux entreprises une vue unifiée sur toutes leurs données, quels que soient les systèmes et formats concernés, dans une couche de données virtuelle. Au lieu de dupliquer des données, la virtualisation des données laisse les données dans leurs systèmes source et en offre simplement une représentation virtuelle aux utilisateurs et aux applications, en temps réel. La virtualisation des données est une approche moderne de l'intégration des données qui permet aux utilisateurs de découvrir et de manipuler les données, quels que soient leur emplacement physique, leur format ou le protocole associé.

Le « Data Fabric » (structure de données) est une combinaison personnalisée d'architectures et de technologies. Il repose sur l'intégration et l'orchestration dynamiques des données pour connecter différents emplacements, sources et types de données. Grâce aux structures et flux appropriés définis dans la plateforme de Data Fabric, les entreprises peuvent rapidement accéder aux données et les partager, quels que soient leur emplacement ou la façon dont elles ont été générées.

Un pipeline de données désigne un ensemble de processus automatisés et reproductibles destinés à rechercher, nettoyer, transformer et analyser tout type de données à sa source. Comme les données sont analysées à proximité de l'endroit où elles sont générées, les utilisateurs métier peuvent rapidement analyser et partager les informations dont ils ont besoin à moindre coût pour l'entreprise. Les pipelines de données peuvent également être optimisés par des technologies telles que le Machine Learning pour gagner en rapidité et en efficacité.

Un silo de données est un terme familier qui désigne l'absence de partage de données et d'informations entre certains services ou domaines fonctionnels d'une entreprise. Cet isolement empêche les efforts coordonnés pour atteindre les objectifs de l'entreprise et se traduit par de mauvaises performances (et un mauvais service client), des coûts élevés et une incapacité générale à répondre aux demandes et aux changements du marché. Les rapprochements sont difficiles avec des données dupliquées et redondantes, ce qui freine tout effort de coordination des activités et empêche une gestion efficace de l'entreprise.

La préparation préalable des données consiste à prendre des données brutes et à les transformer pour obtenir un format compatible avec les bases de données et applications établies. Le processus peut inclure la structuration, le nettoyage, l'enrichissement et la validation des données selon les besoins, le tout visant à rendre les données brutes utilisables.

Assurer la sécurité des données, c'est sécuriser et protéger les données contre les accès ou expositions non autorisés, les catastrophes ou les défaillances de système, tout en les laissant facilement accessibles aux utilisateurs et applications légitimes. Parmi les méthodes et outils employés dans ce domaine, on peut citer le chiffrement des données, la gestion des clés, les pratiques de redondance et de sauvegarde, et les contrôles d'accès. La sécurité des données est une exigence pour les entreprises de toute taille et de tout type pour assurer la protection des données client et entreprise face à la menace croissante de violations de données et de risques liés à la confidentialité. La redondance et les sauvegardes sont importantes pour la continuité des activités et les restaurations après sinistre.

La confidentialité des données fait référence aux politiques et pratiques de gestion des données visant à les protéger contre tout accès ou toute divulgation non autorisés. Les politiques et pratiques de confidentialité des données concernent notamment la façon dont les informations sont collectées et stockées suivant la stratégie de l'entreprise en matière de données, la manière dont elles peuvent être partagées ou non avec des tiers, et les moyens d'assurer la conformité aux restrictions réglementaires. La confidentialité des données est un impératif stratégique qui répond aux attentes des clients tout en protégeant l'intégrité et la sécurité des informations stockées.

La qualité des données est un terme nébuleux faisant référence à l'adéquation et à la fiabilité des données. Par bonne qualité de données, on entend simplement que les données sont exactes (véritablement représentatives de ce qu'elles décrivent), fiables (cohérentes, auditables, correctement gérées et protégées) et complètes, dans la limite des besoins des utilisateurs et applications concernés. La qualité des données ne peut être assurée que via une stratégie de données correctement élaborée et mise en œuvre avec des outils et des systèmes de puissance industrielle, ainsi que des politiques et des procédures de gestion des données scrupuleusement suivies.

La validation des données consiste à déterminer la qualité, l'exactitude et la validité des données avant de les importer ou de les utiliser. La validation peut consister en une série d'activités et de processus visant à authentifier les données et généralement « nettoyer » les éléments de données, notamment via la suppression des doublons, la correction des erreurs évidentes ou des éléments manquants, et d'éventuelles modifications de format (nettoyage des données). La validation des données assure l'exactitude et la fiabilité des informations dont vous avez besoin pour prendre des décisions importantes.

Le nettoyage des données désigne le processus de suppression ou de correction des erreurs d'un jeu de données, d'une table ou d'une base de données. Ces erreurs peuvent notamment correspondre à des informations corrompues, inexactes, non pertinentes ou incomplètes. Ce processus détecte les données en double et d'autres incohérences, telles que les fautes de frappe et les ensembles digitaux ne s'additionnant pas. Le nettoyage des données peut supprimer les informations incorrectes ou corriger les erreurs évidentes, telles que les champs vides ou les codes manquants.

L'intégrité des données fait référence à la véracité des données sur le long terme. Une fois les données saisies ou importées, préparées, validées, nettoyées et stockées, l'intégrité des données atteste que la qualité des données est préservée et que les utilisateurs peuvent être certains que les données reçues n'ont pas changé et qu'elles ne changeront pas. Les données récupérées sont les mêmes que celles qui étaient stockées à l'origine. Parfois utilisée comme synonyme de qualité des données, l'intégrité des données concerne davantage la fiabilité des données.

La gouvernance des données désigne un ensemble de politiques et de pratiques visant à assurer la gestion adéquate des données au sein d'une entreprise. Elle établit l'infrastructure informatique et désigne les personnes (ou postes) qui ont l'autorité et la responsabilité du traitement et de la sauvegarde de types de données spécifiques. Une gouvernance des données efficace permet de s'assurer que les données sont disponibles, fiables, sécurisées et conformes, et qu'elles ne sont pas utilisées à mauvais escient.

La gestion responsable des données consiste à mettre en œuvre des politiques et des procédures de gouvernance des données pour établir l'exactitude, la fiabilité, l'intégrité et la sécurité des données. Les personnes chargées de la gestion responsable des données gèrent et supervisent les procédures et les outils utilisés pour traiter, stocker et protéger les données.

L'architecture de données désigne la conception globale de la structure, des politiques et des règles propres aux données d'une entreprise et la manière dont elles seront utilisées et gérées. L'architecture de données comprend notamment des détails sur la façon dont la stratégie de données est mise en œuvre pour répondre aux besoins et objectifs de l'entreprise, et sert de base à des développements multiples en matière de bases de données, procédures, sauvegardes, sécurité et gouvernance des données.

La gestion des données de base (MDM) consiste à créer une seule source de référence « de base » pour toutes les données d'entreprise importantes. Elle inclut des politiques et procédures visant à définir, gérer et contrôler (ou gouverner) le traitement des données de base. La gestion centralisée des données de base élimine les conflits et les confusions résultant de bases de données dispersées, avec informations en double et données non coordonnées qui peuvent être obsolètes, corrompues ou déplacées au cours du temps (mises à jour à un endroit, mais pas à un autre). Disposer d'une version unique pour servir l'ensemble de l'entreprise permet de s'assurer que toutes les composantes de l'entreprise travaillent avec les mêmes définitions, normes et hypothèses.

Le terme analytique fait référence à l'analyse systématique des données. Les applications et kits de ressources analytiques contiennent des algorithmes mathématiques et des moteurs de calcul capables de manipuler de grands ensembles de données pour révéler des modèles, des tendances, des relations et d'autres insights qui permettent aux utilisateurs de poser des questions et d'obtenir des insights utiles sur leur entreprise, les opérations et les marchés. De nombreux kits de ressources analytiques modernes sont conçus pour être utilisés par des professionnels non techniques, leur permettant d'effectuer ces analyses avec un minimum d'aide de la part d'experts des données ou de spécialistes informatiques.

L'exploration de données consiste à extraire des informations utiles à partir d'ensembles de données volumineux. L'exploration de données est souvent effectuée par des utilisateurs métier qui utilisent des outils d'analytique pour révéler des modèles, des tendances, des anomalies, des relations, des dépendances et d'autres renseignements utiles. L'exploration de données offre un large éventail d'applications, de la détection des fraudes et des problèmes de cybersécurité à l'amélioration des prévisions et à la détection d'opportunités d'amélioration des performances.

Le profilage des données désigne la pratique consistant à collecter des statistiques et caractéristiques concernant un jeu de données, telles que son exactitude, son exhaustivité et sa validité. Le profilage des données est l'une des techniques utilisées dans les efforts de validation et de nettoyage des données car il peut aider à détecter les problèmes de qualité des données tels que les redondances, les valeurs manquantes et les incohérences.

placeholder

Qu'est-ce que la gestion de données ?

Découvrez comment votre entreprise peut transformer ses données en atout précieux.

Lettre d'information SAP Insights

placeholder
S'abonner

Obtenez des insights clés en vous abonnant à notre lettre d'information.

Autres ressources

Haut de page