flex-height
text-black
Glossaire Gestion de données
Parcourez une série de termes liés aux données et les définitions associées dans notre glossaire Gestion de données.
Qu'est-ce qu'une base de données ?
Une base de données permet d'organiser, de stocker, de gérer, de protéger et de contrôler l'accès aux données. Les bases de données peuvent être conçues suivant un certain nombre de modèles différents (schémas), dont beaucoup sont axés sur le modèle relationnel pour faciliter l'accès via les programmes et requêtes de données. Les types courants de bases de données sont notamment les systèmes de gestion de bases de données relationnelles (SGBDR), les bases de données In-Memory, les bases de données objet (SGBDO), les bases de données NoSQL et les bases de données NewSQL, chacun ayant ses propres avantages.
Qu'est-ce que la gestion des données ?
La gestion des données désigne toutes les fonctions nécessaires à la collecte, au contrôle, à la sauvegarde, au traitement et à la livraison des données. Les systèmes de gestion des données comprennent des bases de données, des entrepôts de données et des datamarts, mais aussi des outils de collecte, de stockage et d'extraction de données, ainsi que des utilitaires facilitant la validation et renforçant la qualité ou encore l'intégration aux applications et outils analytiques. Les entreprises ont besoin d'une stratégie de données pour établir la responsabilité concernant les données provenant de domaines de responsabilité particuliers (ou étant endémiques à ces domaines).
Qu'est-ce que la gestion des bases de données ?
La gestion de bases de données fait référence aux processus et procédures requis pour stocker, traiter, manipuler et protéger les données. Dans de nombreuses entreprises, l'établissement et la supervision de telles procédures sont les principales responsabilités d'un administrateur de bases de données (DBA) ou d'une personne assumant des fonctions similaires. La plupart des entreprises utilisent un système de gestion de bases de données (SGBD) commercial comme outil principal pour gérer leur base de données.
Qu'est-ce qu'un système de gestion de base de données (SGBD) ?
Un système de gestion de bases de données (SGBD) est un kit de ressources logicielles offrant une structure de stockage et de gestion de données pour la gestion de base de données. Le SGBD peut faire partie intégrante d'un système ERP (progiciel de gestion intégré) sous licence, résulter d'un achat distinct, faire partie du logiciel du système (système d'exploitation) ou bien être un produit logiciel sous licence séparée. Quelle qu'en soit la source, il est essentiel que les applications soient conçues autour du SGBD et/ou entièrement intégrées au SGBD en raison de leur interdépendance : ensemble, ils conditionnent l'efficacité des fonctionnalités, tant des applications que du SGBD. Le SGBD est essentiellement un kit de ressources axé sur la gestion de base de données.
Qu'est-ce qu'une base de données SQL ?
Une base de données SQL est une base de données relationnelle qui stocke les données dans des tables et des lignes. Les éléments de données (lignes) sont liés en fonction d'éléments de données communs pour renforcer l'efficacité, éviter la redondance et favoriser une extraction facile et flexible. L'appellation SQL provient de « Structured Query Language » (langage de requête structuré), kit de ressources et protocole de requête en langage naturel que les utilisateurs peuvent apprendre et appliquer à toute base de données compatible pour le stockage, la manipulation et l'extraction des données.
Qu'est-ce qu'une base de données NoSQL ?
Les bases de données NoSQL ont été développées pour la gestion de données non structurées, que SQL ne peut pas prendre en charge du fait même de l'absence de structure. NoSQL utilise des techniques créatives pour surmonter cette limitation, notamment des schémas dynamiques et diverses techniques de prétraitement. Les types de bases de données les plus courants pour les données non structurées sont les bases de données clé-valeur, document, colonne et graphique, comprenant souvent des éléments tels que des vidéos, des graphiques, du texte libre et des sorties brutes de capteurs.
Qu'est-ce qu'un système de gestion de bases de données relationnelles (SGBDR) ?
Un système de gestion de bases de données relationnelles est un système de gestion de bases de données (SGBD) basé sur le modèle de données relationnelles. Le contenu du SGBDR est stocké dans des tables, constituées de lignes et de colonnes, chaque table représentant un objet ou une entité spécifique dans la base de données qui peut être liée à une autre. Un SGBDR contient généralement plusieurs tables et inclut des fonctions supplémentaires qui assurent l'exactitude, la cohérence, l'intégrité et la sécurité des données, ainsi qu'une interface SQL permettant d'accéder aux données les unes par rapport aux autres via des requêtes complexes.
Qu’est-ce qu’un SGBDC ?
SGBDC est un terme inventé par Gartner ; il fait essentiellement référence à un modèle de déploiement du SGBDR dans le cloud.
En quoi consistent les données structurées ?
Les données structurées sont parfaitement mises en forme, en lignes et en colonnes, et mappées sur des champs prédéfinis. Elles sont généralement stockées dans des feuilles de calcul Excel ou des bases de données relationnelles : il peut s'agir par exemple de transactions financières, d'informations démographiques ou de journaux de machine. Jusqu'à récemment, les données structurées constituaient le seul type de données utilisable par les entreprises.
En quoi consistent les données non structurées ?
Les données non structurées ne sont pas organisées en lignes et colonnes, ce qui complique le stockage, les analyses et les recherches associées. Il peut s'agir par exemple de données brutes de l'Internet des Objets (IoT), de fichiers vidéo et audio, de commentaires de réseaux sociaux ou encore de transcriptions de centre d'appels. Les données non structurées sont généralement stockées dans des lacs de données, des bases de données NoSQL ou des entrepôts de données modernes.
En quoi consistent les données semi-structurées ?
Les données semi-structurées ont certaines propriétés organisationnelles, telles que des balises sémantiques ou des métadonnées, mais ne présentent pas les lignes et colonnes d'une feuille de calcul ou la structure d'une base de données relationnelle. Les e-mails constituent un bon exemple de données semi-structurées, incluant certaines données structurées, telles que les adresses de l'expéditeur et du destinataire, mais aussi des données non structurées, telles que le contenu même du message.
Qu'est-ce que le mappage de données ?
Le mappage de données consiste à mettre en correspondance des champs entre différentes structures de données ou bases de données. Cette étape est nécessaire si les bases de données doivent être combinées, si les données sont transférées d'un système ou d'une base de données vers un(e) autre, ou si différentes sources de données doivent être utilisées dans une application ou un outil analytique unique, comme c'est souvent le cas avec l'entreposage de données. Le mappage des données identifiera les informations uniques, contradictoires et dupliquées afin qu'un ensemble de règles puisse être développé pour rassembler toutes les données dans un schéma ou un format coordonné.
Qu'est-ce que la modélisation des données ?
Lors de la création d'une nouvelle structure de base de données ou d'une structure alternative, le concepteur commence par créer un diagramme montrant comment les données entreront et sortiront de la base de données. La création de ce diagramme des flux de données est nommée modélisation des données. À partir de ce diagramme de flux, les ingénieurs logiciels peuvent définir les caractéristiques des formats de données, des structures et des fonctions de gestion des bases de données afin de prendre en charge efficacement les besoins en flux de données.
Qu'est-ce que l'entreposage de données ?
Un entrepôt de données fournit une structure de stockage unique et complète pour les données provenant de nombreuses sources différentes, internes et externes. Son principal objectif est de fournir les données pour la Business Intelligence (BI), le reporting et l'analytique. Les entrepôts de données modernes peuvent stocker et gérer tous les types de données, structurées ou non structurées, et sont généralement déployés dans le cloud pour offrir une évolutivité et une facilité d'utilisation accrues.
Qu'est-ce qu'un lac de données ?
Un lac de données est un vaste pool de données stockées dans leur format brut ou naturel. Les lacs de données sont généralement utilisés pour stocker du Big Data, notamment des données structurées, non structurées et semi-structurées.
Qu'est-ce que le Big Data ?
Le Big Data est un terme qui désigne des ensembles de données extrêmement volumineux, comportant des données structurées, non structurées et semi-structurées. Le Big Data se caractérise souvent par les cinq V : le volume important de données collectées, la variété des types de données, la vitesse à laquelle les données sont générées, la véracité des données et leur valeur. Grâce aux systèmes de gestion et à l'analytique du Big Data, les entreprises peuvent explorer le Big Data pour obtenir des insights approfondis qui guident leur prise de décision et leurs actions.
Qu'est-ce que le Small Data ?
Contrairement au Big Data, des données extrêmement volumineuses et complexes, le Small Data est facile à comprendre pour un être humain. Le Small Data peut couvrir tout type de données (enquêtes marketing, feuilles de calcul quotidiennes) et peut être aussi petit qu'une publication sur un réseau social ou un e-mail. Les entreprises utilisent de plus en plus le Small Data, en plus du Big Data, pour entraîner leurs algorithmes d'IA et de Machine Learning afin d'obtenir des insights encore plus détaillés.
Qu'est-ce que le Thick Data ?
Le Thick Data désigne des informations qualitatives qui fournissent des insights sur la vie émotionnelle quotidienne des consommateurs. Il comprend des observations, des ressentis et des réactions, informations généralement difficiles à quantifier. En le combinant au Big Data, on obtient une vue très complète sur les préférences et les exigences des consommateurs.
En quoi consiste l'intégration des données ?
L'intégration des données consiste à ingérer, transformer, combiner et fournir des données, où et quand elles sont nécessaires. Cette intégration s'effectue au sein de l'entreprise et au-delà, couvrant les partenaires et les sources de données et cas d'utilisation tiers, afin de répondre aux exigences de consommation des données de toutes les applications et de tous les processus. Les techniques comprennent, entre autres, le déplacement de données en masse/par lots, la technologie Extract-transform-load (ETL), la capture des changements de données, la réplication des données, la virtualisation des données, l'intégration des données en continu et l'orchestration des données.
Qu'est-ce que la virtualisation des données ?
La virtualisation des données fournit aux entreprises une vue unifiée sur toutes leurs données, quels que soient les systèmes et formats concernés, dans une couche de données virtuelle. Au lieu de dupliquer des données, la virtualisation des données laisse les données dans leurs systèmes source et en offre simplement une représentation virtuelle aux utilisateurs et aux applications, en temps réel. La virtualisation des données est une approche moderne de l'intégration des données qui permet aux utilisateurs de découvrir et de manipuler les données, quels que soient leur emplacement physique, leur format ou le protocole associé.
Qu'est-ce que la structure de données ?
Le « Data Fabric » (structure de données) est une combinaison personnalisée d'architectures et de technologies. Il repose sur l'intégration et l'orchestration dynamiques des données pour connecter différents emplacements, sources et types de données. Grâce aux structures et flux appropriés définis dans la plateforme de structure de données, les entreprises peuvent rapidement accéder aux données et les partager, quels que soient leur emplacement ou la façon dont elles ont été générées.
Qu'est-ce qu'un maillage de données ?
Le maillage de données est une approche de la gestion des données qui utilise une structure architecturale distribuée. En d'autres termes, il étend la propriété et la responsabilité d'ensembles de données spécifiques dans toute l'entreprise, aux utilisateurs possédant l'expertise d'un spécialiste pour comprendre ce que ces données signifient et comment les utiliser au mieux.
Qu'est-ce qu'un pipeline de données ?
Un pipeline de données désigne un ensemble de processus automatisés et reproductibles destinés à rechercher, nettoyer, transformer et analyser tout type de données à sa source. Comme les données sont analysées à proximité de l'endroit où elles sont générées, les utilisateurs métier peuvent rapidement analyser et partager les informations dont ils ont besoin à moindre coût pour l'entreprise. Les pipelines de données peuvent également être optimisés par des technologies telles que le Machine Learning pour gagner en rapidité et en efficacité.
Que sont les silos de données ?
Un silo de données est un terme familier qui désigne l'absence de partage de données et d'informations entre certains services ou domaines fonctionnels d'une entreprise. Cet isolement empêche les efforts coordonnés pour atteindre les objectifs de l'entreprise et se traduit par de mauvaises performances (et un mauvais service client), des coûts élevés et une incapacité générale à répondre aux demandes et aux changements du marché. Les rapprochements sont difficiles avec des données dupliquées et redondantes, ce qui freine tout effort de coordination des activités et empêche une gestion efficace de l'entreprise.
Qu'est-ce que la préparation préalable des données ?
La préparation préalable des données consiste à prendre des données brutes et à les transformer pour obtenir un format compatible avec les bases de données et applications établies. Le processus peut inclure la structuration, le nettoyage, l'enrichissement et la validation des données selon les besoins, le tout visant à rendre les données brutes utilisables.
Qu'est-ce que la sécurité des données ?
Assurer la sécurité des données, c'est sécuriser et protéger les données contre les accès ou expositions non autorisés, les catastrophes ou les défaillances de système, tout en les laissant facilement accessibles aux utilisateurs et applications légitimes. Parmi les méthodes et outils employés dans ce domaine, on peut citer le chiffrement des données, la gestion des clés, les pratiques de redondance et de sauvegarde, et les contrôles d'accès. La sécurité des données est une exigence pour les entreprises de toute taille et de tout type pour assurer la protection des données client et entreprise face à la menace croissante de violations de données et de risques liés à la confidentialité. La redondance et les sauvegardes sont importantes pour la continuité des activités et les restaurations après sinistre.
Qu'est-ce que la confidentialité des données ?
La confidentialité des données fait référence aux politiques et pratiques de gestion des données visant à les protéger contre tout accès ou toute divulgation non autorisés. Les politiques et pratiques de confidentialité des données concernent notamment la façon dont les informations sont collectées et stockées suivant la stratégie de l'entreprise en matière de données, la manière dont elles peuvent être partagées ou non avec des tiers, et les moyens d'assurer la conformité aux restrictions réglementaires. La confidentialité des données est un impératif stratégique qui répond aux attentes des clients tout en protégeant l'intégrité et la sécurité des informations stockées.
Qu'est-ce que la qualité des données ?
La qualité des données est un terme nébuleux faisant référence à l'adéquation et à la fiabilité des données. Par bonne qualité de données, on entend simplement que les données sont exactes (véritablement représentatives de ce qu'elles décrivent), fiables (cohérentes, auditables, correctement gérées et protégées) et complètes, dans la limite des besoins des utilisateurs et applications concernés. La qualité des données ne peut être assurée que via une stratégie de données correctement élaborée et mise en œuvre avec des outils et des systèmes de puissance industrielle, ainsi que des politiques et des procédures de gestion des données scrupuleusement suivies.
Qu'est-ce que la validation des données ?
La validation des données consiste à déterminer la qualité, l'exactitude et la validité des données avant de les importer ou de les utiliser. La validation peut consister en une série d'activités et de processus visant à authentifier les données et généralement « nettoyer » les éléments de données, notamment via la suppression des doublons, la correction des erreurs évidentes ou des éléments manquants, et d'éventuelles modifications de format (nettoyage des données). La validation des données assure l'exactitude et la fiabilité des informations dont vous avez besoin pour prendre des décisions importantes.
Qu'est-ce que le nettoyage des données ?
Le nettoyage des données désigne le processus de suppression ou de correction des erreurs d'un jeu de données, d'une table ou d'une base de données. Ces erreurs peuvent notamment correspondre à des informations corrompues, inexactes, non pertinentes ou incomplètes. Ce processus détecte les données en double et d'autres incohérences, telles que les fautes de frappe et les ensembles digitaux ne s'additionnant pas. Le nettoyage des données peut supprimer les informations incorrectes ou corriger les erreurs évidentes, telles que les champs vides ou les codes manquants.
Qu'est-ce que l'intégrité des données ?
L'intégrité des données fait référence à la véracité des données sur le long terme. Une fois les données saisies ou importées, préparées, validées, nettoyées et stockées, l'intégrité des données atteste que la qualité des données est préservée et que les utilisateurs peuvent être certains que les données reçues n'ont pas changé et qu'elles ne changeront pas. Les données récupérées sont les mêmes que celles qui étaient stockées à l'origine. Parfois utilisée comme synonyme de qualité des données, l'intégrité des données concerne davantage la fiabilité des données.
Qu'est-ce que la gouvernance des données ?
La gouvernance des données désigne un ensemble de politiques et de pratiques visant à assurer la gestion adéquate des données au sein d'une entreprise. Elle établit l'infrastructure IT et désigne les personnes (ou postes) qui ont l'autorité et la responsabilité du traitement et de la sauvegarde de types de données spécifiques. Une gouvernance des données efficace permet de s'assurer que les données sont disponibles, fiables, sécurisées et conformes, et qu'elles ne sont pas utilisées à mauvais escient.
Qu'est-ce que la gestion responsable des données ?
La gestion responsable des données consiste à mettre en œuvre des politiques et des procédures de gouvernance des données pour établir l'exactitude, la fiabilité, l'intégrité et la sécurité des données. Les personnes chargées de la gestion responsable des données gèrent et supervisent les procédures et les outils utilisés pour traiter, stocker et protéger les données.
Qu'est-ce que l'architecture des données ?
L'architecture de données désigne la conception globale de la structure, des politiques et des règles propres aux données d'une entreprise et la manière dont elles seront utilisées et gérées. L'architecture de données comprend notamment des détails sur la façon dont la stratégie de données est mise en œuvre pour répondre aux besoins et objectifs de l'entreprise, et sert de base à des développements multiples en matière de bases de données, procédures, sauvegardes, sécurité et gouvernance des données.
Qu'est-ce que la gestion des données de base ?
La gestion des données de base (MDM) consiste à créer une seule source de référence « de base » pour toutes les données d'entreprise importantes. Elle inclut des politiques et procédures visant à définir, gérer et contrôler (ou gouverner) le traitement des données de base. La gestion centralisée des données de base élimine les conflits et les confusions résultant de bases de données dispersées, avec informations en double et données non coordonnées qui peuvent être obsolètes, corrompues ou déplacées au cours du temps (mises à jour à un endroit, mais pas à un autre). Disposer d'une version unique pour servir l'ensemble de l'entreprise permet de s'assurer que toutes les composantes de l'entreprise travaillent avec les mêmes définitions, normes et hypothèses.
Qu'est-ce que l'analytique ?
Le terme analytique fait référence à l'analyse systématique des données. Les applications et kits de ressources analytiques contiennent des algorithmes mathématiques et des moteurs de calcul capables de manipuler de grands ensembles de données pour révéler des modèles, des tendances, des relations et d'autres renseignements qui permettent aux utilisateurs de poser des questions et d'obtenir des insights utiles sur leur entreprise, les opérations et les marchés. De nombreux kits de ressources analytiques modernes sont conçus pour être utilisés par des professionnels non techniques, leur permettant d'effectuer ces analyses avec un minimum d'aide de la part d'experts des données ou de spécialistes IT.
Qu'est-ce que l'analytique augmentée ?
L'analytique augmentée se présente sous la forme d'outils analytiques « augmentés » grâce aux technologies d'intelligence artificielle, notamment le Machine Learning et le traitement du langage naturel (NLP). Non seulement l'analytique augmentée aide les utilisateurs à obtenir plus vite des insights plus détaillés, mais en plus elle permet d'automatiser de nombreuses étapes compliquées du processus et elle aide même les utilisateurs non experts à interroger les données de manière naturelle et conversationnelle.
Qu'est-ce que le data mining ?
Le data mining consiste à extraire des informations utiles à partir d'ensembles de données volumineux. Le data mining est souvent effectué par des utilisateurs métier qui utilisent des outils analytiques pour révéler des modèles, des tendances, des anomalies, des relations, des dépendances et d'autres renseignements utiles. Le data mining offre un large éventail d'applications, de la détection des fraudes et des problèmes de cybersécurité à l'amélioration des prévisions et à la détection d'opportunités d'amélioration des performances.
Qu'est-ce que le profilage des données ?
Le profilage des données désigne la pratique consistant à collecter des statistiques et caractéristiques concernant un jeu de données, telles que son exactitude, son exhaustivité et sa validité. Le profilage des données est l'une des techniques utilisées dans les efforts de validation et de nettoyage des données car il peut aider à détecter les problèmes de qualité des données tels que les redondances, les valeurs manquantes et les incohérences.
Solution SAP
Qu'est-ce que la gestion des données ?
Découvrez comment votre entreprise peut transformer ses données en atout précieux.