Qu'est-ce que la modélisation des données ?
La modélisation des données est le processus de représentation graphique des flux de données. Lors de la création d'une nouvelle structure de base de données ou d'une structure alternative, le concepteur commence par créer un diagramme montrant comment les données entreront et sortiront de la base de données. Ce diagramme de flux sert à définir les caractéristiques des formats de données, des structures et des fonctions de gestion des bases de données afin de prendre en charge efficacement les besoins en flux de données. Une fois la base de données créée et déployée, le modèle de données sert à documenter et à expliquer pourquoi la base de données existe et comment les flux de données ont été conçus.
Le modèle de données qui résulte de ce processus fournit une structure des relations entre les éléments de données au sein d'une base de données, ainsi qu'un guide d'utilisation des données. Les modèles de données sont un élément fondamental du développement et de l'analytique des logiciels. Ils apportent une méthode standardisée pour définir et mettre en forme les contenus de la base de données de manière cohérente dans tous les systèmes, permettant à différentes applications de partager les mêmes données.
Pourquoi la modélisation des données est-elle importante ?
Avec un modèle de données complet et optimisé, on peut créer une base de données logique et simplifiée qui élimine la redondance, réduit les besoins en stockage et permet une extraction efficace. Il dote également tous les systèmes d'une « version unique de la réalité », essentielle pour des opérations efficaces et une conformité vérifiable aux réglementations et exigences réglementaires. La modélisation des données est une étape clé pour deux des fonctions essentielles d'une entreprise digitale.
Projets de développement logiciel (nouveaux ou personnalisations) menés par des informaticiens
Analytique et visualisation, ou Business Intelligence, outil de prise de décision essentiel pour les utilisateurs
Face à l'augmentation des volumes de données et du nombre d'utilisateurs, les entreprises doivent transformer les données brutes en informations exploitables pour les aider dans leur prise de décision. Il n'est donc pas surprenant que la demande d'analytique de données ait augmenté de manière si spectaculaire. Grâce à la visualisation des données et à leur représentation graphique, ces dernières sont encore plus accessibles aux utilisateurs.
Les modèles de données actuels transforment les données brutes en informations utiles qui à leur tour peuvent être transformées en visualisations dynamiques. La modélisation des données prépare les données à l'analyse : nettoyage des données, définition des mesures et des dimensions, et optimisation des données par l'établissement de hiérarchies, la définition d'unités et de devises et l'ajout de formules.
Quels sont les types de modélisation des données ?
Il existe trois grands types de modèles de données : relationnel, dimensionnel et entité-relation (E-R). Il en existe également plusieurs autres moins utilisés, notamment les modèles hiérarchique, réseau, orienté objet et multivaleurs. Le type de modèle définit la structure logique, c'est-à-dire la manière dont les données sont stockées, et donc dont elles sont stockées, organisées et récupérées.
- Relationnel : Bien que plus ancien, le modèle relationnel reste le modèle de base de données le plus courant aujourd'hui. Il stocke les données dans des enregistrements de format fixe et les organise dans des tables avec des lignes et des colonnes. Ce type de modèle de données comprend deux éléments : des mesures et des dimensions. Les mesures sont des valeurs numériques, quantités ou chiffre d'affaires par exemple, et elles sont utilisées dans des calculs mathématiques pour obtenir des sommes ou des moyennes. Les dimensions peuvent être des valeurs textuelles ou numériques. Elles ne sont pas utilisées dans des calculs et comprennent des descriptions ou des emplacements. Les données brutes sont définies comme une mesure ou une dimension. Dans la conception d'une base de données relationnelle, on emploie aussi la terminologie suivante : « relations » (table avec lignes et colonnes), « attributs » (colonnes), « nuplets » (lignes) et « domaine » (ensemble de valeurs autorisées dans une colonne). Il existe d'autres termes et exigences structurelles pour définir une base de données relationnelle, mais ce qui importe ce sont les relations définies au sein de cette structure. Les éléments de données communs (ou clés) relient les tables et les ensembles de données. Les tables peuvent également être liées explicitement, comme les relations parent-enfant, sur une base de un-à-un, un-à-plusieurs, ou plusieurs-à-plusieurs.
- Dimensionnel : Moins rigide et structurée, l'approche dimensionnelle privilégie une structure de données contextuelle davantage liée à l'utilisation professionnelle ou au contexte. Cette structure de base de données est optimisée pour les requêtes en ligne et les outils d'entreposage de données. Les éléments de données critiques, une quantité de transactions par exemple, sont appelés des « faits » et sont accompagnés d'informations de référence appelées des « dimensions », comme l'ID produit, le prix unitaire ou la date de transaction. Une table de faits est une table primaire dans un modèle dimensionnel. La récupération peut être rapide et efficace (regroupement des données pour un type d'activité spécifique), mais l'absence de liens relationnels peut compliquer l'extraction analytique et l'utilisation des données. Étant donné que la structure des données est liée à la fonction spécialisée qui produit et utilise ces données, la combinaison de données créées par des systèmes différents (dans un entrepôt de données, par exemple) peut être problématique.
- Modèle Entité-Riche (E-R) : Un modèle E-R représente une structure de données de gestion sous forme graphique avec des boîtes de diverses formes représentant des activités, fonctions ou « entités » et des lignes représentant des associations, dépendances ou « relations ». Le modèle E-R est ensuite utilisé pour créer une base de données relationnelle où chaque ligne représente une entité et les champs de cette ligne contiennent des attributs. Comme dans toutes les bases de données relationnelles, les éléments de données « clés » sont utilisés pour relier les tables entre elles.
Quels sont les trois niveaux d'abstraction de données ?
Il existe de nombreux types de modèles de données, avec diverses mises en forme possibles. La communauté de traitement des données identifie trois types de modélisation pour représenter les niveaux de pensée au fur et à mesure que les modèles sont développés.
Modèle de données conceptuel
C'est le modèle « général », qui représente la structure et le contenu globaux, mais pas le détail du plan de données. C'est généralement le point de départ d'une modélisation des données, qui permet d'identifier les différents ensembles de données et flux de données dans l'organisation. Le modèle conceptuel est le projet élaboré pour le développement des modèles logiques et physiques ; il constitue une partie importante de la documentation de l'architecture des données.
Modèle de données logique
Le deuxième niveau de détail est le modèle de données logique. Il répond à la définition générale du « modèle de données » en ce sens qu'il décrit le flux de données et le contenu de la base de données. Le modèle logique ajoute un niveau de détail à la structure globale dans le modèle conceptuel, mais ne comprend pas de spécifications pour la base de données elle-même, car le modèle peut être appliqué à divers produits et technologies de base de données. (Remarque : il ne peut pas y avoir de modèle conceptuel si le projet se rapporte à une seule application ou à un autre système limité.)
Modèle de données physique
Le modèle de base de données physique décrit en détail comment le modèle logique sera réalisé. Il doit contenir suffisamment de détails pour permettre aux technologues de créer la structure de base de données réelle dans le matériel et les logiciels afin de prendre en charge les applications qui l'utiliseront. Inutile de préciser que le modèle de données physique est spécifique à un système logiciel de base de données désigné. D'un seul modèle logique, il peut dériver plusieurs modèles physiques, si différents systèmes de base de données sont utilisés.
Processus et techniques de modélisation des données
La modélisation des données est un processus intrinsèquement descendant. Elle débute par le modèle conceptuel pour établir une vision globale, poursuit avec le modèle logique, et termine par la conception détaillée avec le modèle physique.
Construire un modèle conceptuel, c'est avant tout convertir des idées dans un graphique qui ressemble au diagramme de flux d'un programmeur/développeur.
Les outils modernes de modélisation des données vous aident à définir et à créer vos modèles de données logiques et physiques et vos bases de données. Voici quelques techniques et étapes types de modélisation de données :
- Déterminez les entités et créez un diagramme entité-relation (ERD). Une bonne définition des entités est « éléments de données présentant un intérêt pour votre entreprise ». Par exemple, « client » est un type d'entité. « Vente » en est un autre. Sur un ERD, vous indiquez la manière dont ces différentes entités sont reliées entre elles dans votre entreprise et les connexions de haut niveau qui existent entre elles.
- Définissez vos faits, mesures et dimensions.Un fait correspond aux données qui indiquent une occurrence ou une transaction spécifique, comme la vente d'un produit. Les mesures sont des données quantitatives : quantité, chiffre d'affaires, coûts, etc. Les dimensions sont des données qualitatives : descriptions, lieux et dates.
- Créez un lien vers une vue des données avec un outil graphique ou des requêtes SQL. Si vous ne maîtrisez pas SQL, l'outil graphique est la solution la plus intuitive. Vous pouvez glisser et déposer des éléments dans votre modèle et créer vos connexions visuellement. Lorsque vous créez une vue, vous avez la possibilité de combiner des tables et même d'autres vues dans une seule sortie. Lorsque vous sélectionnez une source dans la vue graphique et que vous la faites glisser au-dessus d'une source déjà associée à la sortie, vous avez la possibilité de joindre ou de créer une union de ces tables.
Les solutions d'analytique modernes peuvent également vous aider à sélectionner, filtrer et connecter des sources de données à l'aide d'une fonction de glisser-déposer conviviale. Les experts en données qui font partie du service informatique disposent d'outils avancés, mais les utilisateurs peuvent aussi créer leurs propres présentations en créant visuellement un modèle de données et en organisant des tables, des graphiques, des cartes et d'autres objets, afin de raconter une histoire basée sur des insights de données.
Découvrir SAP Analytics Cloud
Créez un modèle de données pour raconter une histoire à partir des insights de données.
Exemples de modélisation des données
Quel que soit le type d'application – professionnel, divertissement, personnel ou autre –, la modélisation des données est une étape préalable nécessaire à la conception du système et à la définition de l'infrastructure qui permettra d'activer le système. Il peut s'agir de tout type de système transactionnel, de suite d'applications de traitement des données ou de tout autre système qui collecte, crée ou utilise des données.
La modélisation des données est indispensable à l'entreposage de données. En effet, un entrepôt de données est un référentiel des données provenant de plusieurs sources, qui peuvent contenir des données similaires ou associées dans des formats différents. Il faut d'abord mapper les formats et la structure de l'entrepôt pour déterminer comment manipuler chaque ensemble de données entrant pour répondre aux besoins de la conception de l'entrepôt, afin que les données puissent être analysées et explorées. Le modèle de données devient alors un facilitateur important pour les outils analytiques, les systèmes d'information de gestion (tableaux de bord), l'exploration de données et l'intégration à tous les systèmes et applications de données.
Dans les premières étapes de la conception d'un système, la modélisation des données est une condition essentielle dont dépendent toutes les autres étapes pour établir la base sur laquelle reposent tous les programmes, fonctions et outils. Le modèle de données est comme un langage commun qui permet aux systèmes de communiquer à travers leur compréhension et leur acceptation des données décrites dans le modèle. Dans le monde actuel du Big Data, du Machine Learning, de l'intelligence artificielle, de la connectivité cloud, de l'IoT et des systèmes distribués, notamment du calcul en périphérie, c'est extrêmement important.
Évolution de la modélisation des données
Concrètement, la modélisation des données existe depuis le traitement des données, le stockage des données et la programmation informatique, mais le terme n'est utilisé que depuis que les systèmes de gestion de base de données ont commencé à évoluer dans les années 1960. Le fait de planifier et de créer l'architecture d'une nouvelle structure n'est pas nouveau. La modélisation des données est devenue plus structurée et formalisée au fur et à mesure que les données, bases de données et variétés de données augmentaient.
Aujourd'hui, la modélisation des données est tout simplement incontournable, car les technologues sont confrontés à de nouvelles sources de données (capteurs IoT, terminaux de localisation, flux de clics, réseaux sociaux), ainsi qu'à une multitude de données non structurées (texte, audio, vidéo, sortie de capteur brut), dont les volumes et la vitesse dépassent les capacités des systèmes traditionnels. Il y a aujourd'hui une demande constante de nouveaux systèmes, de structures et de techniques de base de données innovantes, et de nouveaux modèles de données pour unifier ce nouvel effort de développement.
Quel est l'avenir de la modélisation des données ?
La connectivité des informations et les vastes quantités de données provenant de nombreuses sources différentes (capteurs, voix, vidéo, e-mail, etc.) étendent le périmètre des projets de modélisation pour les informaticiens. Bien sûr, Internet participe à cette évolution. Le cloud représente une partie importante de la solution, car c'est la seule infrastructure informatique suffisamment grande, évolutive et agile pour répondre aux exigences actuelles et futures dans le monde en expansion de la connectivité.
Les options de conception des bases de données évoluent elles aussi. Il y a dix ans, une base de données était surtout relationnelle, orientée lignes et basée sur la technologie de stockage sur disque traditionnelle. Les données du grand livre ou de la gestion des stocks d'un système ERP type étaient stockées dans des dizaines de tables différentes qu'il fallait mettre à jour et modéliser. Aujourd'hui, les solutions ERP modernes stockent les données actives en mémoire à l'aide d'une conception en colonnes, ce qui réduit considérablement les tables, et augmente la vitesse et l'efficacité.
Pour les professionnels des directions métier, les nouveaux outils en libre-service disponibles aujourd'hui continueront de s'améliorer, tandis que de nouveaux outils feront de la modélisation et de la visualisation des données des processus encore plus faciles et plus collaboratifs.
Résumé
Un modèle de données bien conçu et complet est essentiel pour développer une base de données véritablement fonctionnelle, utile, sécurisée et précise. Commencez par le modèle conceptuel pour présenter tous les composants et fonctions du modèle de données. Ensuite, affinez ces plans dans un modèle de données logique qui décrit les flux de données et définit de manière plus précise quelles données sont nécessaires et comment elles seront acquises, traitées, stockées et distribuées. Du modèle de données logique découle le modèle physique. Ce dernier est spécifique à un produit de base de données et sert de document de conception détaillé pour la création de la base de données et du logiciel d'application.
Une bonne modélisation des données et une conception des bases de données efficace sont essentielles au développement de systèmes d'application et de bases de données fonctionnels, fiables et sécurisés, compatibles avec les entrepôts de données et les outils analytiques, et qui facilitent l'échange de données avec les partenaires et entre les divers ensembles d'applications. Des modèles de données bien pensés garantissent l'intégrité des données, et donnent donc encore plus de valeur et de fiabilité aux données de votre entreprise.
Explorer les outils modernes de modélisation des données
Relier les données au contexte métier pour permettre aux utilisateurs professionnels de gagner en insights.
Autres ressources de cette série
Lettre d'information SAP Insights
S'abonner
Obtenez des insights clés en vous abonnant à notre lettre d'information.