Accès rapide au contenu
Qu'est-ce que le Big Data

Qu'est-ce que le Big Data ?

Le Big Data est l'océan d'informations dans lequel nous nous baignons tous les jours : plusieurs zettaoctets de données provenant de nos ordinateurs, de nos terminaux mobiles et de divers capteurs. Ces données sont utilisées par les entreprises pour prendre des décisions, améliorer les processus et les politiques, et créer des produits, des services et des expériences centrés sur le client. Le Big Data est « Big » non seulement en raison de son volume, mais aussi de sa variété et de sa complexité. Il dépasse en général la capacité des bases de données traditionnelles à capturer, à gérer et à traiter les données. Et le Big Data peut provenir de n'importe où, ou de tout ce qui existe sur notre planète et que nous sommes en mesure de contrôler avec des moyens digitaux. Satellites météorologiques, terminaux IoT, caméras de surveillance de la circulation, tendances des réseaux sociaux : voici quelques-unes des sources de données explorées et analysées afin de rendre les entreprises plus résilientes et compétitives.

L'évolution du Big Data

Aussi inconcevable que cela puisse paraître aujourd’hui, l’Apollo Guidance Computer a permis d’envoyer la première navette spatiale sur la lune avec moins de 80 kilo-octets de mémoire. Depuis, la technologie informatique a évolué à une vitesse exponentielle, tout comme la génération de données. En fait, la capacité technologique de stockage des données du monde a doublé tous les trois ans environ depuis les années 1980. La quantité de données numériques générées dans le monde entier il y a 50 ans au moment du décollage d’Apollo 11, tiendrait aujourd’hui sur un ordinateur portable ordinaire. En 2020, l’IDC a estimé que 64,2 Zo de données avaient été créées ou répliquées et que « la quantité de données numériques créées au cours des cinq prochaines années sera deux fois plus grande que la quantité de données créées depuis l’avènement du stockage numérique ».

64.2

zettaoctets de données numériques créées en 2020 - IDC

2

x

le volume de données qui sera créé au cours des cinq prochaines années depuis les débuts du stockage numérique - IDC

À mesure que les logiciels et technologies deviennent de plus en plus sophistiqués, les systèmes non digitaux deviennent de moins en moins fiables. Les données générées et collectées de manière digitale nécessitent des systèmes de gestion des données de plus en plus avancés. En outre, la croissance exponentielle des plateformes de réseaux sociaux, des technologies pour smartphones et des terminaux IoT digitalement connectés a contribué à inaugurer l'ère du Big Data.

Types de Big Data : qu'est-ce que les données structurées et non structurées ?

Les ensembles de données sont généralement classés en trois types en fonction de leur structure et de la simplicité (ou du manque de simplicité) de l'indexation.

Les trois types de Big Data

Les types de Big Data
  1. Données structurées : ce type de données est le plus simple à organiser et à consulter. On y trouve des données financières et démographiques ainsi que des journaux de machine. Une feuille de calcul Excel, avec sa mise en forme en colonnes et lignes prédéfinies, est un bon moyen de visualiser les données structurées. Ses composants sont facilement catégorisés, ce qui permet aux concepteurs et administrateurs de bases de données de définir des algorithmes simples pour la recherche et l'analyse. Même lorsque les données structurées sont très volumineuses, il ne s'agit pas nécessairement de Big Data car les données structurées sont relativement simples à gérer et ne correspondent donc pas aux critères du Big Data. Les bases de données utilisent en général un langage de programmation appelé Structure Query Language (SQL) afin de gérer les données structurées. Le SQL a été développé par IBM dans les années 1970 pour permettre aux développeurs de créer et de gérer des bases de données relationnelles (style feuille de calcul), très populaires à l'époque.  
  2. Données non structurées : dans cette catégorie de données se trouvent les publications sur les réseaux sociaux, les fichiers audio, les images et les commentaires client ouverts. Ce type de données ne peut pas être facilement collecté dans les bases de données relationnelles classiques en lignes et colonnes. Traditionnellement, les entreprises qui voulaient consulter, gérer ou analyser de grands volumes de données non structurées devaient utiliser des processus manuels fastidieux. Il n'a jamais été question de la valeur potentielle de l'analyse et de la compréhension de ces données, mais le coût de cette opération était souvent trop élevé pour être rentable. Compte tenu du temps nécessaire, les résultats étaient souvent obsolètes avant leur obtention. Au lieu de feuilles de calcul ou de bases de données relationnelles, les données non structurées sont généralement stockées dans des lacs de données, des entrepôts de données et des bases de données NoSQL.
  3. Données semi-structurées : comme leur nom l'indique, les données semi-structurées sont un mélange hybride de données structurées et non structurées. Les e-mails sont un bon exemple car ils incluent des données non structurées dans le corps du message, ainsi que d'autres propriétés organisationnelles telles que l'expéditeur, le destinataire, l'objet et la date. Les terminaux qui utilisent les balises de géolocalisation, l'horodatage ou les balises sémantiques peuvent également fournir des données structurées avec du contenu non structuré. Une image non identifiée sur un smartphone, par exemple, est toujours capable d'indiquer qu'il s'agit d'un selfie, ainsi que l'heure et l'endroit où elle a été prise. Une base de données moderne dotée de fonctionnalités d'intelligence artificielle peut non seulement identifier instantanément différents types de données, mais aussi générer des algorithmes en temps réel pour gérer et analyser efficacement les ensembles de données disparates en question. 

Les sources de Big Data

Le nombre d'objets générant des données ne fait que croître, allant des satellites drones aux grille-pains. Toutefois, pour faciliter la catégorisation, les sources de données sont généralement divisées en trois types :

 

Les sources de Big Data

Données sociales

Comme leur nom l'indique, les données sociales sont générées par les réseaux sociaux : commentaires, publications, images et, de plus en plus, vidéos. En outre, compte tenu de l'ubiquité croissante des réseaux 4G et 5G, on estime que le nombre de personnes dans le monde qui regardent régulièrement des contenus vidéo sur leur smartphone atteindra 2,72 milliards d'ici 2023. Bien que les tendances concernant les réseaux sociaux et leur utilisation évoluent rapidement et de manière imprévisible, ce qui ne change pas, c'est leur croissance constante en matière de création de données digitales.

 

Données machine

Les terminaux et machines IoT sont équipés de capteurs et ont la capacité d'envoyer et de recevoir des données digitales. Les capteurs IoT aident les entreprises à collecter et à traiter les données machine provenant de terminaux, de véhicules et d'équipements à l'échelle de l'entreprise. De manière générale, le nombre d'objets générant des données augmente rapidement, des capteurs météorologiques ou de circulation aux caméras de surveillance. Selon IDC, d'ici 2025, il y aura plus de 40 milliards de terminaux IoT sur Terre, générant près de la moitié du total des données digitales au monde.

 

Données transactionnelles

Ces données comptent parmi les données qui transitent et se multiplient le plus rapidement. Par exemple, un grand détaillant international traite plus d'un million de transactions par heure. Et lorsque vous ajoutez les transactions d'achats et bancaires du monde entier, vous obtenez une bonne compréhension du volume colossal de données générées. De plus, les données transactionnelles se composent de plus en plus de données semi-structurées, y compris des images et des commentaires, ce qui les rend d'autant plus complexes à gérer et à traiter.  

Les cinq V du Big Data

Un ensemble de données ne relève pas du Big Data uniquement parce qu'il est volumineux. Pour être qualifiées de Big Data, les données doivent au moins présenter les cinq caractéristiques suivantes :

Les cinq caractéristiques du Big Data, ou les 5 V

Les 5 V du Big Data
  1. Volume : si le volume n'est en aucun cas le seul élément qui rend le Big Data « Big », il fait certainement partie des principaux. Pour gérer et exploiter pleinement le Big Data, des algorithmes avancés et l'analytique pilotée par l'intelligence artificielle sont nécessaires. Mais avant tout cela, il faut un moyen sûr et fiable de stocker, d'organiser et d'extraire les nombreux téraoctets de données à la disposition des grandes entreprises.
  2. Vitesse : auparavant, toutes les données générées devaient ensuite être saisies dans un système de base de données traditionnel (souvent manuellement) avant de pouvoir être analysées ou extraites. Aujourd'hui, la technologie du Big Data permet aux bases de données de traiter, d'analyser et de configurer les données pendant leur génération, parfois en quelques millisecondes. Pour les entreprises, cela signifie que les données en temps réel peuvent être utilisées afin de saisir les opportunités financières, de répondre aux besoins des clients, de contrer les fraudes et de traiter toute autre activité pour laquelle la rapidité est essentielle.
  3. Variété : les ensembles de données contenant uniquement des données structurées ne relèvent pas nécessairement du Big Data, peu importe leur taille. Le Big Data comprend généralement des combinaisons de données structurées, non structurées et semi-structurées. Les bases de données traditionnelles et les solutions de gestion des données ne disposent pas de la flexibilité et du périmètre nécessaires pour gérer les ensembles de données complexes et disparates qui composent le Big Data.
  4. Véracité : bien que les bases de données modernes permettent aux entreprises d'accumuler et d'analyser de nombreux types et quantités de Big Data, elles ne sont utiles que si elles sont précises, pertinentes et opportunes. Pour les bases de données traditionnelles alimentées uniquement avec des données structurées, le manque de précision des données était souvent dû à des erreurs syntaxiques et des fautes de frappe. Les données non structurées présentent toute une série de nouvelles difficultés en matière de véracité. Les préjugés humains, le « bruit social » et les problèmes liés à la provenance des données peuvent avoir un impact sur la qualité des données.
  5. Valeur : sans aucun doute, les résultats de l'analyse du Big Data sont souvent fascinants et inattendus. Mais pour les entreprises, l'analytique du Big Data doit fournir des insights capables d'aider les entreprises à gagner en compétitivité et en résilience, et à mieux servir leurs clients. Les technologies modernes du Big Data offrent la possibilité de collecter et d'extraire des données susceptibles de procurer un avantage mesurable à la fois en matière de résultats et de résilience opérationnelle.

Avantages du Big Data

Les solutions modernes de gestion du Big Data permettent aux entreprises de transformer leurs données brutes en insights pertinents avec une rapidité et une précision sans précédent.

  • Développement de produits et de services : l'analytique du Big Data permet aux développeurs de produits d'analyser les données non structurées, telles que les témoignages clients et les tendances culturelles, et de réagir rapidement.
  • Maintenance prédictive : dans une enquête internationale, McKinsey a constaté que l'analyse du Big Data des machines compatibles avec l'IoT pouvait réduire les coûts de maintenance des équipements jusqu'à 40 %.
  • Expérience client : selon une enquête menée en 2020 auprès de responsables d'entreprises du monde entier, Gartner a constaté que « les entreprises en croissance collectent plus activement les données sur l'expérience client que les entreprises moins performantes ». L'analyse du Big Data permet aux entreprises d'améliorer et de personnaliser l'expérience de leurs clients avec leur marque.
  • Gestion de la résilience et des risques : la pandémie de COVID-19 a été une véritable prise de conscience pour de nombreux dirigeants d'entreprise qui se sont rendu compte à quel point leurs opérations étaient vulnérables face aux disruptions. Les insights fournis par le Big Data peuvent aider les entreprises à anticiper les risques et à se préparer aux imprévus.
  • Économies et efficacité accrue : lorsque les entreprises effectuent une analytique avancée du Big Data pour tous les processus de leur organisation, elles peuvent non seulement détecter les inefficacités, mais aussi déployer des solutions rapides et efficaces.
  • Amélioration de la compétitivité : les insights obtenus grâce au Big Data peuvent aider les entreprises à réaliser des économies, à satisfaire les clients, à concevoir de meilleurs produits et à innover en matière d'opérations métier.

IA et Big Data

La gestion du Big Data dépend de systèmes capables de traiter et d'analyser efficacement de larges volumes d'informations disparates et complexes. À cet égard, le Big Data et l'intelligence artificielle (IA) ont une relation quelque peu réciproque. Le Big Data n'aurait pas grande utilité sans l'IA pour l'organiser et l'analyser. Et l'IA dépend de l'étendue des ensembles de données contenus dans le Big Data afin de réaliser une analytique suffisamment fiable pour être exploitable. Comme l'indique Brandon Purcell, analyste chez Forrester Research : « les données sont au cœur de l'intelligence artificielle. Un système d'IA doit apprendre des données afin de remplir sa fonction ».

Les données sont au cœur de l'intelligence artificielle. Un système d'IA doit apprendre des données afin de remplir sa fonction ».

– Brandon Purcell, analyste, Forrester Research

Machine Learning et Big Data

Les algorithmes de Machine Learning définissent les données entrantes et identifient leurs modèles. Ces insights permettent de prendre des décisions avisées et d'automatiser les processus. Le Machine Learning profite grandement du Big Data, car plus les ensembles de données analysés sont robustes, plus le système a de chances d'apprendre, de faire évoluer et d'adapter ses processus en continu.

Technologies du Big Data

Architecture du Big Data

 

Comme l'architecture lors de la construction d'immeubles, l'architecture du Big Data fournit un modèle pour la structure fondamentale de la gestion et de l'analyse des données par les entreprises. L'architecture du Big Data mappe les processus nécessaires pour gérer le Big Data sur son parcours en quatre « couches » de base, des sources de données au stockage des données, puis à l'analyse du Big Data, et enfin via la couche de consommation dans laquelle les résultats analysés sont présentés sous forme de Business Intelligence.

 

Analytique du Big Data

 

Ce processus permet de visualiser les données de manière pertinente grâce à l'utilisation de la modélisation des données et d'algorithmes spécifiques aux caractéristiques du Big Data. Dans une étude approfondie et une enquête de la MIT Sloan School of Management, plus de 2 000 dirigeants d'entreprise ont été interrogés sur l'expérience de leur entreprise en matière d'analyse du Big Data. Sans surprise, ceux qui étaient engagés et favorables au développement de leurs stratégies de gestion du Big Data ont obtenu les résultats les plus significatifs.

 

Big Data et Apache Hadoop

 

Imaginez une grande boîte contenant 10 pièces de 10 centimes et 100 pièces de 5 centimes. Puis imaginez 10 boîtes plus petites, côte à côte, contenant chacune 10 pièces de 5 centimes et une seule pièce de 10 centimes. Dans quel scénario sera-t-il plus facile de repérer les pièces de 10 centimes ? Ce principe constitue la base d'Hadoop. Il s'agit d'une structure open source permettant de gérer le traitement du Big Data distribué sur un réseau constitué de nombreux ordinateurs connectés. Ainsi, au lieu d'utiliser un grand ordinateur pour stocker et traiter toutes les données, Hadoop regroupe plusieurs ordinateurs dans un réseau évoluant presque à l'infini et analyse les données en parallèle. Ce processus utilise généralement un modèle de programmation appelé MapReduce, qui coordonne le traitement du Big Data en rassemblant les ordinateurs distribués.

 

Lacs de données, entrepôts de données et NoSQL

 

Les bases de données traditionnelles de type feuille de calcul SQL sont utilisées pour stocker des données structurées. Le Big Data non structuré et semi-structuré nécessite des modèles de stockage et de traitement uniques, car il ne peut pas être indexé et catégorisé. Les lacs de données, les entrepôts de données et les bases de données NoSQL sont tous des référentiels de données capables de gérer les ensembles de données non traditionnels. Un lac de données est un vaste réservoir de données brutes n'ayant pas encore été traitées. Un entrepôt de données est un référentiel de données ayant déjà été traitées dans un but spécifique. Les bases de données NoSQL fournissent un schéma flexible qui peut être modifié en fonction de la nature des données à traiter. Chacun de ces systèmes a ses avantages et ses inconvénients, et de nombreuses entreprises utilisent une combinaison de ces différents référentiels de données pour répondre au mieux à leurs besoins.

 

Bases de données In-Memory

 

Les bases de données classiques sur disque ont été conçues pour SQL et les bases de données relationnelles. Bien qu'elles puissent gérer d'importants volumes de données structurées, elles ne sont tout simplement pas adaptées au stockage et au traitement des données non structurées. Avec les bases de données In-Memory, le traitement et l'analyse se font entièrement dans la RAM, pour ne pas avoir à extraire les données d'un système sur disque. Les bases de données In-Memory sont également construites sur des architectures distribuées. Cela signifie qu'elles peuvent atteindre des vitesses beaucoup plus élevées à l'aide du traitement parallèle, par rapport aux modèles de base de données à un seul nœud et basés sur disque.

Fonctionnement du Big Data

Le Big Data remplit ses fonctions lorsque son analyse fournit des insights pertinents et actionnables qui améliorent de manière significative les performances de l'entreprise. Pour se préparer à la transition vers le Big Data, les entreprises doivent s'assurer que leurs systèmes et processus sont en mesure de collecter, de stocker et d'analyser le Big Data.

Les trois étapes clés de l'utilisation du Big Data

Fonctionnement du Big Data
  1. Collecter le Big Data. Une grande partie du Big Data se compose d'énormes ensembles de données non structurées, affluant de sources disparates et incohérentes. Les bases de données traditionnelles sur disque et les mécanismes d'intégration des données ne sont tout simplement pas à la hauteur pour gérer tout cela. La gestion du Big Data nécessite l'adoption de solutions de base de données In-Memory et de solutions logicielles spécifiques au Big Data.
  2. Stocker le Big Data. Le Big Data est, comme son nom l'indique, volumineux. De nombreuses entreprises disposent de solutions de stockage sur site pour leurs données existantes et espèrent réaliser des économies en réutilisant ces référentiels pour traiter le Big Data. Toutefois, le Big Data est plus efficace lorsqu'il n'est pas soumis à des contraintes de taille et de mémoire. Les entreprises qui n'intègrent pas dès le départ les solutions de stockage cloud dans leurs modèles de Big Data le regrettent souvent quelques mois plus tard.
  3. Analyser le Big Data. Sans l'utilisation des technologies d'IA et de Machine Learning lors de l'analyse du Big Data, il est tout simplement impossible de pleinement exploiter son potentiel. Un des cinq V du Big Data est la « vitesse ». Pour que les insights du Big Data soient exploitables et intéressantes, elles doivent être obtenues rapidement. Les processus analytique doivent être auto-optimisés et capables de tirer des enseignements de l'expérience de manière régulière, un objectif qui ne peut être atteint qu'avec les fonctionnalités d'intelligence artificielle et les bases de données modernes.

Applications du Big Data


Les insights et le Deep Learning du Big Data peuvent profiter à pratiquement n'importe quel secteur ou entreprise. Cependant, les grandes entreprises aux missions opérationnelles complexes sont souvent en mesure de tirer le meilleur profit du Big Data.

  • Finance
    Dans le Journal of Big Data, une étude de 2020 souligne que le Big Data « joue un rôle important dans l'évolution du secteur des services financiers, en particulier pour le commerce et les investissements, la réforme fiscale, la détection et l'enquête en matière de fraude, l'analyse des risques et l'automatisation ». Le Big Data a également contribué à transformer le secteur financier en analysant les données clients et les commentaires pour obtenir les insights nécessaires afin d'améliorer la satisfaction et l'expérience client. Les ensembles de données transactionnels comptent parmi les plus mobiles et les plus volumineux au monde. L'adoption croissante de solutions avancées de gestion du Big Data permettra aux banques et aux institutions financières de préserver ces données et de les utiliser de façon à en tirer profit et à protéger à la fois le client et l'entreprise.
  • Santé
    L'analyse du Big Data permet aux professionnels de la santé d'établir des diagnostics plus précis et fondés sur des données avérées. De plus, le Big Data aide les directeurs d'hôpitaux à identifier les tendances, à gérer les risques et à limiter les dépenses inutiles, afin de privilégier le maximum de fonds pour les domaines des soins aux patients et de la recherche. Face à la pandémie, les chercheurs du monde entier s'efforcent de traiter et de gérer au mieux la COVID-19 et le Big Data tient un rôle important dans ce processus. Un article publié en juillet 2020 dans The Scientist décrit comment les équipes médicales ont pu collaborer et analyser le Big Data afin de lutter contre le coronavirus : « Nous pourrions transformer la science clinique en exploitant les outils et les ressources du Big Data et de la science des données d'une manière que nous pensions impossible ».
  • Transports et logistique
    L'effet Amazon est un terme définissant la manière dont Amazon a fait de la livraison en un jour la nouvelle norme, les clients exigeant désormais la même vitesse d'expédition pour tout ce qu'ils commandent en ligne. Le magazine Entrepreneur souligne qu'en raison de l'effet Amazon, « la course au dernier kilomètre en matière de logistique ne fera que s'intensifier ». Les entreprises du secteur des services logistiques s'appuient de plus en plus sur l'analytique du Big Data pour optimiser la planification des itinéraires, la consolidation des charges et les mesures d'efficacité énergétique.
  • Enseignement
    Pendant la pandémie, les établissements d'enseignement du monde entier ont dû réinventer leurs programmes d'études et leurs méthodes d'enseignement afin de faciliter l'apprentissage à distance. L'un des principaux défis a été de trouver des moyens fiables d'analyser et d'évaluer les performances des étudiants et l'efficacité globale des méthodes d'enseignement en ligne. Un article publié en 2020 traitant de l'impact du Big Data sur l'éducation et l'apprentissage en ligne fait une observation sur les enseignants : « Le Big Data les rend beaucoup plus confiants en matière de personnalisation de l'éducation, de développement de la formation mixte, de transformation des systèmes d'évaluation et de promotion de la formation tout au long de la vie ».
  • Eau et énergie
    Selon le U.S. Bureau of Labor Statistics, les entreprises du secteur de l'eau et de l'énergie dépensent plus de 1,4 milliard de dollars pour les dispositifs de relève de compteur et s'appuient généralement sur des compteurs analogiques et des lectures manuelles peu fréquentes. Les dispositifs de relève de compteur intelligents fournissent des données digitales plusieurs fois par jour et, grâce à l'analyse du Big Data, ces informations permettent d'accroître l'efficacité de la consommation d'énergie ainsi que la précision des prix et des prévisions. En outre, lorsque les travailleurs sur le terrain n'ont plus à se charger de la relève du compteur, la saisie et l'analyse des données peuvent permettre de les réaffecter plus rapidement là où les réparations et les mises à niveau sont les plus urgentes.

Découvrir nos solutions de gestion des données

Gérez votre paysage de données variées et unissez-les pour obtenir plus d'insights métier.

Plus dans cette série

Questions fréquentes sur le Big Data

Le Big Data se compose de toutes les données potentiellement pertinentes pour l'entreprise, qu'elles soient structurées ou non, et issues de sources diverses. Une fois analysé, il est utilisé afin de fournir des insights plus approfondis et des informations plus précises sur tous les domaines opérationnels d'une entreprise et son marché.   

La technologie du Big Data comprend tous les outils, logiciels et techniques utilisés pour traiter et analyser le Big Data, notamment (mais pas uniquement) l'exploration, le stockage, le partage et la visualisation de données.

Apache Hadoop est un logiciel de traitement distribué et open source. Il est utilisé pour accélérer et faciliter la gestion du Big Data en connectant plusieurs ordinateurs et en leur permettant de traiter le Big Data en parallèle.

Apache Spark est un logiciel de traitement distribué et open source. Il est utilisé pour accélérer et faciliter la gestion du Big Data en connectant plusieurs ordinateurs et en leur permettant de traiter le Big Data en parallèle. Hadoop, son prédécesseur, est plus couramment utilisé, mais Spark gagne en popularité en raison de son utilisation du Machine Learning et d'autres technologies, ce qui le rend plus rapide et efficace.  

Un lac de données est un référentiel dans lequel de grands volumes de données brutes non structurées peuvent être stockés et extraits. Les lacs de données sont indispensables car une grande partie du Big Data n'est pas structurée et ne peut pas être stockée dans une base de données relationnelle traditionnelle en lignes et colonnes. 

Le « Dark Data » désigne toutes les données que les entreprises collectent dans le cadre de leurs opérations métier habituelles (telles que les images de surveillance et les fichiers journaux de site Web). Elles sont sauvegardées à des fins de conformité, mais ne sont généralement jamais utilisées. Les coûts liés au stockage de ces ensembles de données volumineux sont plus élevés que la valeur qu'ils apportent. 

Le Data Fabric est l'intégration de l'architecture et des technologies du Big Data à l'ensemble d'un écosystème d'entreprise. Il a pour objectif de connecter le Big Data de toutes sources et de tous types, à tous les services de gestion des données de l'entreprise.  

Lettre d'information SAP Insights

S'abonner

Obtenez des insights clés en vous abonnant à notre lettre d'information.

Autres ressources

Haut de page