Hvad er Big Data?

Big Data er det hav af oplysninger, vi svømmer i hver dag – enorme zetabytes af data, der flyder fra vores computere, mobile enheder og maskinsensorer.

Definition af big data i detaljer

Big Data er det hav af oplysninger, vi svømmer i hver dag – enorme zettabytes af data, der flyder fra vores computere, mobile enheder og maskinsensorer. Disse data bruges af organisationer til at styre beslutninger, forbedre processer og politikker og skabe kundeorienterede produkter, tjenester og oplevelser. Big Data er defineret som "stor" ikke kun på grund af sin volumen, men også på grund af variationen og kompleksiteten af sin natur. Typisk overstiger det kapaciteten i traditionelle databaser til at fange, administrere og behandle det. Og big data kan komme fra hvor som helst eller noget på jorden, som vi er i stand til at overvåge digitalt. Vejrsatellitter, IoT-enheder (Internet of Things), trafikkameraer, tendenser på sociale medier – disse er blot nogle få af de datakilder, der udvindes og analyseres for at gøre virksomheder mere modstandsdygtige og konkurrencedygtige.

Vigtigheden af Big Data analytics

Den sande værdi af Big Data måles ud fra, i hvilken grad du er i stand til at analysere og forstå det. Kunstig intelligens (AI), maskinindlæring og moderne databaseteknologier gør det muligt for Big Data-visualisering og -analyse at levere handlingsrettet indsigt – i realtid. Big Data analytics hjælper virksomheder med at få deres data til at fungere – til at realisere nye muligheder og opbygge forretningsmodeller. Som Geoffrey Moore, forfatter og ledelsesanalytiker, rammende sagde: "Uden Big Data-analyser er virksomheder blinde og døve og vandrer ud på nettet som hjorte på en freeway."

Udvikling af big data

Så ufatteligt som det ser ud i dag, tog Apollo Guidance Computer det første rumskib til månen med mindre end 80 kilobyte hukommelse. Siden da er computerteknologien vokset med eksponentiel hastighed – og datagenerering sammen med den. Faktisk er verdens teknologiske kapacitet til at lagre data fordoblet omkring hvert tredje år siden 1980'erne. For lidt over 50 år siden, da Apollo 11 løftede af, kunne mængden af digitale data genereret i hele verden have passeret på den gennemsnitlige laptop. I 2020 anslår Statista, at 64.2ZB af data blev oprettet eller replikeret, og "Mængden af digitale data skabt i løbet af de næste fem år vil være større end det dobbelte af den mængde data, der er skabt siden fremkomsten af digital lagring."

64.2

 zettabyte

af digitale data oprettet i 2020

2

x

mængden af data vil blive oprettet i løbet af de næste 5 år

EFTERHÅNDEN som software og teknologi bliver mere og mere avanceret, er de mindre levedygtige ikke-digitale systemer til sammenligning. Data, der genereres og indsamles digitalt, kræver mere avancerede datastyringssystemer til at håndtere dem. Derudover har den eksponentielle vækst af sociale medieplatforme, smartphone-teknologier og digitalt forbundne IoT-enheder bidraget til at skabe den nuværende Big Data-æra.

Typer af big data: Hvad er strukturerede og ustrukturerede data?

Datasæt kategoriseres typisk i tre typer baseret på dens struktur, og hvor ligetil (eller ej) det er at indeksere.

De tre typer big data

  1. Strukturerede data: Denne type data er den enkleste til at organisere og søge. Det kan omfatte ting som økonomiske data, maskinlogfiler og demografiske detaljer. Et Excel-regneark med dets layout af foruddefinerede kolonner og rækker er en god måde at skabe strukturerede data på. Dens komponenter er let kategoriseret, så databasedesignere og administratorer kan definere enkle algoritmer til søgning og analyse. Selv når strukturerede data eksisterer i en enorm mængde, kvalificerer den ikke nødvendigvis som Big Data, fordi strukturerede data alene er relativt enkle at administrere og derfor ikke opfylder de definerende kriterier for Big Data. Traditionelt har databaserne brugt et programmeringssprog kaldet Struktureret forespørgselssprog (SQL) for at kunne styre strukturerede data. SQL blev udviklet af IBM i 1970'erne for at give udviklere mulighed for at opbygge og administrere relationelle (regnearksstil) databaser, der var begyndt at tage ud på det tidspunkt.  
  2. Ustrukturerede data: Denne kategori af data kan omfatte ting som indlæg på sociale medier, lydfiler, billeder og åbne kundekommentarer. Denne type data kan ikke let registreres i standardrelationelle databaser med rækkekolonner. Traditionelt skulle virksomheder, der ønskede at søge, administrere eller analysere store mængder ustrukturerede data, bruge besværlige manuelle processer. Der var aldrig nogen tvivl om den potentielle værdi af at analysere og forstå sådanne data, men omkostningerne ved at gøre det var ofte for overdrevet til at gøre det umagen værd. I betragtning af den tid, det tog, var resultaterne ofte forældede, før de endda blev leveret. I stedet for regneark eller relationelle databaser gemmes ustrukturerede data normalt i data lakes, data warehouses og NoSQL-databaser.
  3. Semistrukturerede data: Som det lyder, er semistrukturerede data en hybrid af strukturerede og ustrukturerede data. E-mails er et godt eksempel, da de inkluderer ustrukturerede data i meddelelsens brødtekst samt flere organisatoriske egenskaber som afsender, modtager, emne og dato. Enheder, der bruger geotagging, tidsstempler eller semantiske tags, kan også levere strukturerede data sammen med ustruktureret indhold. Et uidentificeret smartphone-billede kan for eksempel stadig fortælle dig, at det er en selfie, og den tid og sted, hvor det blev taget. En moderne database, der kører AI-teknologi, kan ikke kun øjeblikkeligt identificere forskellige typer data, det kan også generere algoritmer i realtid for effektivt at administrere og analysere de forskellige datasæt, der er involveret. 

Kilder til big data

Udvalget af datagenererende ting vokser med en fænomenal hastighed – fra dronesatellitter til toastere. Men med henblik på kategorisering opdeles datakilder generelt i tre typer:

 

Social Media-data

Som det er lyde, er sociale data genereret af sociale medier kommentarer, indlæg, billeder og i stigende grad video. Og med den voksende globale ubiquity af 4G og 5G cellulære netværk, anslås det, at antallet af mennesker i verden, der regelmæssigt ser videoindhold på deres smartphones, vil stige til 2,72 milliarder i 2023. Selv om tendenserne inden for sociale medier og brugen heraf har tendens til at ændre sig hurtigt og uforudsigeligt, er det, der ikke ændrer sig, dens stadige vækst som en generator af digitale data.

 

Maskindata

IoT-enheder og -maskiner er udstyret med sensorer og har mulighed for at sende og modtage digitale data. IoT-sensorer hjælper virksomheder med at indsamle og behandle maskindata fra enheder, køretøjer og udstyr i hele virksomheden. Globalt er antallet af datagenererende ting hastigt stigende – fra vejr- og trafiksensorer til sikkerhedsovervågning. IDC anslår, at der i 2025 vil være over 40 milliarder IoT-enheder på jorden, hvilket genererer næsten halvdelen af verdens samlede digitale data.

 

Bevægelsesdata

Dette er nogle af verdens hurtigst bevægelige og voksende data. For eksempel er en stor international detailhandler kendt for at behandle over en million kundetransaktioner hver time. Og når du tilføjer alle verdens indkøbs- og banktransaktioner, får du et billede af den svimlende mængde data, der genereres. Desuden består transaktionsdata i stigende grad af semistrukturerede data, herunder ting som billeder og kommentarer, hvilket gør det endnu mere komplekst at administrere og behandle.

De fem V’er, der definerer Big Data

Bare fordi et datasæt er stort, er det ikke nødvendigvis Big Data. For at kvalificere sig som sådan skal data have mindst følgende fem egenskaber:

De fem karakteristika ved Big Data, kaldet 5V’s

  1. Volumen: Selvom volumen på ingen måde er den eneste komponent, der gør Big Data til "stor", er det helt sikkert en primær funktion. For fuldt ud at administrere og udnytte Big Data kræves avancerede algoritmer og AI-drevne analyser. Men før noget af det kan ske, skal der være en sikker og pålidelig måde at lagre, organisere og hente de mange terabytes af data, der er i besiddelse af store virksomheder.
  2. Hastighed: Tidligere måtte eventuelle data, der blev genereret, senere indtastes i et traditionelt databasesystem – ofte manuelt – før det kunne analyseres eller hentes. I dag gør Big Data-teknologien det muligt for databaser at behandle, analysere og konfigurere data, mens de genereres – nogle gange inden for millisekunder. For virksomheder betyder det, at data i realtid kan bruges til at registrere økonomiske muligheder, reagere på kundernes behov, modvirke svindel og adressere enhver anden aktivitet, hvor hastighed er kritisk.
  3. Variation: Datasæt, der udelukkende består af strukturerede data, er ikke nødvendigvis Big Data, uanset hvor voluminøse de er. Big Data består typisk af kombinationer af strukturerede, ustrukturerede og semistrukturerede data. Traditionelle databaser og datastyringsløsninger mangler fleksibilitet og muligheder for at styre de komplekse, forskelligartede datasæt, der udgør Big Data.
  4. Pålidelighed: Mens moderne databaseteknologi gør det muligt for virksomheder at samle og give mening om svimlende mængder og typer af Big Data, er den kun værdifuld, hvis den er præcis, relevant og rettidig. For traditionelle databaser, der kun var befolket med strukturerede data, var syntaktiske fejl og stavefejl de sædvanlige syndere, når det drejede sig om datanøjagtighed. Med ustrukturerede data er der et helt nyt sæt af sandhedsudfordringer. Problemer med menneskelig skævhed, social støj og dataoprindelse kan alle have indflydelse på kvaliteten af data.
  5. Værdi: Uden spørgsmål, de resultater, der kommer fra Big Data analyse er ofte fascinerende og uventet. Men for virksomheder skal Big Data Analytics levere indsigt, der kan hjælpe virksomheder med at blive mere konkurrencedygtige og modstandsdygtige – og bedre servicere deres kunder. Moderne Big Data-teknologier åbner op for kapacitet til at indsamle og hente data, der kan give målbare fordele for både bundlinjer og operationel robusthed.

Fordele ved Big Data

Moderne Big Data Management-løsninger gør det muligt for virksomheder at omdanne rådata til relevant indsigt – med hidtil uset hastighed og nøjagtighed.

  • Produkt- og serviceudvikling: Big Data analytics gør det muligt for produktudviklere at analysere ustrukturerede data, såsom kundeanmeldelser og kulturelle tendenser, og reagere hurtigt.

  • Prædiktiv vedligeholdelse: I en international undersøgelse fandt McKinsey, at analysen af Big Data fra IoT-aktiverede maskiner reducerede omkostningerne til vedligeholdelse af udstyr med op til 40 %.

  • Customer Experience: I en undersøgelse fra 2020 af globale virksomhedsledere fastslog Gartner, at "virksomheder i vækst indsamler mere aktivt kundeoplevelsesdata end virksomheder, der ikke er vækstvirksomheder." Analyse af denne Big Data giver virksomheder mulighed for at forbedre og personliggøre deres kunders oplevelse med deres brand. Ud over Big Data tager CX-teams i stigende grad hensyn til "tykke data". Disse kvalitative indsigter i kundernes observationer, følelser og reaktioner styrker Big Data og giver virksomhederne en mere omfattende forståelse af deres kunder.

  • Modstandsdygtighed og risikostyring: COVID-19-pandemien var en kraftig opvågnen for mange virksomhedsledere, da de indså, hvor sårbare deres aktiviteter var over for forstyrrelser. Big Data-indsigt kan hjælpe virksomheder med at forudse risici og forberede sig på det uventede.

  • Omkostningsbesparelser og større effektivitet: Når virksomheder anvender avancerede Big Data-analyser på tværs af alle processer i deres organisation, kan de ikke kun se ineffektivitet, men også implementere hurtige og effektive løsninger.

  • Forbedret konkurrenceevne: Indsigten fra Big Data kan hjælpe virksomheder med at spare penge, behage kunderne, lave bedre produkter og innovere forretningsaktiviteter.

AI og big data

Big Data management er afhængig af systemer med evnen til at behandle og meningsfuldt analysere store mængder af forskellige og komplekse oplysninger. I den forbindelse har Big Data og AI et noget gensidigt forhold. Big Data ville ikke have en masse praktisk brug uden AI til at organisere og analysere det. Og AI afhænger af bredden af de datasæt, der er indeholdt i Big Data, for at levere analyser, der er tilstrækkeligt robuste til at kunne handles. Som Forrester Research-analytiker Brandon Purcell udtrykker det: "Data er livsnerven for AI. Et AI-system skal lære af data for at kunne opfylde sin funktion."

&Quot;Data er ai'ens livsnerve. Et AI-system skal lære af data for at kunne opfylde sin funktion.&tilbud;

 

Brandon Purcell, analytiker, Forrester Research

Ud over Big Data bruger organisationer i stigende grad "små data" til at træne deres AI og maskinindlæringsalgoritmer. Små datasæt – såsom marketingundersøgelser, regneark, e-mails, mødenoter og endda individuelle indlæg på sociale medier – overses ofte, men kan indeholde værdifuld information. I sidste ende, jo mere materiale algoritmerne skal lære af, jo bedre output vil være.

Maskinindlæring og big data

Maskinindlæringsalgoritmer definerer de indgående data og identificerer mønstre i dem. Disse analyser leveres for at hjælpe med at informere forretningsbeslutninger og automatisere processer. Maskinindlæring trives på Big Data, fordi jo mere robuste datasæt, der analyseres, desto større er muligheden for, at systemet lærer og løbende udvikler og tilpasser sine processer.

Big Data-teknologier

Big Data-arkitektur

 

Som med arkitektur inden for bygningskonstruktion giver Big Data-arkitekturen en plan for den grundlæggende struktur for, hvordan virksomheder vil styre og analysere deres data. Big Data-arkitekturen kortlægger de processer, der er nødvendige for at håndtere Big Data på sin rejse på tværs af fire grundlæggende ”lag”, fra datakilder til datalagring, videre til Big Data-analyse og endelig gennem forbrugslaget, hvor de analyserede resultater præsenteres som business intelligence.

 

Big Data-analyser

 

Denne proces giver mulighed for meningsfuld datavisualisering ved hjælp af datamodellering og algoritmer, der er specifikke for big data-kendetegn. I en dybdegående undersøgelse og undersøgelse fra MIT Sloan School of Management blev over 2.000 virksomhedsledere spurgt om deres virksomheds erfaringer med Big Data analyse. Ikke overraskende opnåede dem, der var engagerede og støttede udviklingen af deres Big Data Management-strategier, de mest målbart gavnlige forretningsresultater.

 

Big Data og Apache Hadoop

 

Billede 10 dimer i en enkelt stor kasse blandet i med 100 nickels. Derefter billede 10 mindre kasser, side om side, hver med 10 nickels og kun en dime. I hvilket scenarie bliver det lettere at spotte dimeterne? Hadoop arbejder dybest set på dette princip. Det er en open source-ramme til styring af distribueret big data-behandling på tværs af et netværk af mange tilsluttede computere. Så i stedet for at bruge en stor computer til at gemme og behandle alle data, hadoop klynger flere computere ind i et næsten uendeligt skalerbart netværk og analyserer dataene parallelt. Denne proces bruger typisk en programmeringsmodel kaldet MapReduce, som koordinerer Big Data-behandling ved at rangere de distribuerede computere.

 

Data lakes, data warehouses og NoSQL

 

Traditionelle SQL-databaser i regnearksstil bruges til lagring af strukturerede data. Ustrukturerede og semistrukturerede Big Data kræver unikke lagrings- og behandlingsparadigmer, da det ikke egner sig til at blive indekseret og kategoriseret. Datalagre, datalagre og NoSQL-databaser er alle datalagre, der administrerer utraditionelle datasæt. En datasø er en stor pulje af rådata, som endnu ikke er behandlet. Et datawarehouse er et repository for data, der allerede er blevet behandlet til et specifikt formål. NoSQL-databaser giver et fleksibelt skema, der kan ændres, så det passer til arten af de data, der skal behandles. Hvert af disse systemer har sine styrker og svagheder, og mange virksomheder bruger en kombination af disse forskellige datalagre, så de passer bedst muligt til deres behov.

 

In-memory-databaser

 

Traditionelle diskbaserede databaser blev udviklet med henblik på SQL og relationelle databaseteknologier. Selvom de kan håndtere store mængder strukturerede data, er de simpelthen ikke designet til at gemme og behandle ustrukturerede data bedst muligt. Med in-memory databaser foregår behandling og analyse udelukkende i RAM, i modsætning til at skulle hente data fra et diskbaseret system. In-memory databaser er også bygget på distribuerede arkitekturer. Det betyder, at de kan opnå langt større hastigheder ved at udnytte parallel behandling i modsætning til enkeltnoder, diskbaserede databasemodeller.

Sådan fungerer Big Data

Big Data fungerer, når dens analyse giver relevant og handlingsrettet indsigt, der målbart forbedrer virksomheden. Som forberedelse til big data-transformation bør virksomheder sikre, at deres systemer og processer er tilstrækkeligt klar til at indsamle, lagre og analysere Big Data.

De tre vigtigste trin i brugen af Big Data

  1. Indsaml big data. En stor del af big data består af massive sæt af ustrukturerede data, der flyder ind fra forskellige og inkonsekvente kilder. Traditionelle diskbaserede databaser og dataintegrationsmekanismer er simpelthen ikke på højde med opgaven med at håndtere dette. Big Data Management kræver anvendelse af in-memory database løsninger og softwareløsninger, der er specifikke for Big Data indsamling.
  2. Gem big data. Ved selve navnet er Big Data voluminøs. Mange virksomheder har on-premise-lagringsløsninger til deres eksisterende data og håber at kunne spare ved at omdirigere disse datalagre for at opfylde deres behov for behandling af big data. Big Data fungerer dog bedst, når det er uhæmmet af størrelse og hukommelsesbegrænsninger. Virksomheder, der undlader at inkorporere cloud-lagringsløsninger i deres Big Data-modeller fra begyndelsen, fortryder ofte dette et par måneder på vejen.
  3. Analyser big data. Uden anvendelse af AI og machine learning teknologier til Big Data analyse, er det simpelthen ikke muligt at realisere sit fulde potentiale. En af de fem V’er af Big Data er “hastighed”. For at Big Data-indsigt kan handle og være værdifuld, skal de komme hurtigt. Analyseprocesser skal være selvoptimerende og i stand til at lære af erfaring regelmæssigt – et resultat, der kun kan opnås med AI-funktionalitet og moderne databaseteknologier.

Big Data-applikationer


Den indsigt og dybe læring, som Big Data giver, kan være til gavn for stort set enhver virksomhed eller branche. Men store organisationer med komplekse operationelle ansvarsområder er ofte i stand til at gøre den mest meningsfulde brug af Big Data.

  • Finans I Journal of Big Data påpeger en undersøgelse fra 2020, at Big Data "spiller en vigtig rolle i at ændre sektoren for finansielle tjenesteydelser, især inden for handel og investeringer, skattereform, afsløring og undersøgelse af svig, risikoanalyse og automatisering." Big Data har også bidraget til at transformere den finansielle branche ved at analysere kundedata og feedback for at få den værdifulde indsigt, der er nødvendig for at forbedre kundetilfredsheden og -oplevelsen. Transaktionsdatasæt er nogle af de hurtigst bevægelige og største i verden. Den stigende anvendelse af avancerede Big Data Management-løsninger vil hjælpe banker og finansielle institutioner med at beskytte disse data og bruge dem på måder, der gavner og beskytter både kunden og virksomheden.

  • Sundhedsvæsen Big Data-analyse gør det muligt for sundhedspersonale at gøre mere nøjagtige og evidensbaserede diagnoser. Derudover hjælper Big Data hospitalsadministratorer med at se tendenser, styre risici og minimere unødvendige udgifter – hvilket giver de højest mulige budgetter til områder inden for patientpleje og forskning. Midt i pandemien kæmper forskere verden over mod bedre måder at behandle og håndtere COVID-19 på – og Big Data spiller en enorm rolle i denne proces. En artikel fra juli 2020 i The Scientist beskriver, hvordan medicinske teams var i stand til at samarbejde og analysere Big Data for at hjælpe med at bekæmpe coronavirus: "Vi kan ændre den måde, hvorpå klinisk videnskab gøres, ved at udnytte værktøjer og ressourcer fra Big Data og data science på måder, der ikke har været mulige."

  • Transport og logistik Amazon Effect er et begreb, der beskriver, hvordan Amazon har sat bjælken for næste dags leveringsforventninger til, hvor kunderne nu kræver den slags forsendelseshastighed for alt, hvad de bestiller online. Entrepreneur magazine påpeger, at som et direkte resultat af Amazon Effect, vil "den sidste kilometer" logistikkapløbet vokse mere konkurrencedygtig." Logistikvirksomheder bruger i stigende grad Big Data-analyser til at optimere ruteplanlægning, lastkonsolidering og brændstofeffektivitetsforanstaltninger.

  • Uddannelse Under pandemien har uddannelsesinstitutioner i hele verden måttet genopfinde deres læseplaner og undervisningsmetoder for at støtte fjernundervisning. En stor udfordring for denne proces har været at finde pålidelige måder at analysere og vurdere elevernes præstationer og den samlede effektivitet af online undervisningsmetoder. En artikel fra 2020 om big data-indvirkningen på uddannelse og online læring gør en observation om lærere: "Big data får dem til at føle sig meget mere trygge ved at personliggøre uddannelse, udvikle blandet læring, transformere vurderingssystemer og fremme livslang læring."

  • Energi og forsyningsindustrien Ifølge USA. Bureau of Labor Statistics, forsyningsselskaber bruger over US $ 1,4 milliarder på måleraflæsere og er typisk afhængige af analoge målere og sjældne manuelle aflæsninger. Intelligente måleraflæsere leverer digitale data mange gange om dagen, og med fordelen ved Big Data-analyse kan denne intel oplyse mere effektivt energiforbrug og mere præcise priser og prognoser. Når markarbejdere frigøres fra måleraflæsning, kan dataopsamling og analyse desuden hjælpe med hurtigere at omallokere dem til de steder, hvor der er mest presserende behov for reparationer og opgraderinger.

Ofte stillede spørgsmål om big data

Big Data består af alle potentielt forretningsrelevante data – både strukturerede og ustrukturerede – fra en række forskellige kilder. Når den er analyseret, bruges den til at give dybere indsigt og mere præcise oplysninger om alle driftsområder i en virksomhed og dens marked.

Big Data-teknologi gælder for alle de værktøjer, software og teknikker, der bruges til at behandle og analysere Big Data – herunder (men ikke begrænset til) datamining, datalagring, datadeling og datavisualisering.

Apache Hadoop er en open source, distribueret behandling softwareløsning. Det bruges til at fremskynde og lette Big Data management ved at forbinde flere computere og give dem mulighed for at behandle Big Data parallelt.

Apache Spark er en open source, distribueret behandling softwareløsning. Det bruges til at fremskynde og lette Big Data management ved at forbinde flere computere og give dem mulighed for at behandle Big Data parallelt. Dens forgænger Hadoop er meget mere almindeligt anvendt, men Spark er ved at vinde popularitet på grund af sin brug af machine learning og andre teknologier, som øger sin hastighed og effektivitet.  

En datasø er et lager, hvor store mængder rå, ustrukturerede data kan gemmes og hentes. Data lakes er nødvendige, fordi meget af Big Data er ustruktureret og ikke kan gemmes i en traditionel række-kolonne relationel database.

Mørke data er alle de data, som virksomheder indsamler som led i deres almindelige forretningsaktiviteter (såsom overvågningsoptagelser og logfiler på websteder). Den gemmes til konformitetsformål, men anvendes typisk aldrig. Disse store datasæt koster mere at gemme end den værdi, de giver.

Datastof er integrationen af Big Data-arkitektur og -teknologier på tværs af et helt forretningsøkosystem. Dens formål er at forbinde Big Data fra alle kilder og af alle typer, med alle data management tjenester på tværs af virksomheden.

placeholder

Udforsk SAP's løsninger til datastyring

Administrer dit forskelligartede datamandskab, og saml dine data med henblik på forretningsindsigt.

placeholder

Ideer, du ikke finder andre steder

Tilmeld dig en dosis business intelligence leveret direkte til din indbakke.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel