Hva er Big Data?

Big Data er havet av informasjon vi svømmer i hver dag - store zetabyte av data som flyter fra våre datamaskiner, mobile enheter og maskin sensorer.

Big Data-definisjon i detalj

Big Data er havet av informasjon vi svømmer i hver dag – store zettabyte av data som flyter fra våre datamaskiner, mobile enheter og maskinsensorer. Disse dataene brukes av organisasjoner til å skape beslutninger, forbedre prosesser og policyer og opprette kundesentrerte produkter, tjenester og opplevelser. Big Data er definert som "stor" ikke bare på grunn av volumet, men også på grunn av variasjonen og kompleksiteten i sin natur. Vanligvis overskrider det kapasiteten til tradisjonelle databaser til å fange opp, administrere og behandle den. Og big data kan komme fra hvor som helst eller noe på jorden som vi er i stand til å overvåke digitalt. Værsatellitter, IoT-enheter (Internett of Things), trafikkameraer, trender i sosiale medier – dette er bare noen få av datakildene som utvinnes og analyseres for å gjøre bedrifter mer robuste og konkurransedyktige.

Viktigheten av Big Data-analyse

Den sanne verdien av Big Data måles etter i hvilken grad du er i stand til å analysere og forstå den. Kunstig intelligens (AI), maskinlæring og moderne databaseteknologier gjør det mulig å visualisere og analysere big data for å levere nyttig innsikt – i sanntid. Big Data-analyse hjelper bedrifter med å sette dataene sine i arbeid – for å realisere nye muligheter og bygge forretningsmodeller. Som Geoffrey Moore, forfatter og administrasjonsanalytiker, uttalte han: «Uten Big Data-analyser er selskaper blinde og døve, og vandrer ut på nettet som hjort på en motorvei.»

Utvikling av big data

Så utenkelig som det ser ut i dag, apollo-veiledningsdatamaskinen tok det første romskipet til månen med mindre enn 80 kilobyte minne. Siden den gang har datateknologien vokst med eksponentiell hastighet – og datagenerering sammen med den. Faktisk har verdens teknologiske kapasitet til å lagre data doblet seg omtrent hvert tredje år siden 1980-tallet. For litt over 50 år siden da Apollo 11 løftet av, kunne mengden av digitale data som genereres i hele verden ha passet på den gjennomsnittlige bærbare datamaskinen. I 2020 estimerer Statista 64.2ZB av data som ble opprettet eller replikert og "Mengden av digitale data skapt i løpet av de neste fem årene vil være større enn det dobbelte av mengden data som er opprettet siden begynnelsen av digital lagring."

64.2

 zettabyte

av digitale data opprettet i 2020

2

x

datavolumet vil bli opprettet i løpet av de neste fem årene

Etter hvert som programvare og teknologi blir mer og mer avansert, er de mindre levedyktige ikke-digitale systemene til sammenligning. Data generert og samlet digitalt krever mer avanserte dataadministrasjonssystemer for å håndtere det. I tillegg har den eksponentielle veksten av sosiale medieplattformer, smarttelefonteknologier og digitalt tilkoblede IoT-enheter bidratt til å skape den nåværende Big Data-epoken.

Typer big data: Hva er strukturerte og ustrukturerte data?

Datasett kategoriseres vanligvis i tre typer basert på strukturen og hvor enkelt (eller ikke) det er å indeksere.

De tre typene big data

  1. Strukturerte data: Denne typen data er den enkleste å organisere og søke. Det kan inkludere ting som finansdata, maskinlogger og demografiske detaljer. Et Excel-regneark med oppsett av forhåndsdefinerte kolonner og rader er en god måte å vise strukturerte data på. Komponentene er lett kategorisert, slik at databasedesignere og administratorer kan definere enkle algoritmer for søk og analyse. Selv når strukturerte data eksisterer i enormt volum, kvalifiserer det ikke nødvendigvis som Big Data fordi strukturerte data alene er relativt enkle å administrere og derfor ikke oppfyller de definerende kriteriene for big data. Tradisjonelt har databaser brukt et programmeringsspråk kalt Strukturert spørringsspråk (SQL) for å administrere strukturerte data. SQL ble utviklet av IBM på 1970-tallet for å tillate utviklere å bygge og administrere relasjonelle (regnearkstil) databaser som begynte å ta av på den tiden.  
  2. Ustrukturerte data: Denne kategorien data kan inkludere ting som innlegg på sosiale medier, lydfiler, bilder og åpne kundekommentarer. Denne typen data kan ikke enkelt registreres i standard relasjonsdatabaser for radkolonner. Tradisjonelt måtte firmaer som ønsket å søke, administrere eller analysere store mengder ustrukturerte data, bruke arbeidskrevende manuelle prosesser. Det var aldri noe spørsmål om den potensielle verdien av å analysere og forstå slike data, men kostnadene ved å gjøre det var ofte for ublu til å gjøre det verdt. Med tanke på tiden det tok, var resultatene ofte foreldet før de til og med ble levert. I stedet for regneark eller relasjonsdatabaser, blir ustrukturerte data vanligvis lagret i datasjøer, datavarehus og NoSQL-databaser.
  3. Semi-strukturerte data: Som det høres ut, er semi-strukturerte data en hybrid av strukturerte og ustrukturerte data. E-poster er et godt eksempel siden de inneholder ustrukturerte data i meldingsteksten, i tillegg til flere organisasjonsegenskaper som avsender, mottaker, emne og dato. Enheter som bruker geomerking, tidsstempler eller semantiske tagger, kan også levere strukturerte data sammen med ustrukturert innhold. Et uidentifisert smarttelefonbilde, for eksempel, kan fortsatt fortelle deg at det er en selfie, og tid og sted hvor det ble tatt. En moderne database som kjører AI-teknologi kan ikke bare umiddelbart identifisere ulike typer data, den kan også generere algoritmer i sanntid for effektivt å administrere og analysere de ulike datasettene som er involvert. 

Kilder for store datamengder

Utvalget av datagenererende ting vokser med en fenomenal hastighet – fra drone satellitter til toasters. Men når det gjelder kategorisering, er datakildene vanligvis delt inn i tre typer:

 

Sosiale data

Som det høres ut, genereres sosiale data av sosiale medier kommentarer, innlegg, bilder og, i økende grad, video. Og med den voksende globale allestedsnærheten av 4G og 5G mobilnettverk, er det anslått at antall mennesker i verden som regelmessig ser videoinnhold på sine smarttelefoner vil stige til 2,72 milliarder innen 2023. Selv om trender i sosiale medier og dets bruk har en tendens til å endre seg raskt og uforutsigbart, er det som ikke endrer seg dens stadige vekst som en generator for digitale data.

 

Maskindata

IoT-enheter og maskiner er utstyrt med sensorer og har evnen til å sende og motta digitale data. IoT-sensorer hjelper bedrifter med å samle inn og behandle maskindata fra enheter, kjøretøy og utstyr på tvers av virksomheten. Globalt vokser antallet datagenererende ting raskt – fra vær- og trafikksensorer til sikkerhetsovervåkning. IDC anslår at innen 2025 vil det være over 40 milliarder IoT-enheter på jorden, noe som genererer nesten halvparten av verdens totale digitale data.

 

Transaksjonsdata

Dette er noen av verdens raskest bevegelige og voksende data. En stor internasjonal detaljist er for eksempel kjent for å behandle over en million kundetransaksjoner hver time. Og når du legger til alle verdens innkjøps- og banktransaksjoner, får du et bilde av det svimlende volumet av data som genereres. Videre består transaksjonsdata i økende grad av semi-strukturerte data, inkludert ting som bilder og kommentarer, noe som gjør dem mer komplekse å administrere og behandle.

De fem v’ene som definerer store datamengder

Bare fordi et datasett er stort, er det ikke nødvendigvis Big Data. For å kvalifisere til dette må dataene ha minst følgende fem kjennetegn:

De fem egenskapene til Big Data, kalt 5V-er

  1. Volum: Mens volumet er på ingen måte den eneste komponenten som gjør Big Data "stor", er det absolutt en primær funksjon. For å fullt ut administrere og bruke Big Data, er det nødvendig med avanserte algoritmer og AI-drevne analyser. Men før noe av det kan skje, må det være en sikker og pålitelig måte å lagre, organisere og hente de mange terabyte av data som holdes av store selskaper.
  2. Hastighet: Tidligere måtte alle data som ble generert, senere legges inn i et tradisjonelt databasesystem – ofte manuelt – før det kunne analyseres eller hentes. I dag tillater Big Data-teknologi at databaser behandler, analyserer og konfigurerer data mens de genereres – noen ganger i løpet av millisekunder. For bedrifter betyr det at sanntidsdata kan brukes til å fange opp økonomiske muligheter, svare på kundenes behov, hindre svindel og håndtere enhver annen aktivitet der hastigheten er kritisk.
  3. Variasjon: Datasett som bare består av strukturerte data er ikke nødvendigvis Big Data, uansett hvor voluminøse de er. Big Data består vanligvis av kombinasjoner av strukturerte, ustrukturerte og halvstrukturerte data. Tradisjonelle databaser og løsninger for databehandling mangler fleksibiliteten og omfanget for å administrere de komplekse, ulike datasettene som utgjør Big Data.
  4. Veracity: Selv om moderne databaseteknologi gjør det mulig for bedrifter å samle og gi mening om svimlende mengder og typer big data, er det bare verdifullt hvis det er nøyaktig, relevant og rettidig. For tradisjonelle databaser som bare var befolket med strukturerte data, var syntaktiske feil og skrivefeil de vanlige skyldige da det kom til datanøyaktighet. Med ustrukturerte data er det et helt nytt sett av sannhetsutfordringer. Menneskelig skjevhet, sosial støy og data provenance problemer kan alle ha en innvirkning på kvaliteten på data.
  5. Verdi: Uten spørsmål, resultatene som kommer fra Big Data analyse er ofte fascinerende og uventet. Men for bedrifter må Big Data-analyse levere innsikt som kan hjelpe bedrifter med å bli mer konkurransedyktige og robuste – og bedre betjene kundene sine. Moderne Big Data-teknologier åpner opp kapasiteten for å samle inn og hente inn data som kan gi målbare fordeler til både bunnlinjer og operasjonell elastisitet.

Fordeler med store datamengder

Moderne big data-administrasjonsløsninger gjør det mulig for bedrifter å gjøre rådata om til relevant innsikt – med enestående hastighet og nøyaktighet.

  • Produkt- og tjenesteutvikling: Big Data-analyse gjør det mulig for produktutviklere å analysere ustrukturerte data, for eksempel kundeanmeldelser og kulturelle trender, og svare raskt.

  • Prediktivt vedlikehold: I en internasjonal undersøkelse fant McKinsey ut at analysen av Big Data fra IoT-aktiverte maskiner reduserte vedlikeholdskostnadene for utstyr med opptil 40 %.

  • Kundeopplevelse: I en undersøkelse fra 2020 av globale bedriftsledere fastslo Gartner at «bedrifter i vekst samler mer aktivt inn kundeerfaringsdata enn selskaper som ikke er i vekst». Ved å analysere disse store dataene kan bedrifter forbedre og tilpasse kundenes opplevelse med merkevaren. I tillegg til Big Data, tar CX-team stadig mer hensyn til "tykke data". Disse kvalitative innsiktene til kundenes observasjoner, følelser og reaksjoner forbedrer Big Data og gir bedrifter en mer omfattende forståelse av kundene sine.

  • Motstandsdyktighet og risikostyring: COVID-19-pandemien var en skarp oppvåkning for mange bedriftsledere da de innså hvor sårbare operasjonene deres var for forstyrrelser. Big Data-innsikt kan hjelpe bedrifter med å forutse risiko og forberede seg på det uventede.

  • Kostnadsbesparelser og større effektivitet: Når bedrifter bruker avansert big data-analyse på tvers av alle prosesser i organisasjonen, kan de ikke bare oppdage ineffektivitet, men å implementere raske og effektive løsninger.

  • Forbedret konkurranseevne: Innsiktene hentet fra Big Data kan hjelpe bedrifter med å spare penger, behage kunder, lage bedre produkter og innovere forretningsdrift.

AI og Big Data

Big Data management er avhengig av systemer med makt til å behandle og meningsfullt analysere store mengder uforenlig og kompleks informasjon. I denne forbindelse har Big Data og AI et noe gjensidig forhold. Big Data ville ikke ha mye praktisk bruk uten AI for å organisere og analysere den. Og AI avhenger av bredden på datasettene i Big Data for å levere analyser som er tilstrekkelig robuste til å kunne brukes. Som Forrester Research analytiker Brandon Purcell sier det, “Data er livblodet til AI. Et AI-system må lære av data for å kunne oppfylle sin funksjon.»

&Quot;Data er AIs livblod. Et AI-system må lære av data for å kunne oppfylle funksjonen."

 

Brandon Purcell, analytiker, Forrester Research

I tillegg til Big Data bruker organisasjoner i økende grad «små data» til å trene ai og maskinlæringsalgoritmer. Små datasett – for eksempel markedsføringsundersøkelser, regneark, e-post, møtenotater og til og med individuelle innlegg på sosiale medier – blir ofte oversett, men kan inneholde verdifull informasjon. Til syvende og sist, jo mer materiale algoritmene må lære av, jo bedre blir resultatet.

Maskinlæring og store datamengder

Maskinlæringsalgoritmer definerer innkommende data og identifiserer mønstre i dem. Disse innsiktene leveres for å bidra til å informere forretningsbeslutninger og automatisere prosesser. Maskinlæring trives på Big Data fordi jo mer robuste datasettene som analyseres, jo større er muligheten for at systemet lærer og utvikler seg kontinuerlig og tilpasser prosessene.

Big Data-teknologier

Big Data-arkitektur

 

Som med arkitektur i byggekonstruksjon, gir Big Data-arkitektur en blåkopi av grunnstrukturen i hvordan bedrifter vil administrere og analysere dataene sine. Big Data-arkitekturen kartlegger prosessene som er nødvendige for å administrere big data på sin reise over fire grunnleggende «lag», fra datakilder, til datalagring, deretter videre til Big Data-analyse, og til slutt gjennom forbrukslaget der de analyserte resultatene presenteres som business intelligence.

 

Big data-analyse

 

Denne prosessen muliggjør meningsfull datavisualisering ved hjelp av datamodellering og algoritmer som er spesifikke for big data-kjennetegn. I en grundig studie og undersøkelse fra MIT Sloan School of Management ble over 2000 bedriftsledere spurt om selskapets erfaring med Big Data analyse. Ikke overraskende, de som var engasjert og støttende for å utvikle sine Big Data management strategier oppnådde de mest målbart gunstige forretningsresultater.

 

Big Data og Apache Hadoop

 

Bilde 10 dimes i en enkelt stor boks blandet inn med 100 nickels. Deretter bilde 10 mindre bokser, side ved side, hver med 10 nickels og bare ett dime. I hvilket scenario vil det være lettere å oppdage dimes? Hadoop arbeider i utgangspunktet på dette prinsippet. Det er en åpen kildekode rammeverk for å administrere distribuert Big Data behandling over et nettverk av mange tilkoblede datamaskiner. I stedet for å bruke en stor datamaskin til å lagre og behandle alle dataene, klynger Hadoop flere datamaskiner inn i et nesten uendelig skalerbart nettverk og analyserer dataene parallelt. Denne prosessen bruker typisk en programmeringsmodell kalt MapReduce, som koordinerer Big Data-behandling ved å konvertere de distribuerte datamaskinene.

 

Datasjøer, datalagre og NoSQL

 

Tradisjonelle sql spreadaret-stil databaser brukes til å lagre strukturerte data. Ustrukturerte og semi-strukturerte Big Data krever unike lagrings- og behandlingsparadigmer, da de ikke gir seg selv mulighet til å bli indeksert og kategorisert. Datasjøer, datalagre og NoSQL-databaser er alle datarepositorier som administrerer ikke-tradisjonelle datasett. En datasjø er et stort utvalg rådata som ennå ikke er behandlet. Et datavarehus er et repository for data som allerede er behandlet for et bestemt formål. NoSQL-databaser gir et fleksibelt skjema som kan endres for å passe til arten av dataene som skal behandles. Hvert av disse systemene har sine styrker og svakheter, og mange bedrifter bruker en kombinasjon av disse forskjellige datarepositoriene for å passe best til deres behov.

 

In-memory-databaser

 

Tradisjonelle diskbaserte databaser ble utviklet med SQL og relasjonsdatabaseteknologier i tankene. Selv om de kan håndtere store mengder strukturerte data, er de rett og slett ikke utformet for best å lagre og behandle ustrukturerte data. Med in-memory-databaser finner prosessering og analyse sted fullstendig i RAM, i motsetning til å måtte hente dataene fra et diskbasert system. In-memory-databaser er også bygget på distribuerte arkitekturer. Dette betyr at de kan oppnå langt større hastigheter ved å benytte parallell behandling, i motsetning til enkeltnoder, diskbaserte databasemodeller.

Slik fungerer store data

Big Data fungerer når analysen gir relevant og gjennomførbar innsikt som målbart forbedrer virksomheten. Som forberedelse til Big Data-transformasjon bør bedrifter sørge for at systemene og prosessene deres er tilstrekkelig klare til å samle inn, lagre og analysere big data.

De tre hovedtrinnene som er involvert i å bruke Big Data

  1. Samle inn store datamengder. Store deler av Big Data består av massive sett med ustrukturerte data, flom inn fra ulike og inkonsekvente kilder. Tradisjonelle diskbaserte databaser og dataintegrasjonsmekanismer er ganske enkelt ikke lik oppgaven med å håndtere dette. Big Data-administrasjon krever innføring av in-memory-databaseløsninger og programvareløsninger som er spesifikke for big data-innsamling.
  2. Store datamengder. Ved sitt navn er Big Data voluminøs. Mange bedrifter har lokale lagringsløsninger for sine eksisterende data og håper å økonomisere ved å bruke disse depotene på nytt for å møte deres behov for behandling av store data. Big Data fungerer imidlertid best når det er ubegrenset av størrelses- og minnebegrensninger. Bedrifter som ikke klarer å innlemme skylagringsløsninger i sine Big Data-modeller fra begynnelsen, angrer ofte på dette noen måneder nedover veien.
  3. Analyser store datamengder. Uten bruk av AI og maskinlæringsteknologier til Big Data analyse, er det rett og slett ikke mulig å realisere sitt fulle potensial. En av de fem v-ene av Big Data er «hastighet». For at Big Data-innsikt skal være handlekraftige og verdifulle, må de komme raskt. Analyseprosesser må være selvoptimaliserende og i stand til å lære av erfaring med jevne mellomrom – et resultat som bare kan oppnås med AI-funksjonalitet og moderne databaseteknologier.

Big Data-applikasjoner


Innsiktene og den dype læringen som Big Data gir, kan gi fordeler for nesten enhver bedrift eller bransje. Imidlertid er store organisasjoner med komplekse operative rester ofte i stand til å gjøre den mest meningsfulle bruken av Big Data.

  • Finans I Journal of Big Data påpeker en studie fra 2020 at Big Data «spiller en viktig rolle i å endre sektoren for finansielle tjenester, spesielt innen handel og investering, skattereform, svindeldeteksjon og -etterforskning, risikoanalyse og automatisering.» Big Data har også bidratt til å transformere finansbransjen ved å analysere kundedata og tilbakemeldinger for å få verdifull innsikt som trengs for å forbedre kundetilfredshet og -opplevelse. Transaksjonsdatasett er noen av de raskest bevegelige og største i verden. Den økende innføringen av avanserte big data-administrasjonsløsninger vil hjelpe banker og finansinstitusjoner med å beskytte disse dataene og bruke dem på måter som gagner og beskytter både kunden og virksomheten.

  • Helsevesen Big Data analyse gjør det mulig for helsepersonell å gjøre mer nøyaktige og bevisbaserte diagnoser. I tillegg hjelper Big Data sykehusadministratorene med å oppdage trender, håndtere risikoer og minimere unødvendige utgifter – noe som gir høyest mulige budsjetter til områder for pasientbehandling og forskning. Midt i pandemien kjører forskere over hele verden mot bedre måter å behandle og administrere COVID-19 på – og Big Data spiller en enorm rolle i denne prosessen. En artikkel fra juli 2020 i The Scientist beskriver hvordan medisinske team var i stand til å samarbeide og analysere big data for å bidra til å bekjempe coronavirus: «Vi kan forvandle måten klinisk vitenskap gjøres på, og utnytte verktøyene og ressursene til Big Data og datavitenskap på måter som ikke har vært mulig.»

  • Transport og logistikk Amazon Effect er et begrep som beskriver hvordan Amazon har satt baren for neste dag levering forventninger til hvor kundene nå krever den typen frakt hastighet for alt de bestiller på nettet. Entreprenørmagasinet påpeker at som et direkte resultat av Amazon Effect, "den "siste mil" logistikkløpet vil vokse mer konkurransedyktig." Logistikkselskaper er i økende grad avhengige av big data-analyser for å optimalisere ruteplanlegging, belastningskonsolidering og drivstoffeffektivitetstiltak.

  • Utdanning Under pandemien har utdanningsinstitusjoner rundt om i verden måttet gjenskape sine læreplaner og undervisningsmetoder for å støtte fjernlæring. En stor utfordring til denne prosessen har vært å finne pålitelige måter å analysere og vurdere elevenes ytelse og den generelle effektiviteten av online undervisningsmetoder. En 2020-artikkel om virkningen av Big Data på utdanning og nettbasert læring gjør en observasjon om lærere: «Store data gjør at de føler seg mye mer trygge på å personalisere utdanning, utvikle blandet læring, transformere vurderingssystemer og fremme livslang læring.»

  • Energi og forsyningsanlegg I henhold til US patent nr. Bureau of Labor Statistics, forsyningsselskaper bruker over usd 1,4 milliarder på målerlesere og er vanligvis avhengige av analoge målere og sjeldne manuelle avlesninger. Smarte målerlesere leverer digitale data mange ganger om dagen, og med fordelen av Big Data-analyse kan denne intel informere mer effektiv energibruk og mer nøyaktig priser og prognoser. Når feltarbeidere er frigjort fra måleravlesning, kan datainnsamling og analyse dessuten bidra til raskere omfordeling av dem til steder der reparasjoner og oppgraderinger er mest nødvendig.

Ofte stilte spørsmål om store datamengder

Big Data består av alle potensielt forretningsrelevante data – både strukturerte og ustrukturerte – fra en rekke ulike kilder. Når det er analysert, brukes det til å gi dypere innsikt og mer nøyaktig informasjon om alle operasjonelle områder av en bedrift og sitt marked.

Big Data-teknologi gjelder for alle verktøy, programvare og teknikker som brukes til å behandle og analysere Big Data – inkludert (men ikke begrenset til) datautvinning, datalagring, datadeling og datavisualisering.

Apache Hadoop er en åpen kildekode, distribuert prosesseringsprogramvareløsning. Den brukes til å fremskynde og forenkle Big Data management ved å koble til flere datamaskiner og tillate dem å behandle Big Data parallelt.

Apache Spark er en åpen kildekode, distribuert prosesseringsprogramvareløsning. Den brukes til å fremskynde og forenkle Big Data management ved å koble til flere datamaskiner og tillate dem å behandle Big Data parallelt. Dens forgjenger Hadoop er mye mer vanlig brukt, men Spark blir stadig mer populær på grunn av sin bruk av maskinlæring og andre teknologier, som øker hastigheten og effektiviteten.  

En datasjø er et repository der store mengder rå, ustrukturerte data kan lagres og hentes. Datasjøer er nødvendige fordi mye av Big Data er ustrukturert og ikke kan lagres i en tradisjonell rad-kolonne relasjonsdatabase.

Mørke data er alle dataene som bedrifter samler inn som en del av deres vanlige forretningsdrift (for eksempel overvåkningsopptak og loggfiler for nettsteder). Den lagres for konformitetsformål, men brukes vanligvis aldri. Disse store datasettene koster mer å lagre enn verdien de gir.

Datastoff er integrasjonen av Big Data-arkitektur og -teknologier på tvers av et helt forretningsøkosystem. Formålet er å koble Big Data fra alle kilder og av alle typer, med alle dataadministrasjonstjenester på tvers av virksomheten.

placeholder

Utforsk SAPs dataadministrasjonsløsninger

Administrer det mangfoldige datamiljøet og samle dataene dine for forretningsinnsikt.

placeholder

Ideer du ikke finner noe annet sted

Registrer deg for en dose Business Intelligence levert rett til innboksen din.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel