Vad är Big Data?

Big Data är den ocean av information vi simmar i varje dag – stora mängder data som flödar från våra datorer, mobila enheter och maskinsensorer.

Big Data-definition i detalj

Big Data är den ocean av information som vi simmar i varje dag – stora mängder data som flödar från våra datorer, mobila enheter och maskinsensorer. Dessa data används av organisationer för att driva beslut, förbättra processer och policyer och skapa kundcentrerade produkter, tjänster och upplevelser. Big Data definieras som ”stor” inte bara på grund av dess volym, utan också på grund av mångfalden och komplexiteten i dess natur. Vanligtvis överskrider det kapaciteten hos traditionella databaser att fånga, hantera och bearbeta den. Och big data kan komma från var som helst eller vad som helst på jorden som vi kan övervaka digitalt. Vädersatelliter, IoT-enheter (Internet of Things), trafikkameror, trender i sociala medier – dessa är bara några av de datakällor som utvinns och analyseras för att göra företagen mer motståndskraftiga och konkurrenskraftiga.

Vikten av big data-analys

Det verkliga värdet av Big Data mäts genom i vilken grad du kan analysera och förstå det. Artificiell intelligens (AI), maskininlärning och modern databasteknik möjliggör visualisering och analys av stora data för att leverera utförbara insikter – i realtid. Big Data-analys hjälper företag att sätta sina data i arbete – att förverkliga nya möjligheter och bygga affärsmodeller. Som Geoffrey Moore, författare och chefsanalytiker, träffande konstaterade: ”Utan big data-analys är företag blinda och döva och vandrar ut på webben som rådjur på en motorväg.”

Utvecklingen av stordata

Så ofattbart som det verkar idag tog Apollovägledningsdatorn det första rymdskeppet till månen med färre än 80 kilobyte minne. Sedan dess har datatekniken vuxit i exponentiell takt – och datagenerering tillsammans med den. Faktum är att världens tekniska kapacitet att lagra data har fördubblats ungefär vart tredje år sedan 1980-talet. För drygt 50 år sedan när Apollo 11 lyfte av kunde mängden digital data som genereras i hela världen ha passat på den genomsnittliga bärbara datorn. Under 2020 uppskattar Statista att 64.2ZB data skapades eller replikerades och "Mängden digital data som skapas under de kommande fem åren kommer att vara större än dubbelt så mycket som den mängd data som skapats sedan tillkomsten av digital lagring."

64.2

 zettabyte

av digitala data som skapats 2020

2

x

Datamängden kommer att skapas under de kommande fem åren.

I takt med att mjukvara och teknik blir mer och mer avancerade är de mindre livskraftiga icke-digitala systemen som jämförelse. Data som genereras och samlas in digitalt kräver mer avancerade datahanteringssystem för att hantera dem. Dessutom har den exponentiella tillväxten av sociala medier, smarttelefonteknik och digitalt anslutna IoT-enheter bidragit till att skapa den nuvarande Big Data-eran.

Typer av big data: Vad är strukturerade och ostrukturerade data?

Datauppsättningar kategoriseras vanligtvis i tre typer baserat på dess struktur och hur enkelt (eller inte) det är att indexera.

De tre typerna av big data

  1. Strukturerade data: Denna typ av data är den enklaste att organisera och söka. Det kan inkludera saker som finansdata, maskinloggar och demografiska detaljer. Ett Excel-kalkylblad med dess layout av fördefinierade kolumner och rader är ett bra sätt att se strukturerade data. Dess komponenter kategoriseras enkelt, vilket gör det möjligt för databaskonstruktörer och administratörer att definiera enkla algoritmer för sökning och analys. Även när strukturerad data finns i enorm volym, kvalificeras den inte nödvändigtvis som Big Data eftersom strukturerad data på egen hand är relativt enkel att hantera och uppfyller därför inte de definierande kriterierna för Big Data. Traditionellt har databaser använt ett programmeringsspråk som kallas Strukturerat frågespråk (SQL) för att hantera strukturerade data. SQL utvecklades av IBM på 1970-talet för att utvecklare skulle kunna bygga och hantera relationsdatabaser (kalkylbladsstil) som började ta fart vid den tiden.  
  2. Ostrukturerad data: Denna kategori av data kan innehålla saker som inlägg i sociala medier, ljudfiler, bilder och öppna kundkommentarer. Denna typ av data kan inte enkelt registreras i standarddatabaser för relationer mellan radkolumner. Traditionellt var företag som ville söka, hantera eller analysera stora mängder ostrukturerade data tvungna att använda mödosamma manuella processer. Det fanns aldrig någon tvekan om det potentiella värdet av att analysera och förstå sådana data, men kostnaden för att göra det var ofta alltför orimligt för att det skulle löna sig. Med tanke på den tid det tog var resultaten ofta föråldrade innan de ens levererades. Istället för kalkylblad eller relationsdatabaser lagras ostrukturerade data vanligtvis i datasjöar, datalager och NoSQL-databaser.
  3. Semistrukturerad data: Som det låter är semistrukturerade data en hybrid av strukturerade och ostrukturerade data. E-post är ett bra exempel eftersom de inkluderar ostrukturerade data i meddelandetexten, samt fler organisatoriska egenskaper som avsändare, mottagare, ämne och datum. Enheter som använder geotaggning, tidsstämplar eller semantiska taggar kan också leverera strukturerade data tillsammans med ostrukturerat innehåll. En oidentifierad smartphone bild, till exempel, kan fortfarande berätta att det är en selfie, och den tid och plats där det togs. En modern databas som kör AI-teknik kan inte bara omedelbart identifiera olika typer av data, den kan också generera algoritmer i realtid för att effektivt hantera och analysera de olika datamängder som är inblandade. 

Stordatakällor

Utbudet av datagenererande saker växer fenomenalt – från drönarsatelliter till brödrostar. Men för kategoriseringsändamål delas datakällor i allmänhet upp i tre typer:

 

Sociala data

Som ljud genereras sociala data av sociala mediers kommentarer, inlägg, bilder och, i allt högre grad, video. Och med den växande globala spridningen av 4G- och 5G-mobilnät beräknas antalet människor i världen som regelbundet tittar på videoinnehåll på sina smartphones öka till 2,72 miljarder fram till 2023. Även om trender i sociala medier och dess användning tenderar att förändras snabbt och oförutsägbart, är det som inte förändras dess stadiga tillväxt som en generator av digitala data.

 

Maskindata

IoT-enheter och -maskiner är utrustade med sensorer och har möjlighet att skicka och ta emot digitala data. IoT-sensorer hjälper företag att samla in och bearbeta maskindata från enheter, fordon och utrustning över hela verksamheten. Globalt ökar antalet datagenererande saker snabbt – från väder- och trafiksensorer till säkerhetsövervakning. IDC uppskattar att det år 2025 kommer att finnas över 40 miljarder IoT-enheter på jorden, vilket genererar nästan hälften av världens totala digitala data.

 

Transaktionsdata

Detta är några av världens snabbaste rörliga och växande data. Till exempel är en stor internationell återförsäljare känd för att bearbeta över en miljon kundtransaktioner varje timme. Och när du lägger till i alla världens inköps- och banktransaktioner får du en bild av den svindlande datavolymen som genereras. Dessutom består transaktionsdata i allt högre grad av halvstrukturerade data, inklusive saker som bilder och kommentarer, vilket gör det ännu mer komplext att hantera och bearbeta.

De fem V:n som definierar Big Data

Bara för att en datauppsättning är stor är det inte nödvändigtvis Big Data. För att kvalificera sig som sådana måste data ha minst följande fem egenskaper:

De fem egenskaperna hos Big Data, kallade 5V: s

  1. Volym: Även om volym inte på något sätt är den enda komponenten som gör Big Data "stor", är det verkligen en primär funktion. För att fullt ut kunna hantera och utnyttja big data krävs avancerade algoritmer och AI-driven analys. Men innan något av detta kan hända, måste det finnas ett säkert och tillförlitligt sätt att lagra, organisera och hämta de många terabyte av data som innehas av stora företag.
  2. Hastighet: Tidigare var alla data som genererades tvungna att senare föras in i ett traditionellt databassystem – ofta manuellt – innan det kunde analyseras eller hämtas. Idag gör Big Data-tekniken det möjligt för databaser att bearbeta, analysera och konfigurera data medan de genereras – ibland inom millisekunder. För företag innebär det att realtidsdata kan användas för att fånga upp ekonomiska möjligheter, svara på kundernas behov, förhindra bedrägerier och hantera alla andra aktiviteter där snabbhet är avgörande.
  3. Variation: Datauppsättningar som endast består av strukturerade data är inte nödvändigtvis big data, oavsett hur voluminösa de är. Big Data består vanligtvis av kombinationer av strukturerade, ostrukturerade och halvstrukturerade data. Traditionella databaser och datahanteringslösningar saknar flexibilitet och omfattning för att hantera de komplexa, olikartade datamängder som ingår i Big Data.
  4. Veracity: Även om modern databasteknik gör det möjligt för företag att samla och förstå svindlande mängder och typer av Big Data, är det bara värdefullt om det är korrekt, relevant och lägligt. För traditionella databaser som endast fylldes med strukturerade data var syntaktiska fel och felskrivningar de vanliga syndarna när det gällde datans noggrannhet. Med ostrukturerade data finns det en helt ny uppsättning sanningsutmaningar. Mänsklig partiskhet, socialt brus och data proveniens frågor kan alla påverka kvaliteten på data.
  5. Värde: Utan tvekan är de resultat som kommer från big data-analys ofta fascinerande och oväntade. Men för företag måste Big Data Analytics leverera insikter som kan hjälpa företag att bli mer konkurrenskraftiga och motståndskraftiga – och bättre betjäna sina kunder. Modern big data-teknik öppnar upp kapaciteten för att samla in och hämta data som kan ge mätbara fördelar för både resultat och operativ resiliens.

Fördelarna med big data

Moderna big data-hanteringslösningar gör det möjligt för företag att omvandla rådata till relevanta insikter – med oöverträffad snabbhet och noggrannhet.

  • Produkt- och tjänsteutveckling: Med big data-analys kan produktutvecklare analysera ostrukturerade data, till exempel kundrecensioner och kulturella trender, och reagera snabbt.

  • Prediktivt underhåll: I en internationell undersökning fann McKinsey att analysen av big data från IoT-aktiverade maskiner minskade kostnaderna för underhåll av utrustning med upp till 40 %.

  • Kundupplevelse: I en 2020 års undersökning av globala företagsledare fastställde Gartner att ”växande företag samlar mer aktivt in kundupplevelsedata än icke-tillväxtföretag.” Genom att analysera big data kan företag förbättra och anpassa sina kunders upplevelse av sitt varumärke. Förutom Big Data tar CX-teamen i allt större utsträckning hänsyn till ”tjocka data”. Dessa kvalitativa insikter om kundernas observationer, känslor och reaktioner förbättrar Big Data och ger företagen en mer omfattande förståelse för sina kunder.

  • Resiliens och riskhantering: Covid-19-pandemin var ett skarpt uppvaknande för många företagsledare när de insåg precis hur sårbara deras verksamhet var för störningar. Big Data-insikter kan hjälpa företag att förutse risker och förbereda sig för det oväntade.

  • Kostnadsbesparingar och ökad effektivitet: När företag använder avancerad big data-analys i alla processer inom sin organisation kan de inte bara upptäcka ineffektivitet, utan även implementera snabba och effektiva lösningar.

  • Förbättrad konkurrenskraft: Insikterna från Big Data kan hjälpa företag att spara pengar, snälla kunder, göra bättre produkter och förnya affärsverksamheten.

AI och big data

Big Data management är beroende av system med förmågan att bearbeta och på ett meningsfullt sätt analysera stora mängder olika och komplex information. I detta avseende har big data och AI ett något ömsesidigt förhållande. Big Data skulle inte ha mycket praktisk användning utan AI för att organisera och analysera det. Och AI beror på bredden av de dataset som finns i Big Data för att leverera analyser som är tillräckligt robusta för att vara genomförbara. Som Forrester Research analytiker Brandon Purcell uttrycker det, ”Data är livsnerven i AI. Ett AI-system behöver lära av data för att kunna fylla sin funktion.”

"Data är livsnerven för AI. Ett AI-system behöver lära av data för att kunna fylla sin funktion.&offert;

 

Brandon Purcell, analytiker, Forrester Research

Förutom Big Data använder organisationer i allt högre grad ”små data” för att träna sina AI och maskininlärningsalgoritmer. Små datamängder – som marknadsföringsundersökningar, kalkylblad, e-post, mötesanteckningar och även enskilda inlägg på sociala medier – förbises ofta men kan innehålla värdefull information. Ju mer material algoritmerna måste lära sig av, desto bättre blir resultatet.

Maskininlärning och stordata

Maskininlärningsalgoritmer definierar inkommande data och identifierar mönster i dem. Dessa insikter levereras för att hjälpa till att informera om affärsbeslut och automatisera processer. Maskininlärning trivs på Big Data eftersom ju mer robusta datamängder som analyseras, desto större är möjligheten för systemet att lära sig och kontinuerligt utvecklas och anpassa sina processer.

Big data-teknik

Stordataarkitektur

 

I likhet med arkitekturen inom byggnadskonstruktion ger Big Data-arkitekturen en plan för den grundläggande strukturen för hur företag ska hantera och analysera sina data. Big Data-arkitekturen kartlägger de processer som krävs för att hantera big data på sin resa över fyra grundläggande ”lager”, från datakällor, till datalagring, sedan vidare till Big Data-analys, och slutligen genom det förbrukningsskikt där de analyserade resultaten presenteras som business intelligence.

 

Stordataanalys

 

Denna process möjliggör meningsfull datavisualisering genom användning av datamodellering och algoritmer som är specifika för big data-egenskaper. I en fördjupad studie och undersökning från MIT Sloan School of Management tillfrågades över 2000 företagsledare om deras företags erfarenhet av big data-analys. Föga förvånande uppnådde de som var engagerade och stödde utvecklingen av sina strategier för hantering av stordata de mest mätbart fördelaktiga affärsresultaten.

 

Big Data och Apache Hadoop

 

Bild 10 dimes i en enda stor låda blandat med 100 nickels. Sedan bild 10 mindre lådor, sida vid sida, var och en med 10 nickels och bara en dime. I vilket scenario blir det lättare att upptäcka dimer? Hadoop arbetar i grunden med denna princip. Det är ett ramverk med öppen källkod för hantering av distribuerad Big Data-behandling i ett nätverk av många anslutna datorer. Så i stället för att använda en stor dator för att lagra och bearbeta alla data, klustrar Hadoop flera datorer till ett nästan oändligt skalbart nätverk och analyserar data parallellt. Denna process använder vanligtvis en programmeringsmodell som kallas MapReduce, som koordinerar big data-bearbetning genom att ordna de distribuerade datorerna.

 

Datasjöar, datalager och NoSQL

 

Traditionella SQL-kalkylbladsdatabaser används för att lagra strukturerade data. Ostrukturerad och halvstrukturerad Big Data kräver unika lagrings- och bearbetningsparadigmer, eftersom det inte lämpar sig för att indexeras och kategoriseras. Datasjöar, datalager och NoSQL-databaser är alla datalager som hanterar icke-traditionella datamängder. En datasjö är en stor mängd rådata som ännu inte har bearbetats. Ett datalager är ett repository för data som redan har bearbetats för ett visst ändamål. NoSQL-databaser ger ett flexibelt schema som kan modifieras för att passa den typ av data som ska bearbetas. Vart och ett av dessa system har sina styrkor och svagheter och många företag använder en kombination av dessa olika datalager för att bäst passa deras behov.

 

Minnesbaserade databaser

 

Traditionella diskbaserade databaser utvecklades med SQL och relationsdatabasteknik i åtanke. Även om de kan hantera stora volymer av strukturerad data, är de helt enkelt inte utformade för att bäst lagra och bearbeta ostrukturerade data. Med in-memory databaser sker bearbetning och analys helt i RAM, till skillnad från att behöva hämta data från ett diskbaserat system. Minnesbaserade databaser bygger också på distribuerade arkitekturer. Detta innebär att de kan uppnå mycket högre hastigheter genom att använda parallell bearbetning, i motsats till enskilda noder, diskbaserade databasmodeller.

Hur big data fungerar

Big Data fungerar när analysen ger relevanta och genomförbara insikter som mätbart förbättrar verksamheten. Som förberedelse inför big data-transformationen bör företagen se till att deras system och processer är tillräckligt redo att samla in, lagra och analysera big data.

De tre viktigaste stegen för att använda big data

  1. Samla in stora data. En stor del av big data består av massiva uppsättningar av ostrukturerade data, översvämningar från olika och inkonsekventa källor. Traditionella diskbaserade databaser och dataintegreringsmekanismer är helt enkelt inte lika med uppgiften att hantera detta. Hantering av big data kräver att man använder databaslösningar i minnet och programvarulösningar som är specifika för stordatainsamling.
  2. Lagra stora data. Vid sitt namn är Big Data voluminous. Många företag har lokala lagringslösningar för sina befintliga data och hoppas kunna spara genom att använda dessa lagringsplatser för att uppfylla sina behov av big data-behandling. Big Data fungerar dock bäst när det är obegränsat av storlek och minnesbegränsningar. Företag som misslyckas med att införliva molnlagringslösningar i sina Big Data-modeller från början ångrar ofta detta några månader på vägen.
  3. Analysera big data. Utan tillämpning av AI och maskininlärningsteknik på Big Data analys, är det helt enkelt inte möjligt att förverkliga sin fulla potential. En av de fem V:erna av Big Data är ”hastighet”. För att Big Data-insikter ska vara genomförbara och värdefulla måste de komma snabbt. Analysprocesser måste vara självoptimerande och kunna lära av erfarenheter regelbundet – ett resultat som endast kan uppnås med AI-funktionalitet och modern databasteknik.

Stordataapplikationer


De insikter och djup inlärning som big data ger kan vara till nytta för praktiskt taget alla företag eller branscher. Men stora organisationer med komplexa operativa uppdrag kan ofta använda Big Data på ett meningsfullt sätt.

  • Finans I journal of Big Data pekar en studie från 2020 på att Big Data ”spelar en viktig roll för att förändra sektorn för finansiella tjänster, särskilt inom handel och investeringar, skattereform, bedrägeriupptäckt och utredning, riskanalys och automatisering.” Big Data har också bidragit till att transformera finansbranschen genom att analysera kunddata och feedback för att få de värdefulla insikter som behövs för att förbättra kundnöjdheten och kundupplevelsen. Transaktionsdatamängder är några av de snabbast rörliga och största i världen. Den växande användningen av avancerade big data-hanteringslösningar kommer att hjälpa banker och finansinstitut att skydda dessa data och använda dem på ett sätt som gynnar och skyddar både kunden och verksamheten.

  • Hälso- och sjukvård Big Data-analys gör det möjligt för hälso- och sjukvårdspersonal att göra mer exakta och evidensbaserade diagnoser. Dessutom hjälper Big Data sjukhusadministratörer att upptäcka trender, hantera risker och minimera onödiga utgifter – vilket driver högsta möjliga budget till områden inom patientvård och forskning. Mitt i pandemin tävlar forskare runt om i världen om bättre sätt att behandla och hantera COVID-19 – och big data spelar en enorm roll i denna process. I en artikel i The Scholst från juli 2020 beskrivs hur medicinska team kunde samarbeta och analysera big data för att bekämpa coronaviruset: ”Vi kan förändra det sätt på vilket klinisk vetenskap görs, och utnyttja verktyg och resurser från Big Data och datavetenskap på ett sätt som inte har varit möjligt.”

  • Transport och logistik Amazon Effect är en term som beskriver hur Amazon har satt ribban för nästa dags leveransförväntningar till där kunderna nu kräver den typen av frakthastighet för allt de beställer på nätet. Företagartidningen påpekar att som ett direkt resultat av Amazon-effekten kommer ”sista milens” logistiktävling att växa sig mer konkurrenskraftig.” Logistikföretag förlitar sig i allt högre grad på big data-analyser för att optimera ruttplanering, lastkonsolidering och bränsleeffektivitetsåtgärder.

  • Utbildning Under pandemin har läroanstalter runt om i världen tvingats uppfinna sina kursplaner och undervisningsmetoder för att stödja fjärrundervisning. En stor utmaning för denna process har varit att hitta tillförlitliga sätt att analysera och bedöma elevers resultat och den övergripande effektiviteten av online undervisningsmetoder. En artikel 2020 om big data på utbildning och online-lärande gör en observation om lärare: ”Big data får dem att känna sig mycket mer trygga i att personalisera utbildning, utveckla blandat lärande, omvandla bedömningssystem och främja livslångt lärande.”

  • Energi och service Enligt USA. Byrån för arbetskraftsstatistik, energibolag spenderar över 1,4 miljarder DOLLAR på mätarläsare och förlitar sig vanligtvis på analoga mätare och sällsynta manuella avläsningar. Smarta mätarläsare levererar digitala data många gånger om dagen och med hjälp av big data-analys kan denna intel informera om effektivare energianvändning och mer exakt prissättning och prognoser. När fältarbetare frigörs från mätaravläsning kan dessutom dataregistrering och analys hjälpa till att snabbare omallokera dem till de områden där reparationer och uppgraderingar behövs som mest.

Vanliga frågor om big data

Big Data består av alla potentiellt affärsrelevanta data – både strukturerade och ostrukturerade – från en mängd olika källor. När den har analyserats används den för att ge djupare insikt och mer korrekt information om alla verksamhetsområden i ett företag och dess marknad.

Big Data-teknik gäller för alla verktyg, programvara och tekniker som används för att bearbeta och analysera big data – inklusive (men inte begränsat till) datautvinning, datalagring, datadelning och datavisualisering.

Apache Hadoop är en öppen källkod, distribuerad programvara för bearbetning. Den används för att snabba upp och underlätta big data-hantering genom att ansluta flera datorer och låta dem bearbeta Big Data parallellt.

Apache Spark är en öppen källkod, distribuerad programvara för bearbetning. Den används för att snabba upp och underlätta big data-hantering genom att ansluta flera datorer och låta dem bearbeta Big Data parallellt. Dess föregångare Hadoop används mycket oftare, men Spark blir allt populärare på grund av sin användning av maskininlärning och andra tekniker, vilket ökar dess hastighet och effektivitet.  

En datasjö är ett repository där stora mängder rådata kan lagras och hämtas. Datasjöar är nödvändiga eftersom stora delar av Big Data är ostrukturerade och inte kan lagras i en traditionell relationsdatabas med radkolumner.

Mörka data är alla data som företag samlar in som en del av sin ordinarie verksamhet (såsom övervakningsbilder och webbplatsloggfiler). Den sparas för konformitetsändamål men används normalt aldrig. Dessa stora datauppsättningar kostar mer att lagra än det värde de ger.

Datastruktur är integreringen av big data-arkitektur och -teknik i ett helt affärsekosystem. Dess syfte är att ansluta Big Data från alla källor och av alla typer, med alla datahanteringstjänster i hela verksamheten.

placeholder

Utforska SAP:s datahanteringslösningar

Hantera din mångsidiga datamiljö och förena dina data för affärsinsikter.

placeholder

Idéer som du inte hittar någon annanstans

Registrera dig för en dos business intelligence direkt till din inkorg.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel