Vad är en datasjö?

En datasjö är ett centralt datarepository som hjälper till att hantera problem med data-silo. 

Datasjööversikt

I grund och botten är en datasjö ett informationsarkiv. Datasjöar förväxlas ofta med datalager, men båda betjänar olika affärsbehov och har olika arkitekturer. Molndatasjöar är en viktig komponent i en modern datahanteringsstrategi eftersom spridningen av sociala data, Internet of Things (IoT) maskindata och transaktionsdata fortsätter att accelerera. Förmågan att lagra, transformera och analysera vilken datatyp som helst banar väg för nya affärsmöjligheter och digital transformation – och här i ligger en datasjös roll.

90

%

av finansinstitut tror att Big Data-initiativ avgör framtida framgång

64.2

zettabyte av digitala data skapades 2020

17.6

B $USD

Uppskattat värde på datasjömarknaden till 2026.

Datasjödefinition

En datasjö är ett centralt datarepository som hjälper till att hantera problem med data-silo. Viktigt är att en datasjö lagrar stora mängder rådata i sitt ursprungliga – eller ursprungliga – format. Formatet skulle kunna vara strukturerat, ostrukturerat eller halvstrukturerat. Datasjöar, särskilt de i molnet, är billiga, lättskalbara och används ofta med tillämpad maskininlärningsanalys.

Datasjö kontra datalager

I motsats till en datasjö tillhandahåller ett datalager datahanteringsfunktioner och lagrar bearbetade och filtrerade data som redan har bearbetats för fördefinierade affärsfrågor eller användningsfall.

Diagram över ett datalager jämfört med en datasjö.

Datalager och sjöar kompletterar ofta varandra. När till exempel rådata som lagras i en datasjö behövs för att besvara en affärsfråga kan den extraheras, rensas, transformeras och användas i ett datalager för vidare analys.

 

Ett ”dataslakehouse” är ett nytt och utvecklande koncept, som lägger till datahanteringsfunktioner ovanpå en traditionell datasjö. I grund och botten är det kombinationen av en datasjö och ett datalager.

 

Utöver den typ av data och de skillnader i processen som anges ovan finns här några detaljer som jämför en datasjö med en datalagerlösning.

Datasjö
Datalager
Data
Valfri datatyp från valfri källa
Relationsbaserat eller strukturerat
Schema
Schema-on-read (tidpunkt för analys)
Schema-på-skrivning (fördefinierat)
Lagerkostnader
Lägre kostnad – petabyteskala
Högre kostnad – terabyteskala
Datakvalitet
Kurerade eller icke-kuraterade data
Kurerade data
Användare
Datavetare, datautvecklare (till exempel med Python) och affärsanalytiker (använder SQL för kuraterade data)
Affärsanalytiker som använder SQL
Analys
Maskininlärning, prediktiv analys, dataupptäckt/profilering
Batchrapportering, BI, visualiseringar

I slutändan kommer datamängd, databasprestanda och lagringsprissättning att spela en viktig roll i valet av rätt lagringslösning.

Nyckelelement i en datasjölösning

  • Dataförflyttning: Datasjöar tillåter import av alla datatyper från flera källor i dess nativa format. Detta gör att företag kan skala till datastorlek efter behov utan att behöva definiera datastrukturer, schema och transformationer, vilket kan leda till besparingar av indirekta kostnader.

  • Lagra och katalogera data på ett säkert sätt: Data lake lagrar strukturerade, halvstrukturerade och ostrukturerade data från en mängd olika källor som affärsdata från CRM- eller ERP-programvara, IoT-enheter, sociala medier eller till och med historiska data från gamla system. Och datasjöar gör att du kan fånga batch- och streamingdata samtidigt som du tillämpar styrning, säkerhet och kontroll. Data kan sökas direkt eller matas in i ett datalager med rätt verktyg.

  • Analys och maskininlärning: Datasjöar ger rollbaserad åtkomst till informationen för att köra analys och maskininlärningsanalys utan att data behöver flyttas till en separat analysdatabas. Datasjöar gör det också möjligt att kombinera historiska data med realtidsdata för att förfina maskininlärning eller prediktiva analysmodeller för att ge bättre och/eller nya resultat.

Hur datasjöar fungerar

En modern datasjö har tre huvudfunktioner:

  1. En landningszon för dina rådata
  2. En staging-zon där data transformeras med ett analytiskt syfte i åtanke
  3. En datautforskningszon där data används av analyser, applikationer och för att mata in maskininlärningsmodeller

Från datasjön matas informationen till en rad olika källor – till exempel analys eller andra affärsapplikationer, eller till maskininlärningsverktyg för vidare analys.

 

Användningsfall för datasjö

Här är två exempel på ett datasjöanvändningsfall i detaljhandeln.

 

Långsiktiga försäljningsdata lagras i en datasjö tillsammans med ostrukturerade data som webbplatsers klickströmmar, väder, nyheter och mikro-/makroekonomiska data. Att ha dessa data lagrade tillsammans och tillgängliga gör det lättare för en datavetare att kombinera dessa olika informationskällor till en modell som prognostiserar efterfrågan på en viss produkt eller produktserie. Denna information används sedan som indata till affärssystemet för detaljhandel för att driva ökade eller minskade produktionsplaner.

 

Parallellt kan en marknadsföringsexpert komma åt samma datasjö och titta på en sentimentanalys av webbplatsen och sociala medier engagemang med nyheter, makroekonomiska och försäljningshistoriska data för att avgöra vilka produkter att fokusera på och hur man bäst kan maximera försäljning, vinst och/eller adoption.

Typer av datasjöar

Datasjöar kan bo på plats, i molnet, en hybrid av båda, och över flera moln hyperscalers, till exempel Amazon Web Services (AWS), Microsoft Azure eller Google Cloud.

 

Den överlägset mest populära typen av datasjö är en molndatasjö. En molndatasjö tillhandahåller alla vanliga datasjöfunktioner, men i en fullständigt hanterad molntjänst.

  • Datasjö på plats: Med en on-premise-datasjö hanterar interna IT-tekniska resurser hårdvara, programvara och processer. Denna metod har ett högre åtagande om kapitalutgifter (CAPEX), och data tenderar att vara siloed.

  • Molndatasjö: I en molndatasjö läggs on-premise-infrastrukturen ut på entreprenad. Det finns ett större åtagande om driftsutgifter (OPEX), men denna metod gör det lättare för företagen att skala, tillsammans med många andra fördelar (se nedan).

  • Hybriddatasjö: I vissa fall väljer vissa företag att underhålla både on-premise- och molndatasjöar samtidigt. Denna situation är ganska sällsynt och ses oftast under migreringsscenarier från on-premise till molnet.

  • Datasjö med flera moln: I en datasjö med flera moln kombineras två eller flera molnerbjudanden, till exempel kan ett företag använda både AWS och Azure för att hantera och underhålla molndatasjöar. Detta kräver större sakkunskap för att säkerställa att dessa olika plattformar kommunicerar med varandra.

De sex bästa fördelarna med en molndatasjö

Varför välja en molndatasjö? Att omvandla data till en värdefull affärstillgång driver på den digitala transformationen. Molnets styrkor i kombination med en datasjö ger denna grund. En molndatasjö gör det möjligt för företag att tillämpa analyser på historiska data samt nya datakällor, till exempel loggfiler, klickströmmar, sociala medier, Internet-anslutna enheter med mera, för att få användbara insikter.

 

Här är några av de viktigaste fördelarna du bör förvänta dig:

  1. Kostnadseffektivitet: Molnlagringsleverantörer erbjuder många lagrings- och prissättningsalternativ.
  2. Automatisk skalning: Molntjänster är utformade för att tillhandahålla skalningsfunktioner som gör det möjligt för företag att beräkna och utnyttja lagringskapacitet på begäran.
  3. Centralt datarepository: En molndatasjö för samman information, som fungerar som en enda informationskälla med styrd dataåtkomst som möjliggör processeffektivitet mellan team.
  4. Datasäkerhet: Molnlagringsleverantörer garanterar datasäkerheten genom en modell med delat ansvar.
  5. Verktyg: Molnlagringsleverantörer och andra leverantörer tillhandahåller ETL-verktyg som genomsöker data, bygger en datakatalog och utför dataförberedelser, datatransformation och dataintag för att göra data möjliga att fråga.
  6. Förbättrad analys för nya insikter och bättre affärsresultat: En molndatasjö kan kombinera data på nya sätt. CRM-data och sociala medieanalyser kan till exempel ge nya kundinsikter om orsaken till bortfall eller visa vilka kampanjer som ökar lojaliteten. Driftseffektiviteten kan också förbättras genom analys av IoT-data.

Vanliga frågor om datasjö

Utforska några av våra vanliga frågor om datasjöar nedan och läs vår ordlista för datahantering för ännu fler definitioner.

Termen ”datasjö” utvecklades för att återspegla begreppet flytande, större datalagring – jämfört med ett mer siloed, väldefinierat och strukturerat datamarknad, särskilt.

 

För mer än ett decennium sedan, i takt med att datakällorna växte, ändrades datasjöar för att möta behovet av att lagra petabyte av odefinierade data för senare analys. Tidiga datasjöar var baserade på Hadoop filsystem (HDFS) och hårdvara baserad på on-premise datacenter. Men de inneboende utmaningarna med en distribuerad arkitektur och behovet av anpassad dataomvandling och analys bidrog till den suboptimala prestandan hos Hadoop-baserade system.

 

Molndatorer och datalagringsteknik är nu den viktigaste grunden för den moderna datastacken – och för molndatasjöar.

Ett datalager (DW) är ett digitalt lagringssystem som kopplar samman och harmoniserar stora mängder strukturerade och formaterade data från många olika källor. En datasjö däremot lagrar data i sin ursprungliga form – och är inte strukturerad eller formaterad.

Datahantering är processen för att samla in, organisera och få tillgång till data för att stödja produktivitet, effektivitet och beslutsfattande.

En datasjö lägger till datahantering och lagerfunktioner utöver funktionerna i en traditionell datasjö. Detta är ett nytt och föränderligt område som förändras snabbt.

Multicloud är användningen av flera molntjänster och lagringstjänster i en enda heterogen arkitektur. Detta avser distribution av molntillgångar, programvara och applikationer, till exempel över flera molnvärdsmiljöer.

Lagring av filer organiserar och representerar data som en hierarki av filer i mappar, blockerar lagringsbitar av data i godtyckligt organiserade, jämnt stora volymer och objektlagring hanterar data och länkar dem till associerade metadata. Objektlagringssystem möjliggör lagring av massiva mängder ostrukturerade data.

placeholder

Kom igång med datasjölösningar

Utforska datasjöfunktioner i SAP HANA Cloud.

placeholder

Idéer som du inte hittar någon annanstans

Registrera dig för en dos business intelligence som levereras direkt till din inkorg.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel