Vad är en datasjö?
En datasjö är ett centralt datarepository som hjälper till att hantera problem med data-silo.
Datasjööversikt
I grund och botten är en datasjö ett informationsarkiv. Datasjöar förväxlas ofta med datalager, men båda betjänar olika affärsbehov och har olika arkitekturer. Molndatasjöar är en viktig komponent i en modern datahanteringsstrategi eftersom spridningen av sociala data, Internet of Things (IoT) maskindata och transaktionsdata fortsätter att accelerera. Förmågan att lagra, transformera och analysera vilken datatyp som helst banar väg för nya affärsmöjligheter och digital transformation – och här i ligger en datasjös roll.
90
%
av finansinstitut tror att Big Data-initiativ avgör framtida framgång
64.2
zettabyte av digitala data skapades 2020
17.6
B $USD
Uppskattat värde på datasjömarknaden till 2026.
Datasjödefinition
En datasjö är ett centralt datarepository som hjälper till att hantera problem med data-silo. Viktigt är att en datasjö lagrar stora mängder rådata i sitt ursprungliga – eller ursprungliga – format. Formatet skulle kunna vara strukturerat, ostrukturerat eller halvstrukturerat. Datasjöar, särskilt de i molnet, är billiga, lättskalbara och används ofta med tillämpad maskininlärningsanalys.
Datasjö kontra datalager
I motsats till en datasjö tillhandahåller ett datalager datahanteringsfunktioner och lagrar bearbetade och filtrerade data som redan har bearbetats för fördefinierade affärsfrågor eller användningsfall.
Diagram över ett datalager jämfört med en datasjö.
Datalager och sjöar kompletterar ofta varandra. När till exempel rådata som lagras i en datasjö behövs för att besvara en affärsfråga kan den extraheras, rensas, transformeras och användas i ett datalager för vidare analys.
Ett ”dataslakehouse” är ett nytt och utvecklande koncept, som lägger till datahanteringsfunktioner ovanpå en traditionell datasjö. I grund och botten är det kombinationen av en datasjö och ett datalager.
Utöver den typ av data och de skillnader i processen som anges ovan finns här några detaljer som jämför en datasjö med en datalagerlösning.
I slutändan kommer datamängd, databasprestanda och lagringsprissättning att spela en viktig roll i valet av rätt lagringslösning.
Nyckelelement i en datasjölösning
Dataförflyttning: Datasjöar tillåter import av alla datatyper från flera källor i dess nativa format. Detta gör att företag kan skala till datastorlek efter behov utan att behöva definiera datastrukturer, schema och transformationer, vilket kan leda till besparingar av indirekta kostnader.
Lagra och katalogera data på ett säkert sätt: Data lake lagrar strukturerade, halvstrukturerade och ostrukturerade data från en mängd olika källor som affärsdata från CRM- eller ERP-programvara, IoT-enheter, sociala medier eller till och med historiska data från gamla system. Och datasjöar gör att du kan fånga batch- och streamingdata samtidigt som du tillämpar styrning, säkerhet och kontroll. Data kan sökas direkt eller matas in i ett datalager med rätt verktyg.
Analys och maskininlärning: Datasjöar ger rollbaserad åtkomst till informationen för att köra analys och maskininlärningsanalys utan att data behöver flyttas till en separat analysdatabas. Datasjöar gör det också möjligt att kombinera historiska data med realtidsdata för att förfina maskininlärning eller prediktiva analysmodeller för att ge bättre och/eller nya resultat.
Hur datasjöar fungerar
En modern datasjö har tre huvudfunktioner:
- En landningszon för dina rådata
- En staging-zon där data transformeras med ett analytiskt syfte i åtanke
- En datautforskningszon där data används av analyser, applikationer och för att mata in maskininlärningsmodeller
Från datasjön matas informationen till en rad olika källor – till exempel analys eller andra affärsapplikationer, eller till maskininlärningsverktyg för vidare analys.
Användningsfall för datasjö
Här är två exempel på ett datasjöanvändningsfall i detaljhandeln.
Långsiktiga försäljningsdata lagras i en datasjö tillsammans med ostrukturerade data som webbplatsers klickströmmar, väder, nyheter och mikro-/makroekonomiska data. Att ha dessa data lagrade tillsammans och tillgängliga gör det lättare för en datavetare att kombinera dessa olika informationskällor till en modell som prognostiserar efterfrågan på en viss produkt eller produktserie. Denna information används sedan som indata till affärssystemet för detaljhandel för att driva ökade eller minskade produktionsplaner.
Parallellt kan en marknadsföringsexpert komma åt samma datasjö och titta på en sentimentanalys av webbplatsen och sociala medier engagemang med nyheter, makroekonomiska och försäljningshistoriska data för att avgöra vilka produkter att fokusera på och hur man bäst kan maximera försäljning, vinst och/eller adoption.
Typer av datasjöar
Datasjöar kan bo på plats, i molnet, en hybrid av båda, och över flera moln hyperscalers, till exempel Amazon Web Services (AWS), Microsoft Azure eller Google Cloud.
Den överlägset mest populära typen av datasjö är en molndatasjö. En molndatasjö tillhandahåller alla vanliga datasjöfunktioner, men i en fullständigt hanterad molntjänst.
Datasjö på plats: Med en on-premise-datasjö hanterar interna IT-tekniska resurser hårdvara, programvara och processer. Denna metod har ett högre åtagande om kapitalutgifter (CAPEX), och data tenderar att vara siloed.
Molndatasjö: I en molndatasjö läggs on-premise-infrastrukturen ut på entreprenad. Det finns ett större åtagande om driftsutgifter (OPEX), men denna metod gör det lättare för företagen att skala, tillsammans med många andra fördelar (se nedan).
Hybriddatasjö: I vissa fall väljer vissa företag att underhålla både on-premise- och molndatasjöar samtidigt. Denna situation är ganska sällsynt och ses oftast under migreringsscenarier från on-premise till molnet.
Datasjö med flera moln: I en datasjö med flera moln kombineras två eller flera molnerbjudanden, till exempel kan ett företag använda både AWS och Azure för att hantera och underhålla molndatasjöar. Detta kräver större sakkunskap för att säkerställa att dessa olika plattformar kommunicerar med varandra.
De sex bästa fördelarna med en molndatasjö
Varför välja en molndatasjö? Att omvandla data till en värdefull affärstillgång driver på den digitala transformationen. Molnets styrkor i kombination med en datasjö ger denna grund. En molndatasjö gör det möjligt för företag att tillämpa analyser på historiska data samt nya datakällor, till exempel loggfiler, klickströmmar, sociala medier, Internet-anslutna enheter med mera, för att få användbara insikter.
Här är några av de viktigaste fördelarna du bör förvänta dig:
- Kostnadseffektivitet: Molnlagringsleverantörer erbjuder många lagrings- och prissättningsalternativ.
- Automatisk skalning: Molntjänster är utformade för att tillhandahålla skalningsfunktioner som gör det möjligt för företag att beräkna och utnyttja lagringskapacitet på begäran.
- Centralt datarepository: En molndatasjö för samman information, som fungerar som en enda informationskälla med styrd dataåtkomst som möjliggör processeffektivitet mellan team.
- Datasäkerhet: Molnlagringsleverantörer garanterar datasäkerheten genom en modell med delat ansvar.
- Verktyg: Molnlagringsleverantörer och andra leverantörer tillhandahåller ETL-verktyg som genomsöker data, bygger en datakatalog och utför dataförberedelser, datatransformation och dataintag för att göra data möjliga att fråga.
- Förbättrad analys för nya insikter och bättre affärsresultat: En molndatasjö kan kombinera data på nya sätt. CRM-data och sociala medieanalyser kan till exempel ge nya kundinsikter om orsaken till bortfall eller visa vilka kampanjer som ökar lojaliteten. Driftseffektiviteten kan också förbättras genom analys av IoT-data.
Vanliga frågor om datasjö
Utforska några av våra vanliga frågor om datasjöar nedan och läs vår ordlista för datahantering för ännu fler definitioner.
Idéer som du inte hittar någon annanstans
Registrera dig för en dos business intelligence som levereras direkt till din inkorg.