Hva er en datasjø?
En datasjø er et sentralt datarepository som bidrar til å håndtere dataproblemer.
Datasjøoversikt
I hovedsak er en datasjø et datalager med informasjon. Datasjøer forveksles ofte med datalagre, men begge tjener ulike forretningsbehov og har forskjellige arkitekturer. Spesielt er skydatasjøer en viktig komponent i en moderne datahåndteringsstrategi som spredning av sosiale data, Internett of Things (IoT) maskindata, og transaksjonsdata fortsetter å akselerere. Muligheten til å lagre, transformere og analysere alle datatyper baner vei for nye forretningsmuligheter og digital transformasjon – og her ligger rollen til en datasjø.
90
%
av finansinstitusjoner mener Big Data-initiativer bestemmer fremtidig suksess
64.2
zettabyte digitale data ble opprettet i 2020
17.6
B USD
den estimerte verdien av datasjømarkedet innen 2026
Datasjødefinisjon
En datasjø er et sentralt datarepository som bidrar til å håndtere dataproblemer. Det er viktig at en datasjø lagrer store mengder rådata i sitt opprinnelige – eller opprinnelige – format. Dette formatet kan være strukturert, ustrukturert eller halvstrukturert. Datasjøer, spesielt de i skyen, er rimelige, lett skalerbare og brukes ofte med anvendt maskinlæringsanalyse.
Datasjø vs. datalager
I motsetning til en datasjø tilbyr et datavarehus dataadministrasjonsmuligheter og lagrer behandlede og filtrerte data som allerede er behandlet for forhåndsdefinerte forretningsspørsmål eller brukstilfeller.
Diagram over et datavarehus sammenlignet med en datasjø.
Datalagre og innsjøer utfyller ofte hverandre. Når for eksempel rådata som er lagret i en datasjøen er nødvendig for å svare på et forretningsspørsmål, kan de ekstraheres, rengjøres, transformeres og brukes i et datalager for videre analyse.
Et "data lakehouse" er et nytt og utviklende konsept, som legger til dataadministrasjonsmuligheter på toppen av en tradisjonell datasjø. I hovedsak er det kombinasjonen av en datasjø og et datalager.
I tillegg til typen data og forskjellene i prosessen nevnt ovenfor, her er noen detaljer som sammenligner en datasjøen med en datalagerløsning.
Til syvende og sist vil datavolumet, databaseytelsen og lagringsprisfastsettingen spille en viktig rolle ved valg av riktig lagringsløsning.
Nøkkelelementer i en datasjøløsning
Databevegelse: Datasjøer tillater import av en hvilken som helst datatype fra flere kilder i sitt opprinnelige format. Dette gjør at bedrifter kan skalere til datastørrelse etter behov uten å måtte definere datastrukturer, skjema og transformasjoner, noe som kan resultere i besparelser i indirekte kostnader.
Sikker lagring og katalogdata: Datasjøen lagrer strukturerte, halvstrukturerte og ustrukturerte data fra en rekke kilder, for eksempel forretningsdata fra CRM eller ERP-programvare, IoT-enheter, sosiale medier eller til og med historiske data fra gamle systemer. Og datasjøer lar deg fange batch og streaming data mens du bruker governance, sikkerhet og kontroll. Data kan spørres direkte eller tas inn i et datavarehus med de riktige verktøyene.
Analyse og maskinlæring: Datasjøer gir rollebasert tilgang til informasjonen for å kjøre analyse og maskinlæringsanalyse uten å måtte flytte data til en egen analysedatabase. I tillegg tillater datasjøer at historiske data kan kombineres med sanntidsdata for å forbedre maskinlæring eller prognoserende analysemodeller for å gi bedre og/eller nye resultater.
Hvordan datasjøer fungerer
En moderne datasjøen har tre hovedtrekk:
- En landingssone for rådataene
- En klargjøringssone der data transformeres med et analytisk formål i tankene
- En datautforskningssone der data utnyttes av analyser, applikasjoner og for å mate maskinlæringsmodeller
Fra datasjøen mates informasjonen til en rekke kilder – for eksempel analyse eller andre forretningsapplikasjoner, eller til maskinlæringsverktøy for videre analyse.
Et brukstilfelle for datasjø
Her er to eksempler på et brukstilfelle for datasjøen i detaljhandel.
Langsiktige salgsdata lagres i en datasjøen sammen med ustrukturerte data som klikkstrømmer på nettstedet, vær, nyheter og mikro-/makroøkonomiske data. Å ha disse dataene lagret sammen og tilgjengelig gjør det enklere for en dataforsker å kombinere disse ulike informasjonskildene til en modell som vil forutsi etterspørsel etter et bestemt produkt eller produktlinje. Denne informasjonen brukes deretter som inndata til ERP-systemet for detaljhandel for å drive økte eller reduserte produksjonsplaner.
Parallelt kan en markedsføringsekspert få tilgang til den samme datasjøen og se på en stemningsanalyse av nettstedet og sosiale medier med nyheter, makroøkonomiske og salgshistorikkdata for å finne ut hvilke produkter som skal fokuseres på og hvordan de best kan maksimere salg, fortjeneste og/eller adopsjon.
Typer datasjøer
Datasjøer kan befinne seg på stedet, i skyen, en hybrid av begge, og på tvers av flere skybaserte hyperskalere, for eksempel Amazon Web Services (AWS), Microsoft Azure eller Google Cloud.
Hittil er den mest populære typen datasjøen en skybasert datasjø. En skybasert datasjø gir alle de vanlige datasjøfunksjonene, men i en fullstendig administrert skytjeneste.
On-premise datasjø: Med en lokal datasjø, interne IT-tekniske ressurser administrere maskinvare, programvare og prosesser. Denne tilnærmingen har en høyere kapitalutgiftsforpliktelse (CAPEX), og data har en tendens til å bli siloed.
Skydatasjø: I en skybasert datasjø er infrastrukturen på stedet outsourcet. Det er en høyere forpliktelse til driftsutgifter (OPEX), men denne utrullingsmetoden gjør det enklere for bedrifter å skalere, sammen med mange andre fordeler (se nedenfor).
Hybrid datasjø: I utvalgte tilfeller velger noen selskaper å vedlikeholde både on-premise og skydatasjjøer samtidig. Denne situasjonen er ganske sjelden og mest sett under migrasjonsscenarioer fra on-premise til skyen.
Multi-cloud datasjø: I en datasjø med flere skyer kombineres to eller flere skytilbud; for eksempel kan en bedrift bruke både AWS og Azure til å administrere og vedlikeholde skydatasjøer. Dette krever større ekspertise for å sikre at disse uforenlige plattformene kommuniserer med hverandre.
Topp seks fordeler med en skybasert datasjø
Hvorfor velge en skybasert datasjø? Omdanning av data til en forretningsressurs med høy verdi driver digital transformasjon. Styrkene i skyen kombinert med en datasjø gir dette grunnlaget. En skydatasjø gjør det mulig for bedrifter å bruke analyser på historiske data samt nye datakilder, for eksempel loggfiler, klikkstrømmer, sosiale medier, Internett-tilkoblede enheter med mer, for nyttig innsikt.
Her er noen av de viktigste fordelene du kan forvente:
- Kostnadseffektivitet: Skylagringsleverandører tilbyr mange lagrings- og prisalternativer.
- Automatisk skalering: Skytjenester er utviklet for å gi skaleringsfunksjonalitet slik at bedrifter kan beregne og utnytte lagringskapasiteten ved behov.
- Sentralt datarepository: En skybasert datasjø samler informasjon som fungerer som en enkeltkilde med styrt datatilgang som muliggjør prosesseffektivitet blant team.
- Datasikkerhet: Skylagringsleverandører garanterer datasikkerheten gjennom en delt ansvarsmodell.
- Verktøy: Skylagringsleverandører og andre leverandører tilbyr ETL-verktøy som gjennomsøker data, bygger en datakatalog og utfører dataklargjøring, datatransformasjon og dataoverføring for å gjøre data spørrende.
- Forbedret analyse for ny innsikt og bedre forretningsresultater: En skybasert datasjø kan kombinere data på nye måter. CRM-data og analyser av sosiale medier kan for eksempel gi ny kundeinnsikt om årsaken til kundeavgang eller vise hvilke kampanjer som øker lojaliteten. Driftseffektiviteten kan også forbedres gjennom analyse av IoT-data.
Ofte stilte spørsmål
Utforsk noen av våre ofte stilte spørsmål på datasjøene nedenfor, og se gjennom vår databehandlingsordliste for å få enda flere definisjoner.
Ideer du ikke finner noe annet sted
Registrer deg for en dose Business Intelligence levert rett til innboksen din.