Hvad er en datasø?
En datasø er et centralt datalager, der hjælper med at løse problemer med datasilo.
Datasøoversigt
En datasø er i bund og grund et informationslager. Datalag forveksles ofte med datalagre, men begge tjener forskellige forretningsbehov og har forskellige arkitekturer. Især cloud-data søer er en vigtig komponent i en moderne datastyringsstrategi, da udbredelsen af sociale data, Internet of Things (IoT) maskindata og transaktionsdata fortsætter med at accelerere. Evnen til at gemme, transformere og analysere enhver datatype baner vejen for nye forretningsmuligheder og digital transformation – og her i ligger rollen som en data lake.
90
%
af finansielle institutioner mener, at Big Data-initiativer er afgørende for fremtidig succes
64.2
zettabytes af digitale data blev oprettet i 2020
17.6
B $USD
den anslåede værdi af markedet for datasø i 2026
Datasødefinition
En datasø er et centralt datalager, der hjælper med at løse problemer med datasilo. Vigtigt er det, at en datasø gemmer store mængder rådata i sit oprindelige - eller oprindelige - format. Dette format kan være struktureret, ustruktureret eller semistruktureret. Dataløsninger, især dem i skyen, er billige, let skalerbare og bruges ofte med anvendte maskinindlæringsanalyser.
Datasø vs. Data Warehouse
I modsætning til en datasø tilbyder et Data Warehouse datastyringsfunktioner og gemmer behandlede og filtrerede data, der allerede er behandlet for foruddefinerede forretningsspørgsmål eller anvendelseseksempler.
Diagram over et Data Warehouse sammenlignet med en data lake.
Datalagre og søer supplerer ofte hinanden. Når rådata, der er gemt i en datasø, f.eks. er nødvendige for at besvare et forretningsspørgsmål, kan de ekstraheres, renses, transformeres og anvendes i et datalager til yderligere analyse.
Et “data lakehouse” er et nyt og udviklende koncept, som tilføjer data management kapaciteter oven på en traditionel data lake. I det væsentlige er det kombinationen af en datasø og et datawarehouse.
Ud over typen af data og forskellene i den proces, der er nævnt ovenfor, er her nogle detaljer, der sammenligner en datasø med en data warehouse-løsning.
I sidste ende vil mængden af data, databaseperformance og lagerpriser spille en vigtig rolle i valget af den rigtige lagringsløsning.
Nøgleelementer for datasøløsning
Databevægelse: Dataløsninger gør det muligt at importere enhver datatype fra flere kilder i dens oprindelige format. Dette gør det muligt for virksomheder at skalere til datastørrelse efter behov uden at skulle definere datastrukturer, skema og transformationer, hvilket kan resultere i besparelser på indirekte omkostninger.
Sikkert gemme og katalogdata: Data lake gemmer strukturerede, semistrukturerede og ustrukturerede data fra en række kilder som forretningsdata fra CRM- eller ERP-software, IoT-enheder, sociale medier eller endda historiske data fra legacy-systemer. Og dataløsninger giver dig mulighed for at registrere batch- og streamingdata, mens du anvender governance, sikkerhed og kontrol. Data kan forespørges direkte eller indtages i et datawarehouse med de rigtige værktøjer.
Analyser og maskinindlæring: Dataløsninger giver rollebaseret adgang til oplysningerne for at køre analyser og maskinindlæringsanalyser, uden at det er nødvendigt at flytte data til en separat analysedatabase. Dataløsninger gør det også muligt at kombinere historiske data med realtidsdata for at præcisere maskinindlæringsmodeller eller prognosemodeller for at give bedre og/eller nye resultater.
Sådan fungerer dataløsninger
En moderne datasø har tre hovedfunktioner:
- En landingszone til dine rådata
- En staging-zone, hvor data transformeres med et analytisk formål for øje
- En dataudforskningszone, hvor data anvendes af analyser, applikationer og til at fodre maskinindlæringsmodeller
Fra dataslaegten tilføres oplysningerne til en raekke forskellige kilder – fx analyser eller andre forretningsapplikationer, eller til maskinindlæringsværktøjer til yderligere analyse.
Et anvendelseseksempel for datasø
Her er to eksempler på en data lake use case i detailhandlen.
Langsigtede salgsdata gemmes i et datasaet sammen med ustrukturerede data som klikstrømme på webstedet, vejr, nyheder og mikro-/makroøkonomiske data. Når disse data lagres sammen og er tilgængelige, bliver det lettere for en dataforsker at kombinere disse forskellige informationskilder i en model, der vil forudsige efterspørgslen efter et bestemt produkt eller en bestemt produktlinje. Disse oplysninger bruges derefter som input til detail-ERP-systemet til at drive øgede eller reducerede produktionsplaner.
Sideløbende hermed kan en marketingekspert få adgang til denne samme dataslaegt og se på en følelsesanalyse af hjemmesiden og engagement på sociale medier med nyheder, makroøkonomiske data og salgshistorik for at fastslå, hvilke produkter der skal fokuseres på, og hvordan man bedst maksimerer salg, overskud og/eller adoption.
Typer af datalag
Datasøgere kan opholde sig lokalt, i skyen, en hybrid af både og på tværs af flere cloud-hyperscalere, f.eks. Amazon Web Services (AWS), Microsoft Azure eller Google Cloud.
Langt den mest populære type af data lake er en cloud data lake. En cloud-datasø indeholder alle de sædvanlige funktioner til datasø, men i en fuldt administreret cloud-tjeneste.
On-premise data lake: Med en on-premise data lake, in-house IT engineering ressourcer styre hardware, software og processer. Denne tilgang har en højere kapitaludgift (CAPEX), og der er en tendens til, at dataene er opgjort.
Cloud data lake: I en cloud-datasø er on-premise-infrastrukturen outsourcet. Der er en højere forpligtelse til driftsudgifter (OPEX), men denne tilgang giver virksomhederne mulighed for at skalere lettere sammen med mange andre fordele (se nedenfor).
Hybrid data lake: I udvalgte tilfælde vælger nogle virksomheder at vedligeholde både on-premise og cloud data lake samtidigt. Denne situation er ret sjælden og ses for det meste under migreringsscenarier fra on-premise til cloud.
Datasø med flere clouddata: I en datasø med flere clouddata kombineres to eller flere cloud-tilbud; f.eks. kan en virksomhed bruge både AWS og Azure til at administrere og vedligeholde cloud-dataløsninger. Dette kræver større ekspertise for at sikre, at disse forskellige platforme kommunikerer med hinanden.
Top seks fordele ved en cloud data lake
Hvorfor vælge en cloud data lake? Omdannelse af data til et værdifuldt forretningsaktiv fremmer digital transformation. Styrkerne i skyen kombineret med en datasø giver dette fundament. En cloud-datasø giver virksomheder mulighed for at anvende analyser på historiske data samt nye datakilder, såsom logfiler, clickstreams, sociale medier, internetforbundne enheder og meget mere, for at få indsigt, der kan handles på.
Her er nogle af de vigtigste fordele, du kan forvente:
- Omkostningseffektivitet: Cloud lagerudbydere tilbyder mange lager- og prisfastsættelsesmuligheder.
- Automatisk skalering: Cloud-tjenester er designet til at tilbyde skaleringsfunktioner, der gør det muligt for virksomheder at beregne og udnytte lagerkapacitet efter behov.
- Centralt datalager: En cloud-datasø samler oplysninger, der fungerer som en enkelt sandhedskilde med styret dataadgang, der giver mulighed for proceseffektivitet blandt teams.
- Datasikkerhed: Cloud-lagringsudbydere garanterer datasikkerheden gennem en model med delt ansvar.
- Værktøjer: Cloud-lagringsudbydere og andre leverandører leverer ETL-værktøjer, der gennemser data, bygger et datakatalog og udfører dataforberedelse, datatransformation og dataindtagelse for at gøre det muligt at forespørge om data.
- Forbedrede analyser for ny indsigt og bedre forretningsresultater: En cloud-datasø kan kombinere data på nye måder. For eksempel kan CRM-data og analyse på sociale medier give nye kundeindsigter om årsagen til afgang eller vise, hvilke kampagner der øger loyaliteten. Desuden kan driftseffektiviteten forbedres gennem analyse af IoT-data.
Ofte stillede spørgsmål til datasø
Se nogle af vores ofte stillede spørgsmål om datasøer nedenfor, og gennemse vores datahåndteringsordliste for at få endnu flere definitioner.
Ideer, du ikke finder andre steder
Tilmeld dig en dosis business intelligence leveret direkte i din indbakke.