Hvad er en datasø?

En datasø er et centralt datalager, der hjælper med at løse problemer med datasilo. 

Datasøoversigt

En datasø er i bund og grund et informationslager. Datalag forveksles ofte med datalagre, men begge tjener forskellige forretningsbehov og har forskellige arkitekturer. Især cloud-data søer er en vigtig komponent i en moderne datastyringsstrategi, da udbredelsen af sociale data, Internet of Things (IoT) maskindata og transaktionsdata fortsætter med at accelerere. Evnen til at gemme, transformere og analysere enhver datatype baner vejen for nye forretningsmuligheder og digital transformation – og her i ligger rollen som en data lake.

90

%

af finansielle institutioner mener, at Big Data-initiativer er afgørende for fremtidig succes

64.2

zettabytes af digitale data blev oprettet i 2020

17.6

B $USD

den anslåede værdi af markedet for datasø i 2026

Datasødefinition

En datasø er et centralt datalager, der hjælper med at løse problemer med datasilo. Vigtigt er det, at en datasø gemmer store mængder rådata i sit oprindelige - eller oprindelige - format. Dette format kan være struktureret, ustruktureret eller semistruktureret. Dataløsninger, især dem i skyen, er billige, let skalerbare og bruges ofte med anvendte maskinindlæringsanalyser.

Datasø vs. Data Warehouse

I modsætning til en datasø tilbyder et Data Warehouse datastyringsfunktioner og gemmer behandlede og filtrerede data, der allerede er behandlet for foruddefinerede forretningsspørgsmål eller anvendelseseksempler.

Diagram over et Data Warehouse sammenlignet med en data lake.

Datalagre og søer supplerer ofte hinanden. Når rådata, der er gemt i en datasø, f.eks. er nødvendige for at besvare et forretningsspørgsmål, kan de ekstraheres, renses, transformeres og anvendes i et datalager til yderligere analyse.

 

Et “data lakehouse” er et nyt og udviklende koncept, som tilføjer data management kapaciteter oven på en traditionel data lake. I det væsentlige er det kombinationen af en datasø og et datawarehouse.

 

Ud over typen af data og forskellene i den proces, der er nævnt ovenfor, er her nogle detaljer, der sammenligner en datasø med en data warehouse-løsning.

Datasø
Datawarehouse
Data
Enhver datatype fra enhver kilde
Relationsbaseret eller struktureret
Skema
Læseskemaer (tidspunkt for analyse)
Skema til skrivning (foruddefineret)
Lageromkostninger
Lavere omkostninger – petabyte skala
Højere omkostninger – terabyte-skala
Datakvalitet
Kuraterede eller ikke-kuraterede data
Kuraterede data
Brugere
Dataforskere, dataudviklere (f.eks. ved hjælp af Python) og forretningsanalytikere (bruger SQL til kuraterede data)
Forretningsanalytikere, der bruger SQL
Analyse
Maskinindlæring, prædiktive analyser, dataopdagelse/-profilering
Batchrapportering, BI, visualiseringer

I sidste ende vil mængden af data, databaseperformance og lagerpriser spille en vigtig rolle i valget af den rigtige lagringsløsning.

Nøgleelementer for datasøløsning

  • Databevægelse: Dataløsninger gør det muligt at importere enhver datatype fra flere kilder i dens oprindelige format. Dette gør det muligt for virksomheder at skalere til datastørrelse efter behov uden at skulle definere datastrukturer, skema og transformationer, hvilket kan resultere i besparelser på indirekte omkostninger.

  • Sikkert gemme og katalogdata: Data lake gemmer strukturerede, semistrukturerede og ustrukturerede data fra en række kilder som forretningsdata fra CRM- eller ERP-software, IoT-enheder, sociale medier eller endda historiske data fra legacy-systemer. Og dataløsninger giver dig mulighed for at registrere batch- og streamingdata, mens du anvender governance, sikkerhed og kontrol. Data kan forespørges direkte eller indtages i et datawarehouse med de rigtige værktøjer.

  • Analyser og maskinindlæring: Dataløsninger giver rollebaseret adgang til oplysningerne for at køre analyser og maskinindlæringsanalyser, uden at det er nødvendigt at flytte data til en separat analysedatabase. Dataløsninger gør det også muligt at kombinere historiske data med realtidsdata for at præcisere maskinindlæringsmodeller eller prognosemodeller for at give bedre og/eller nye resultater.

Sådan fungerer dataløsninger

En moderne datasø har tre hovedfunktioner:

  1. En landingszone til dine rådata
  2. En staging-zone, hvor data transformeres med et analytisk formål for øje
  3. En dataudforskningszone, hvor data anvendes af analyser, applikationer og til at fodre maskinindlæringsmodeller

Fra dataslaegten tilføres oplysningerne til en raekke forskellige kilder – fx analyser eller andre forretningsapplikationer, eller til maskinindlæringsværktøjer til yderligere analyse.

 

Et anvendelseseksempel for datasø

Her er to eksempler på en data lake use case i detailhandlen.

 

Langsigtede salgsdata gemmes i et datasaet sammen med ustrukturerede data som klikstrømme på webstedet, vejr, nyheder og mikro-/makroøkonomiske data. Når disse data lagres sammen og er tilgængelige, bliver det lettere for en dataforsker at kombinere disse forskellige informationskilder i en model, der vil forudsige efterspørgslen efter et bestemt produkt eller en bestemt produktlinje. Disse oplysninger bruges derefter som input til detail-ERP-systemet til at drive øgede eller reducerede produktionsplaner.

 

Sideløbende hermed kan en marketingekspert få adgang til denne samme dataslaegt og se på en følelsesanalyse af hjemmesiden og engagement på sociale medier med nyheder, makroøkonomiske data og salgshistorik for at fastslå, hvilke produkter der skal fokuseres på, og hvordan man bedst maksimerer salg, overskud og/eller adoption.

Typer af datalag

Datasøgere kan opholde sig lokalt, i skyen, en hybrid af både og på tværs af flere cloud-hyperscalere, f.eks. Amazon Web Services (AWS), Microsoft Azure eller Google Cloud.

 

Langt den mest populære type af data lake er en cloud data lake. En cloud-datasø indeholder alle de sædvanlige funktioner til datasø, men i en fuldt administreret cloud-tjeneste.

  • On-premise data lake: Med en on-premise data lake, in-house IT engineering ressourcer styre hardware, software og processer. Denne tilgang har en højere kapitaludgift (CAPEX), og der er en tendens til, at dataene er opgjort.

  • Cloud data lake: I en cloud-datasø er on-premise-infrastrukturen outsourcet. Der er en højere forpligtelse til driftsudgifter (OPEX), men denne tilgang giver virksomhederne mulighed for at skalere lettere sammen med mange andre fordele (se nedenfor).

  • Hybrid data lake: I udvalgte tilfælde vælger nogle virksomheder at vedligeholde både on-premise og cloud data lake samtidigt. Denne situation er ret sjælden og ses for det meste under migreringsscenarier fra on-premise til cloud.

  • Datasø med flere clouddata: I en datasø med flere clouddata kombineres to eller flere cloud-tilbud; f.eks. kan en virksomhed bruge både AWS og Azure til at administrere og vedligeholde cloud-dataløsninger. Dette kræver større ekspertise for at sikre, at disse forskellige platforme kommunikerer med hinanden.

Top seks fordele ved en cloud data lake

Hvorfor vælge en cloud data lake? Omdannelse af data til et værdifuldt forretningsaktiv fremmer digital transformation. Styrkerne i skyen kombineret med en datasø giver dette fundament. En cloud-datasø giver virksomheder mulighed for at anvende analyser på historiske data samt nye datakilder, såsom logfiler, clickstreams, sociale medier, internetforbundne enheder og meget mere, for at få indsigt, der kan handles på.

 

Her er nogle af de vigtigste fordele, du kan forvente:

  1. Omkostningseffektivitet: Cloud lagerudbydere tilbyder mange lager- og prisfastsættelsesmuligheder.
  2. Automatisk skalering: Cloud-tjenester er designet til at tilbyde skaleringsfunktioner, der gør det muligt for virksomheder at beregne og udnytte lagerkapacitet efter behov.
  3. Centralt datalager: En cloud-datasø samler oplysninger, der fungerer som en enkelt sandhedskilde med styret dataadgang, der giver mulighed for proceseffektivitet blandt teams.
  4. Datasikkerhed: Cloud-lagringsudbydere garanterer datasikkerheden gennem en model med delt ansvar.
  5. Værktøjer: Cloud-lagringsudbydere og andre leverandører leverer ETL-værktøjer, der gennemser data, bygger et datakatalog og udfører dataforberedelse, datatransformation og dataindtagelse for at gøre det muligt at forespørge om data.
  6. Forbedrede analyser for ny indsigt og bedre forretningsresultater: En cloud-datasø kan kombinere data på nye måder. For eksempel kan CRM-data og analyse på sociale medier give nye kundeindsigter om årsagen til afgang eller vise, hvilke kampagner der øger loyaliteten. Desuden kan driftseffektiviteten forbedres gennem analyse af IoT-data.

Ofte stillede spørgsmål til datasø

Se nogle af vores ofte stillede spørgsmål om datasøer nedenfor, og gennemse vores datahåndteringsordliste for at få endnu flere definitioner.

Udtrykket “data lake” udviklede sig til at afspejle begrebet flydende, større lager af data – i forhold til en mere siloed, veldefineret og struktureret data mart, specifikt.

 

For mere end et årti siden, i takt med at datakilderne voksede, ændrede datasøgene sig for at imødekomme behovet for at gemme petabytter af udefinerede data til senere analyse. Tidlige dataløsninger var baseret på Hadoop-filsystemet (HDFS) og råvarehardware baseret i on-premise-datacentre. Men de iboende udfordringer med en distribueret arkitektur og behovet for brugerdefineret datatransformation og analyse bidrog til den suboptimale ydeevne af Hadoopbaserede systemer.

 

Cloud computing- og datalagringsteknologier er nu det vigtigste fundament for den moderne datastak – og for cloud-datalagre.

Et datawarehouse (DW) er et digitalt lagringssystem, der forbinder og harmoniserer store mængder strukturerede og formaterede data fra mange forskellige kilder. En datasø gemmer derimod data i sin oprindelige form – og er ikke struktureret eller formateret.

Datastyring er processen med at indsamle, organisere og få adgang til data for at understøtte produktivitet, effektivitet og beslutningstagning.

Et data lakehouse tilføjer datastyrings- og lagerfunktioner oven på funktionerne i en traditionel datasø. Dette er et nyt og udviklende område, der ændrer sig hurtigt.

Multicsound er brugen af flere cloud computing og storage tjenester i en enkelt heterogen arkitektur. Dette henviser til fordelingen af cloud-aktiver, software og applikationer, for eksempel på tværs af flere cloud-hosting-miljøer.

Fillager organiserer og repræsenterer data som et hierarki af filer i mapper; blokerer lagring chunks data i vilkårligt organiseret, jævnt størrelse mængder; og objekt storage administrerer data og forbinder dem til tilknyttede metadata. Objekt-lagringssystemer giver mulighed for opbevaring af massive mængder af ustrukturerede data.

placeholder

Kom i gang med datasøsninger

Udforsk datasøfunktioner i SAP HANA Cloud.

placeholder

Ideer, du ikke finder andre steder

Tilmeld dig en dosis business intelligence leveret direkte i din indbakke.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel