Datasø vs. datawarehouse
Datasøer gemmer rådata i deres oprindelige format, uanset hvordan de ankommer. Data warehouses gemmer data, der er blevet renset og struktureret på en foruddefineret måde.
default
{}
default
{}
primary
default
{}
secondary
Introduktion til datasøer og datalagre
Datasøer og datalagre er systemer, der lagrer, administrerer og henter store maengder digitale data. Virksomheder indsamler data for at hjælpe dem med at få indsigt i deres aktiviteter, kunder, markeder og forsyningskæder, så de kan reagere mere strategisk.
Data warehouses opstod som en løsning til at nedbryde datasiloer og håndtere udfordringen med forretningsdata spredt over flere systemer, formater og afdelinger.
Inkonsistensen gjorde det vanskeligt for brugere at få adgang til, integrere og analysere disse data for at spotte mønstre, prognoseefterspørgsel eller evaluere forretningsperformance. Data warehouses blev udviklet til at konsolidere disse data til et centraliseret lager, hvor data kunne integreres, renses og struktureres til analyse. Denne tilgang etablerede en "enkelt sandhedskilde" til understøttelse af compliance, performance-overvågning og business intelligence-processer.
Datasøer opstod igen som en løsning på begrænsningerne i datalagre, som ikke i tilstrækkelig grad kunne håndtere eksplosionen af ustrukturerede og halvstrukturerede data genereret fra nye kilder som sociale medier, IoT-enheder, sensorer, mobilapps og meget mere. Lagring og behandling af enorme mængder af forskellige data, såsom billeder, video og tekst, viste sig at være for dyrt og ineffektivt, da traditionelle datalagre i første omgang krævede, at data blev renset og behandlet på forhånd og før opbevaring.
Virksomhederne havde brug for en mere fleksibel, billig måde at gemme data i sit rå, originale format, og data søer blev skabt som løsningen.
I dag anvender mange moderne virksomheder en hybrid tilgang, der omfatter både datalagre og datasøer: data lakehouse. Denne arkitektur giver både de hurtige, strukturerede rapporteringsfunktioner for førstnævnte og potentialet for AI og maskinindlæringsapplikationer for sidstnævnte.
Datasøer vs. datalagre: Nøgledifferencer
Den vigtigste forskel mellem datasøer og datalagre er den type data, de gemmer, og hvordan de gemmer disse data, som begge spiller en nøglerolle i en organisations datastrategi.
Data warehouses gemmer strukturerede data, der er blevet renset og behandlet i henhold til en foruddefineret struktur eller skema. Da skemaet anvendes, før dataene gemmes, kaldes tilgangen schema-on-skrivning.
Et skema kan fx give mandat til, at kunde-id-data skal være et heltal, ordredatodata skal være i formatet ÅÅÅÅ-MM-DD, og at data for den samlede salgsmængde skal være i decimalformat. Da alle data overholder disse regler, kan brugere hurtigt og pålideligt spørge om "find det samlede salg pr. kunde i april 2025". Denne hastighed og nøjagtighed gør datalagre ideelle til rapportering, dashboards og Business Intelligence-anvendelseseksempler.
I modsætning hertil kan datasøer gemme rådata i deres oprindelige format, uanset hvordan de er struktureret. Intet foruddefineret skema kræves på forhånd.
Skemaet defineres kun, når dataene forespørges, så tilgangen kaldes schema-on-read. Først derefter analyseres, struktureres og fortolkes rådataene i henhold til forespørgslen.
For at opsummere anvender datalagre et skema før lagring af data for at sikre, at alle data er struktureret og renset til brug. Datasøer anvender skema, når dataene forespørges, og kan gemme alle data, strukturerede eller ej, fra starten.
Forskelle mellem datasøer og datalagre
Valg mellem datasøer og datalagre
Da datasøer kan gemme rådata i ethvert format, er de ideelle til virksomheder, der har brug for fleksibilitet. Detailhandlere indsamler f.eks. massive beløb fra flere kilder, såsom websteder, mobilapps, sociale medier, salgsstedssystemer og andre. Da de data, de indsamler, ikke behøver at blive renset, omdannet eller struktureret, kan de bruge mere omkostningseffektive lagringssystemer, der skaleres nemt. Omkostningerne ved behandling af rådata på forespørgselstidspunktet kan dog være højere sammenlignet med et Data Warehouse-optimerede forespørgsler.
Til sammenligning vil omkostningerne være højere med datalagre. Rengørings-, transformations- og struktureringsprocesserne før pålæsning – samt indeksering og partitionering efter pålæsning – kræver yderligere ressourcer og opbevaring for at fungere. Denne optimering resulterer dog i brugsklare data til Business Intelligence, rapportering og driftsanalyse. Med datalagre kan analytikere og ledere generere rapporter, overvåge KPI'er og træffe kvalificerede beslutninger hurtigt og nemt.
Det skal bemærkes, at datasøer låser op for nye muligheder for AI og maskinindlæringsapplikationer. De store og varierede datasæt, de gemmer, gør det muligt for dataforskere at finde tendenser, opbygge prognosemodeller og køre maskinindlæringsapplikationer. Dette resulterer f.eks. i anbefalingssystemer, der foreslår produkter til brugere baseret på tidligere interaktioner eller værktøjer til behandling af naturligt sprog, der kører følelsesanalyse på kundeanmeldelser eller kommentarer på sociale medier.
I dag driver mange moderne virksomheder dataarkitekturer, der i bund og grund er kombinationer af begge. Disse data lakehouses har til formål at tilbyde fleksibiliteten af en datasø med styring og ydeevne af et data lager. Mens udbredelsen vokser hurtigt, er mange virksomheder stadig afhængige af traditionelle lagre for kritisk rapportering.
Eksempler og anvendelseseksempler i den virkelige verden
Her er eksempler på, hvordan forskellige brancher bruger datasøer, datalagre eller en kombination af elementer fra begge for at understøtte deres unikke behov.
Sundhedsvæsen: Hospitaler bruger ofte en datasøarkitektur til at gemme, administrere og analysere de enorme mængder og varierede typer af data, deres operationer genererer. Dette omfatter ustrukturerede bærbare data og medicinske billeder, semistrukturerede HL7-patientdata og strukturerede laboratorietestresultater. Ved at konsolidere det hele i et centralt lager kan de anvende avancerede analyser og AI på rådataene til fx at identificere patienter i risikogruppen eller analysere genomik for at tilpasse behandlingsplaner. Med patienter, der nu er udstyret med "smarte" wearable enheder, der streamer data om vitale skilte, kan sundhedstjenesteudbydere endda registrere tidlige advarselssignaler og gribe hurtigere ind.
Finans: Banker og andre finansielle institutioner skal overholde reglerne om bekæmpelse af hvidvaskning af penge (AML) og strenge regler for regnskabsaflæggelse (såsom Sarbanes-Oxley i USA eller Basel III internationalt). Ved at bruge datalagre til at gemme strukturerede finansielle data fra flere systemer, herunder transaktionsposter, kontosaldi og handelsdata, kan de generere lovpligtige rapporter, der opfylder styrings- og sikkerhedskravene. Ud over compliance bruger finansielle institutioner også datalagre til at drive deres business intelligence, styre risici og opdage svindel ved at køre komplekse forespørgsler på tværs af historiske og aktuelle datasæt.
Medier: Videostreamingtjenester bruger en data lakehouse-tilgang til at indsamle, gemme og analysere brugerdata for at levere personlige oplevelser. De bruger forskellige typer af data fra flere kilder, såsom streaming af logs og feedback på sociale medier, og gemmer dem i et centralt lager. Disse data kan derefter bruges til at opbygge maskinindlæringsmodeller, der anbefaler det mest relevante indhold. De samme data kan også kureres og struktureres i delmængder til analyse- eller rapporteringsbehov, styrke dashboards om opbevaringsrater eller informere om beslutninger om indholdstilgange.
Nye tendenser i dataplatforme
Data lakehouses er hurtigt ved at blive den foretrukne løsning for virksomheder, der ønsker at maksimere værdien af deres data. De kan understøtte både Business Intelligence og AI og anvendelseseksempler for maskinindlæring på en enkelt platform. Det skal dog bemærkes, at de stadig udvikler sig, og at nogle virksomheder fortsat er afhængige af traditionelle datalagre til missionskritisk rapportering.
Potentialet i AI som en drivkraft for produktivitet og effektivitet har især påvirket dataarkitekturer, med nogle nye data lake og data lakehouse platforme nu integreret med LLM'er. Dette gør det muligt for ikke-tekniske brugere at udforske og analysere data ved at spørge forespørgsler i almindeligt sprog. For eksempel kan en bruger spørge "vis mig salgstendenser i Q2", og LLM kan generere SQL, som systemet kan forstå. Dette demokratiserer adgangen til datadrevet indsigt.
Serverløse arkitekturer dukker også op som en strategi, hvor virksomheder hyrer en cloud-udbyder til at styre deres datainfrastruktur. I denne ordning betaler en virksomhed for adgang til en dataplatform i stedet for at oprette og administrere deres egen. Fordelene ved dette er lettere skalerbarhed og omkostningseffektivitet. Cloud-udbyderen giver fleksibilitet i båndbredde i tilfælde af stigninger i datavolumen eller indlæsning af forespørgsler, og forretningen betaler kun for, hvad de bruger. På denne måde kan udviklerne udrulle hurtigere, da de ikke behøver at slås med infrastrukturhensyn.
Nogle virksomheder vælger endda en multi-cloud strategi, der distribuerer deres data søer og lagre på tværs af flere cloud-tjenester. Den største fordel er modstandsdygtighed over for afskedigelser. Hvis én cloud går offline, kan virksomheden blive ved med at køre på en anden. De kan også optimere specifikke workflows på visse skyer, f.eks. hvis én tjeneste specialiserer sig i maskinlæring. I nogle brancher eller lande skal følsomme data gemmes i en region eller en cloud-udbyder, der opfylder lokale konformitetskrav.
For at oprette forbindelse, administrere og styre data på tværs af flere cloud-miljøer kan virksomheder implementere datastofarkitekturer. De giver adgang til data i realtid på tværs af separate, men synkroniserede systemer og applikationer, hvilket skaber et samlet view på tværs af landskabet.
For at beskytte følsomme data som patientjournaler, CPR-numre og kildekoder vedtager organisationer også politikker som adgangskontrol uden tillid på deres dataplatforme. Disse kontroller kræver, at alle brugere bekræfter deres identitet for at få adgang til de data, de har brug for.
Ofte stillede spørgsmål
Datasøer er nyttige for dataforskere, der ønsker at træne maskinindlæringsmodeller, der driver indholdsanbefalingssystemer.
Et datawarehouse er et lagersystem, der primært er designet til at indeholde store mængder strukturerede data. Strukturerede data renses, organiseres og formateres på en bestemt måde. (Tænk på de definerede rækker og kolonner i et regneark). Flere moderne lagre kan også håndtere visse halvstrukturerede formater som JSON eller XML.
Virksomheder bruger datalagre til at besvare spørgsmål hurtigt, generere rapporter og spore nøgletal. Disse funktioner kategoriseres som Business Intelligence.
Skemaer er regler for, hvordan data er organiseret, såsom hvilken type data der kan gemmes (tal, datoer), hvordan dataene er arrangeret (tabeller og kolonner), og hvordan oplysningerne relaterer til hinanden.
Skema-on-skriv betyder, at dataene skal passe ind i en foruddefineret struktur (skema), før de gemmes. Sådan fungerer datalagre. De sikrer, at dataene er rene og klar til analyse på forhånd.
Skema-on-read betyder, at strukturen kun anvendes, når nogen ønsker at bruge eller analysere dataene. Sådan fungerer datasøer. De giver mere fleksibilitet, da dataene kan gemmes i enhver form først, og du behøver ikke at organisere dem med det samme. Afvejningerne af denne tilgang omfatter dog langsommere forespørgselstider og potentiel inkonsistens, da forskellige brugere kan fortolke de samme rådata forskelligt.
Derimod håndhæver schema-on-skrivning konsistens på forhånd, men reducerer fleksibiliteten.
Strukturerede data er meget organiseret, let at søge, og kan normalt gemmes i tabeller, såsom kundenavne, salgsnumre og datoer.
Ustrukturerede data har intet fast format og er sværere at organisere, ligesom videoer, billeder, lydfiler og sociale medier indlæg.
Halvstrukturerede data er et sted midt imellem. Det har en vis organisation, men ikke så streng som tabeller. Tænk JSON-filer, XML-dokumenter og e-mails.