flex-height
text-black

Mand, der går gennem et serverrum

Hvad er en datasø?

En datasø er et centraliseret datalager, der hjælper med at løse problemer med data silo.

default

{}

default

{}

primary

default

{}

secondary

Hvad er en datasø: definition og formål

En datasø er et centraliseret lager, der gemmer strukturerede, halvstrukturerede og ustrukturerede data i dets oprindelige formater. I modsætning til andre lagringssystemer, som kræver, at data organiseres, før de gemmes (f.eks. datalagre), accepterer en datasø rådata, som de er, og bevarer dens oprindelige struktur og format, indtil den er nødvendig til anvendelseseksempler for avanceret analyse, kunstig intelligens (AI) og maskinindlæring (ML).

Hovedformålet med en datasø er at nedbryde datasiloer og oprette en enkelt kilde til en organisations dataassets. Det indebærer at konsolidere data fra flere kilder til et enkelt, tilgængeligt sted – datasøen, hvilket betyder, at dataforskere, analytikere og maskinindlæringsingeniører alle kan udforske, eksperimentere med og udtrække værdi fra oplysninger, der ellers kunne være blevet fanget i forskellige systemer. Eksempler på datakilder, der kan lagres i en datasø, omfatter:

Formålet med en datasø er at levere en fleksibel, skalerbar løsning til lagring og analyse af data af alle typer. Dette gøres muligt ved hjælp af schema-on-read metoden (vs. schema-on-writer, som anvendt i datalagre).

Hvad betyder schema-on-read?

Skema-on-read betyder, at dataenes struktur og betydning – skemaet – anvendes, når der er adgang til dem, i stedet for når de er gemt. Dette bevarer fleksibiliteten, så organisationer kan gemme data uden at vide præcis, hvordan de vil blive brugt i fremtiden. Derfor er datasøer ideelle til eksplorativ analyse, data mining, maskinindlæring og opdagelse af uventede mønstre i data.

Datasøarkitektur og komponenter

Data lake arkitektur er flerlags og består af flere nøglekomponenter, der arbejder sammen om at tage ind, gemme, behandle og levere data til slutbrugere og applikationer. Disse nøglekomponenter i en datasø er:

Lagerlag

Lagringslaget er grundlaget for en datasøarkitektur, der typisk er bygget på objektlagringssystemer, der giver omkostningseffektiv, skalerbar lagring til massive datamængder. Dette lag indeholder data i sit oprindelige format, uanset om det er CSV-filer, JSON-dokumenter, parketfiler, billeder, videoer eller andre formater.

Dataindtagelse

Dataindtagelseslaget håndterer processen med at bringe data ind i søen fra forskellige kilder. Dette omfatter batchindtagelse for periodiske dataindlæsninger og streaming af indtagelse for datastrømme i realtid. Dataindtagelsesværktøjer skal håndtere forskellige datatyper og kilder og samtidig sikre dataintegritet og sporing af dataoprindelse.

Administration af datakatalog og metadata

Katalogerings- og metadatastyringskomponenten vedligeholder en organiseret fortegnelse over de data, der findes i søen, herunder dens placering, betydning og relationer til andre data. Tænk på det som et bibliotek eller arkiv katalog manager. Et robust datakatalog fungerer som et søgbart indeks, der gør det muligt for brugere at finde relevante datasæt uden at skulle gennemse hele lageret manuelt.

Behandlingslag

Behandlingslaget muliggør datatransformation, oprydning, supplering og analyse. Dette lag indeholder motorer til batchbehandling, strømbehandling og interaktive forespørgsler, så brugerne kan forberede sig på specifikke anvendelseseksempler eller udføre ad hoc-analyser.

Tilgangslag

Adgangslaget indeholder grænseflader og værktøjer til forskellige typer af brugere: dataforskere, der bruger notesbøger, analytikere, der kører SQL-forespørgsler, eller applikationer, der forbruger data via API'er. Dette lag håndhæver også sikkerhedspolitikker og administrerer, hvem der kan få adgang til hvilke data og under hvilke betingelser.

Typer af datasøer: cloud, on-premise, hybrid, multi-cloud

Der findes forskellige typer af datasøer, alt efter hvilken konfiguration organisationen implementerer dem i. Hver konfiguration giver visse fordele og afvejninger.

Cloud-datasøer

Cloud data søer er hostet udelukkende på cloud platforme. De kan tilbyde stort set ubegrænset skalerbarhed, pay-as-you-go-priser og nem integration med cloudbaseret analyse og AI-tjenester. Cloud data søer eliminerer behovet for forudgående infrastrukturinvesteringer, hvilket giver organisationer mulighed for at skalere lager og beregne ressourcer uafhængigt. De er særligt velegnede til organisationer i vækst og virksomheder, der ønsker at reducere driftsomkostninger, samtidig med at de bevarer adgang til banebrydende analysefunktioner.

Datasøer i det lokale miljø

Datasøer i det lokale miljø indsættes i en organisations egne datacentre, hvilket giver fuldstændig kontrol over – og det fulde ansvar for – infrastrukturen, sikkerheden og datasuveræniteten. Selv om nogle gange anvendes af organisationer med meget specifikke lovmæssige og sikkerhedsmæssige krav, kræver datasøer i det lokale miljø ofte betydelige kapitalinvesteringer, kontinuerlig vedligeholdelse og en betydelig indsats for alle transformationsprojekter. Ofte er det en afvejning: at øge granulariteten af kontrol kommer på bekostning af skalerbarhed og omkostningseffektivitet.

Hybriddatasøer

Hybride datasøer kombinerer cloud-lagring og lagerplads i det lokale miljø, hvilket gør det muligt for organisationer at beholde nogle data i det lokale miljø, mens de stadig bruger cloud-ressourcer til skalerbarhed og avanceret analyse. Denne tilgang giver fleksibilitet, men introducerer kompleksitet i datasynkronisering, governance og administration af en konsistent oplevelse på tværs af miljøer.

Multi-cloud data søer

Multi-cloud data søer spænder over flere cloud-udbydere, hjælper organisationer med at undgå leverandørfastlåsning, optimere omkostninger ved at bruge de bedste tjenester fra hver udbyder og sikre forretningskontinuitet gennem redundans. Flerskyarkitekturer kræver dog omhyggelig planlægning omkring datainteroperabilitet, konsistente sikkerhedspolitikker og styring af dataoverførselsomkostninger mellem cloud-udbydere. De kan også gøre indførelsen af ændringer eller innovationer til en mere kompleks proces.

Datasø vs. datawarehouse vs. data lakehouse

At forstå forskellene mellem disse metoder til datalagring er afgørende for at kunne vælge de rigtige løsninger til din organisations mål. Lad os sammenligne datasøer, datalagre og datalagre på tværs af en række nøglekriterier:

Funktion
Data lake
Data warehouse
Data lakehouse
Skema
Skema-on-read
Skema-on-skrivning
Fleksibel med valgfri struktur
Datatyper
Struktureret, semistruktureret, ustruktureret
Primært struktureret (lejlighedsvis, semistruktureret)
Alle typer med tabeladministration
Typiske lageromkostninger
Lave lageromkostninger
Højere lageromkostninger
Moderate omkostninger
Primære brugere
Dataforskere og -ingeniører, ML-ingeniører, analytikere
Forretningsanalytikere, ledere, dataforskere
Alle brugertyper
Cases
Udforskning, ML, avanceret analyse, AI, skalerbar lagring indtil videre behandling
Optimeret til forespørgsler og specifikke algoritmer
Ensartede analyser og rapportering
Performance
Variabel, afhængigt af forarbejdningsmotoren
Optimeret til forespørgsler
Høj ydeevne med indbygget governance
Datakvalitet
Rådata af varieret kvalitet
Ryddede og validerede data
Fremtvunget kvalitet med en vis fleksibilitet

Hvordan ser det ud i praksis?

Datasøer udmærker sig ved at lagre store mængder rådata økonomisk og understøtter sonderende analyser og maskinindlæring. De er ideelle, når du har brug for fleksibilitet til at arbejde med forskellige datatyper og ikke på forhånd ved, hvordan dataene vil blive brugt. De kan også gemme data, som derefter trækkes ind i datalagre.

Datalagre er beregnet til business intelligence og rapportering med strukturerede skemaer, der er optimeret til forespørgselsperformance. De er bedst egnet til veldefinerede rapporterings- og modelleringsbehov, hvor datakvalitet og konsistens er altafgørende – for eksempel til brug i prognoseanalyser. I praksis kan data akkumuleret i datasøer endda behandles og streames eller regelmæssigt trækkes ind i datalagre, afhængigt af hvordan datarørledninger konfigureres.

Data lakehouses repræsenterer en nyere arkitektur, der kombinerer fleksibiliteten af data søer med management kapaciteter og ydeevne af datalagre. De gør det muligt for organisationer at køre både eksplorativ analyse og forretningsrapportering på samme platform, hvilket reducerer dataduplikering og -kompleksitet.

Fordele ved datasøer

Fordelene ved datasøer er, hvad der gør dem til et så overbevisende valg for organisationer og en hjørnesten i moderne dataarkitektur. Fordelene ved datasøarkitektur omfatter:

Fleksibilitet: Data søer accepterer enhver datatype i ethvert format, hvilket eliminerer behovet for at transformere data før lagring eller contend med at gå glip af nogle data. Det betyder, at du kan begynde at indsamle data med det samme uden behov for omfattende forudgående planlægning eller ved, hvordan du vil bruge det. Den schema-on-read tilgang gør det muligt for forskellige teams at udnytte og fortolke de samme data på forskellige måder, hvilket fremmer innovation og opdagelse.

Skalerbarhed: Med datasøer kan lagringen vokse fra gigabyte til petabyte uden at kræve arkitektoniske ændringer eller migreringer, især med cloud-baserede implementeringer. Organisationer kan starte i det små og udvide sig i takt med, at deres databehov vokser.

Omkostningseffektivitet: En af fordelene ved datasøer til lagring er, at de typisk koster betydeligt mindre end traditionelle datalagre for den samme mængde lagring, hvilket gør det økonomisk muligt at opbevare historiske data og udforske nye datakilder uden at overskride budgetmæssige begrænsninger.

Avanceret analyseunderstøttelse: Datasøer gør det muligt for dataforskere og maskinindlæringsingeniører at få adgang til rådata til opbygning og træning af modeller, data mining og andre avancerede opgaver. I modsætning til behandlede data i lagre bevarer rådataindtag nuancer og detaljer, der kan vise sig at være afgørende for nøjagtige forudsigelser og indsigt. Datasøer understøtter også realtidsanalyser ved at indsamle streamingdata, så organisationer kan handle på ny information.

Datademokratisering: En anden fordel ved data lake arkitektur er, at når alle organisatoriske data er gemt på et enkelt, tilgængeligt sted, kan flere mennesker på tværs af organisationen opdage og bruge data, nedbryde siloer og fremme datadrevet beslutningstagning på alle niveauer.

Udfordringer i forbindelse med fælles datasø

Mens data søer tilbyder enorme fordele, giver de også udfordringer, som organisationer er nødt til at tage fat på for fuldt ud at realisere deres potentiale. Fælles udfordringer i forbindelse med datasø omfatter:

Styring af kompleks datasø

Data governance bliver mere kompleks, når du gemmer store mængder af forskellige data. Uden korrekte governance-frameworks kan datasøer omdannes til "data suamps" – repositories, hvor data dumpes uden nogen organisation, hvilket gør det vanskeligt at finde, forstå eller stole på. Etablering af et klart ejerskab, dokumentation af data og håndtering af metadata er afgørende, men kræver løbende indsats og disciplin.

Datasikkerhedsproblemer

Sikkerhed og adgangskontrol kræver omhyggelig opmærksomhed. Datasøer indeholder følsomme oplysninger fra hele organisationen og sikrer, at kun autoriserede brugere kan få adgang til specifikke datasæt, mens de vedligeholder revisionsspor, kræver robuste sikkerhedspolitikker og værktøjer. Kryptering, godkendelse, finkornede adgangskontroller og datamaskering spiller alle vigtige roller med hensyn til at sikre datasømiljøer og undgå problemer med administration af datasø.

Ujævn datakvalitet

Datakvalitet sikres ikke automatisk i datasøer. Da rådata gemmes som de er, kan de indeholde fejl, dubletter eller inkonsistenser. Organisationer har brug for processer til at validere, rense og supplere disse data, før de bruges til analyser. Uden opmærksomhed på datakvalitet kan analyser og ML-modeller bygget på sødata give upålidelige resultater.

Problemer med administration af datasø

Kompleksitets- og ekspertisekrav bør ikke undervurderes. Håndtering af en datasø kræver effektive færdigheder inden for distribuerede systemer, datateknik, metadatastyring og forskellige behandlingsrammer. Organisationer kan være nødt til at investere i uddannelse, ansætte specialiserede talenter eller partner med en ekspert tjenesteudbyder for at opbygge og vedligeholde deres data lake infrastruktur.

Længere forespørgselstider

Optimering af ydeevnen kan være vanskelig, især ved interaktive forespørgsler om store datasæt. I modsætning til lagre med præoptimerede skemaer kræver datasøer gennemtænkt dataorganisation, partitioneringsstrategier og valg af filformater for at opnå acceptabel forespørgselsydelse. For at sige det enkelt, kan data søer indeholde ufatteligt store mængder data, så det kan tage tid at finde det, du har brug for.

Eksempler på datasøer og praktiske anvendelseseksempler

Eksempler på brug af data lake i den virkelige verden viser, hvordan organisationer udnytter datasøer til at håndtere forretningsmæssige udfordringer og opnå konkurrencemæssige fordele. Lad os nedbryde det ved at analysere et par af de almindelige datasøanvendelseseksempler.

Anvendelseseksempel for datasøer: IoT-analyser for prognosevedligehold

En produktionsvirksomhed indsamler sensordata fra tusindvis af maskiner på tværs af flere faciliteter og genererer terabyte tidsseriedata dagligt. Ved at streame disse data til en datasø kombineres de med vedligeholdelsesrecords, produktionsplaner og leverandøroplysninger. Maskinindlæringsmodeller analyserer historiske mønstre for at forudsige udstyrsfejl, før de opstår, hvilket reducerer nedetid og sparer millioner af reparationsomkostninger. Datasøens evne til at håndtere streamingdata med høj hastighed fra flere kilder muliggør dette anvendelseseksempel.

Anvendelseseksempel for datasøer: Kunde 360 til personlig markedsføring

En detailorganisation konsoliderer kundedata fra online browsing adfærd, købshistorik, mobilapp-interaktioner, kundeservicekald og -chats, engagement på sociale medier og besøg i butikken i en datasø. Ved at analysere denne omfattende visning af hver kunde kan de oprette detaljerede segmenter og personalisere marketingkampagner, produktanbefalinger og kundeoplevelser. Dette kan øge kampagnens effektivitet og øge kundetilfredsheden betydeligt. I dette datasøeksempel aktiverer fleksibiliteten og kapaciteten til lagring af både strukturerede transaktionsdata og ustrukturerede interaktionsprotokoller dette holistiske kundeview.

Anvendelseseksempel for datasøer: Risikomodellering for finansielle tjenesteydelser

En finansiel institution bruger en datasø til at aggregere handelsdata, markedsfeeds, nyhedsartikler, følelser på sociale medier og lovmæssige indberetninger. Dataforskere bygger sofistikerede risikomodeller, der tager hensyn til både traditionelle finansielle metrikker og yderligere datakilder. Søens schema-on-read tilgang giver dem mulighed for at udforske forskellige datakilder og modelleringsteknikker uden at forstyrre eksisterende systemer, hvilket hjælper dem med at opnå mere nøjagtige risikovurderinger.

Bedste fremgangsmåder for datasø

Implementering af følgende bedste praksis for datasøer kan hjælpe organisationer med at maksimere værdien af deres datasøer og samtidig undgå fælles faldgruber:

  1. Prioriter metadatastyring fra dag 1. Opret et omfattende datakatalog, der dokumenterer, hvilke data der findes, hvor de stammer fra, hvad det betyder, og hvordan de relaterer til andre datasæt. Gode metadata forvandler en datasø til en søgbar, forståelig ressource i stedet for et overvældende datadump – det er en vigtig del af administration af datasø.
  2. Sørg for styring af datasø. Implementer stærke Data Governance-frameworks, der definerer dataejerskab, etablerer kvalitetsstandarder og skaber klare processer for dataindtagelse, klassificering og livscyklusstyring. Governance bør ikke være en eftertanke – byg den ind i din datasøarkitektur fra begyndelsen for at hjælpe med at bevare tilliden til dine data og sikre overholdelse af lovkrav.
  3. Beskyt dine data. Design for sikkerhed og overholdelse ved at implementere kryptering i hvile og i transit, finkornet adgangskontrol, audit logning og data maskering, hvor det er nødvendigt. Gennemgå adgangsmønstre og tilladelser regelmæssigt for at sikre, at de er i overensstemmelse med princippet om mindst tilladt adgang.
  4. Optimer ydeevnen. Organiser lageret optimalt ved at partitionere data logisk (efter dato, region eller andre relevante dimensioner), vælge effektive filformater til analysearbejdsbelastninger og implementere livscykluspolitikker til at arkivere eller slette forældede data. Disse valg påvirker både omkostninger og forespørgselsperformance betydeligt.
  5. Fremme en datadrevet kultur. Gør data synlige og tilgængelige, samtidig med at du tilbyder uddannelse og værktøjer, der muliggør selvbetjeningsanalyser. Hvis dit team ikke har den rette ekspertise, kan du overveje at ansætte yderligere talenter, der kan bygge bro mellem virksomhedens interessenter og teknologi og sikre optimal administration af datasø. Den tekniske infrastruktur er kun værdifuld, hvis folk rent faktisk bruger den til at træffe bedre beslutninger.

Fremtiden for datasøer

Udviklingen af data søer fortsætter som organisationer kræver både fleksibilitet og styring, hvilket fører til fremkomsten af data lakehouse arkitekturer, der kombinerer de bedste aspekter af søer og lagre. Denne konvergens afspejler en voksende forståelse af, at organisationer har brug for ensartede platforme, der understøtter forskellige tilgange, i stedet for at opretholde separate systemer til forskellige formål.

AI og maskinlæring bliver stadig mere centrale for strategier for datasø. Moderne datasøer er ikke kun lagerlagre – de er centrale platforme, hvor AI-modeller træner på historiske data, laver forudsigelser ved hjælp af streamingdata og løbende forbedrer sig gennem feedbacksløjfer. Integration med AI-platforme og automatiserede ML-funktioner bliver standarden snarere end undtagelsen.

Efterhånden som organisationer anerkender værdien af at handle på nye data, bliver realtids- og streaminganalyser fortsat fremhævet. Som følge heraf er datasøer ved at udvikle sig til at understøtte databehandling og forespørgsler i underandet, hvorved linjen mellem historisk analyse og realtidsoperationer udviskes.

Endelig, i takt med at reglerne om databeskyttelse udvides og ændres i hele verden, skal datasøer udvikle sig til at understøtte databeskyttelse og beskyttelse gennem design, med funktioner som automatisk dataklassificering, samtykkehåndtering og forenklet rapportering af overholdelse indbygget i platformen snarere end tilføjet efterfølgende.

Fremtiden for datasøer ligger i fleksibilitet, tilgængelighed og automatisering: funktioner, der gør det lettere for organisationer at administrere voksende datamængder, samtidig med at sikkerhed, kvalitet og styring bevares. Datasøer bør ses som et strategisk aktiv, der kræver løbende investeringer og opmærksomhed.

Ofte stillede spørgsmål

Hvorfor kaldes det en "data lake"?
Udtrykket "data lake" bruger en naturlig metafor – ligesom mange strømme strømmer ind i en enkelt sø, flyder data fra flere kilder ind i et centraliseret lager. Som en naturlig sø, der lagrer vand i sin oprindelige tilstand, snarere end filtreret og renset, gemmer en datasø data i sit oprindelige format uden at kræve transformation eller struktur. Metaforen understreger søens evne til at rumme store maengder forskelligartede data i sin ”naturlige” tilstand og blive trukket på til forskellige formål, ligesom vand fra en sø tjener mange formål. Til sammenligning ville et lager have vand, der er filtreret, aftappet og mærket, muligvis endda organiseret efter flaskestørrelse eller pH-balance.
Hvad er et datawarehouse, og hvordan adskiller det sig fra en datasø?
Et datawarehouse er et struktureret lager, mens en datasø er en lagringsmetode, der giver mulighed for indtagelse og lagring af alle typer data, uanset om de er strukturerede eller ustrukturerede. Den vigtigste forskel mellem datasøer og datalagre er i deres tilgang: datalagre anvender schema-on-skrivning (data skal struktureres før lagring), mens datasøer anvender schema-on-read (struktur anvendes, når data tilgås). Lagre er optimeret til kendte rapporteringsbehov og forespørgsler, mens søer understøtter eksplorativ analyse og maskinindlæring af rådata. Tænk på lagre som specialiserede til at besvare specifikke forretningsspørgsmål hurtigt, mens søer er bygget til fleksibilitet, kapacitet og opdage nye spørgsmål at stille.
Hvad er datastyring i en datasø?
Datastyring i en datasø omfatter flere kritiske aktiviteter. Katalogisering og metadatastyring sikrer, at brugerne kan finde og forstå tilgængelige datasæt. Forvaltning fastlægger politikker for dataejerskab, kvalitetsstandarder og adgangskontrol. Adgangsadministration og sporing af oprindelse viser, hvem der har fået adgang til hvilke data, og hvordan de er blevet transformeret eller brugt. Livscyklus- og opbevaringspolitikker bestemmer, hvor længe data opbevares, og hvornår de skal arkiveres eller slettes. Effektiv administration af datasø forhindrer datasøer i at blive uorganiserede "datasumpler&kvot; og reducerer problemer med administration af datasø.
Hvad er en data lakehouse?
En data lakehouse er en moderne arkitektur, der kombinerer fleksibilitet og omkostningseffektivitet af data søer med struktur og ydeevne af datalagre. Lakehouses gør det muligt for organisationer at gemme rådata i sit oprindelige format (som en sø), samtidig med at de understøtter tabellignende strukturer, håndhævelse af skemaer og optimeret forespørgselsperformance (som et lager). Denne fælles tilgang eliminerer behovet for at duplikere data mellem separate sø- og lagersystemer, hvilket forenkler arkitekturen og reducerer omkostningerne, samtidig med at den understøtter både sonderende analyser og forretningsrapportering på samme platform.
Hvad er multi-cloud for data søer?
En multi-cloud datasø spænder over to eller flere cloud-udbydere. Organisationer anvender strategier med flere cloud-løsninger for at undgå leverandørfastlåsning, optimere omkostningerne ved at udnytte de bedste tjenester fra hver udbyder, sikre forretningskontinuitet gennem redundans og opfylde kravene til dataopbevaring i forskellige regioner. Flerskyarkitekturer skaber dog udfordringer omkring datainteroperabilitet, opretholdelse af konsistente sikkerhedspolitikker og styring af dataoverførselsomkostninger mellem skyer.
Hvad er objektlagring i en datasø?
Objektlager er det grundlæggende lagerlag, der indeholder data i en datasø. I modsætning til filsystemer, der organiserer data i hierarkiske mapper, gemmer objektlageret data som individuelle objekter, hver med unikke identifikatorer, metadata og selve dataene. Objektlagring er meget skalerbar og omkostningseffektiv, hvilket gør den ideel til lagring af massive mængder data i indfødte formater.