Vad är datamodellering?

Datamodellering är processen för att diagramma dataflöden.

Översikt över datamodellering

Datamodellering är processen för att diagramma dataflöden. När du skapar en ny eller alternativ databasstruktur börjar designern med ett diagram över hur data kommer att flöda in i och ut ur databasen. Detta flödesdiagram används för att definiera egenskaper för dataformat, strukturer och databashanteringsfunktioner för att effektivt stödja dataflödeskraven. Efter att databasen har byggts och implementerats lever datamodellen vidare för att bli dokumentation och motivering till varför databasen finns och hur dataflödena utformades.

 

Datamodellen som är resultatet av denna process ger ett ramverk av relationer mellan dataelement i en databas samt en guide för användning av data. Datamodeller är ett grundläggande element i mjukvaruutveckling och analys. De ger en standardiserad metod för att definiera och formatera databasinnehåll konsekvent i alla system, vilket gör det möjligt för olika applikationer att dela samma data.

Varför är datamodellering viktigt?

En omfattande och optimerad datamodell hjälper till att skapa en förenklad, logisk databas som eliminerar redundans, minskar lagringsbehoven och möjliggör effektiv hämtning. Det förser också alla system med en ”enda sanningskälla” – vilket är nödvändigt för effektiv drift och påvisbar efterlevnad av bestämmelser och regleringskrav. Datamodellering är ett viktigt steg i två viktiga funktioner i ett digitalt företag.

Mjukvaruutvecklingsprojekt (nya eller anpassningar) utförda av IT-proffs

Innan du designar och bygger ett mjukvaruprojekt måste det finnas en dokumenterad vision om hur slutprodukten kommer att se ut och hur den kommer att bete sig. En stor del av den visionen är de affärsregler som styr den önskade funktionaliteten. Den andra delen är databeskrivningen – dataflödena (eller datamodellen) och databasdesignen som stöder den.

Datamodellering registrerar visionen och ger en färdplan för programvaruutvecklarna. Med databasen och dataflöden som är fullständigt definierade och dokumenterade, och system som utvecklats enligt dessa specifikationer, bör systemen tillhandahålla den förväntade funktionalitet som krävs för att hålla uppgifterna korrekta (förutsatt att förfarandena har följts på rätt sätt.)

Analys och visualisering – eller business intelligence – ett primärt beslutsverktyg för användare

 

Med ökande datavolymer och allt fler användare behöver organisationer ett sätt att omvandla rådata till användbar information för beslutsfattande. Inte förvånande har efterfrågan på dataanalys ökat dramatiskt. Datavisualisering gör data ännu mer tillgängliga för användare genom att presentera data grafiskt.

 

Dagens datamodeller omvandlar rådata till användbar information som kan omvandlas till dynamiska visualiseringar. Datamodellering förbereder data för analys: Rensar data, definierar mått och dimensioner och förbättrar data genom att upprätta hierarkier, ställa in enheter och valutor och lägga till formler.

Vilka typer av datamodellering finns det?

De tre primära datamodelltyperna är relations-, dimensions- och entitetsrelation (E-R). Det finns också flera andra som inte är i allmänt bruk, inklusive hierarkiskt, nätverk, objektorienterat och multivärde. Modelltypen definierar den logiska strukturen – hur data lagras, logiskt – och därmed hur de lagras, organiseras och hämtas.

  1. Relation: Även om den ”äldre” metoden är den vanligaste databasmodellen som fortfarande används idag är relationell, som lagrar data i poster i fast format och ordnar data i tabeller med rader och kolumner. Den mest grundläggande typen av datamodell har två element: mått och dimensioner. Mått är numeriska värden, till exempel kvantiteter och intäkter, som används i matematiska beräkningar som summa eller genomsnitt. Dimensionerna kan vara text eller numeriska. De används inte i beräkningar och inkluderar beskrivningar eller platser. Rådata definieras som ett mått eller en dimension. Annan terminologi som används vid relationsdatabasdesign inkluderar ”relationer” (tabellen med rader och kolumner), ”attribut” (kolumner), ”tuplar” (rader) och ”domän” (uppsättning tillåtna värden i en kolumn). Även om det finns ytterligare termer och strukturella krav som definierar en relationsdatabas, är den viktiga faktorn de relationer som definieras inom den strukturen. Gemensamma dataelement (eller nycklar) länkar tabeller och datauppsättningar tillsammans. Tabeller kan också relateras explicit, som överordnade och underordnade relationer, inklusive en-till-en, en-till-många eller många-till-många.
  2. Dimensionell: Mindre stelbent och strukturerad, dimensionsmetoden gynnar en kontextuell datastruktur som är mer relaterad till affärsanvändning eller kontext. Denna databasstruktur är optimerad för online-frågor och datalagringsverktyg. Kritiska dataelement, till exempel en transaktionskvantitet, kallas ”fakta” och åtföljs av referensinformation som kallas ”dimensioner”, det vill säga detta produkt-ID, enhetspris eller transaktionsdatum. En faktatabell är en primär tabell i en dimensionsmodell. Hämtning kan vara snabb och effektiv – med data för en viss typ av aktivitet lagrad tillsammans – men bristen på relationslänkar kan komplicera analytisk hämtning och användning av data. Eftersom datastrukturen är knuten till den affärsfunktion som producerar och använder data kan det vara problematiskt att kombinera data som produceras av olika system (till exempel i ett datalager).
  3. Entity-Rich (E-R): En E-R-modell representerar en affärsdatastruktur i grafisk form som innehåller rutor av olika former för att representera aktiviteter, funktioner eller "entiteter" och rader för att representera associationer, beroenden eller "relationer". E-R-modellen används sedan för att skapa en relationsdatabas där varje rad representerar en entitet och fälten i den raden innehåller attribut. Som i alla relationsdatabaser används ”nyckeldataelement” för att länka samman tabeller.

Vilka är de tre nivåerna av datauttag?

Det finns många typer av datamodeller, med olika typer av möjliga layouter. Databehandlingsgemenskapen identifierar tre typer av modellering för att representera tankenivåer när modellerna utvecklas.

Konceptuell datamodell

 

Detta är den ”stora bilden”-modellen som representerar den övergripande strukturen och innehållet men inte detaljen i dataplanen. Det är den typiska utgångspunkten för datamodellering och identifierar de olika datauppsättningarna och dataflödet genom organisationen. Den konceptuella modellen är en plan på hög nivå för utveckling av de logiska och fysiska modellerna och är en viktig del av dataarkitekturdokumentationen.

 

Logisk datamodell

 

Den andra detaljnivån är den logiska datamodellen. Den relaterar närmast till den allmänna definitionen av ”datamodell” genom att den beskriver dataflödet och databasinnehållet. Den logiska modellen lägger till detaljer till den övergripande strukturen i den konceptuella modellen men innehåller inte specifikationer för själva databasen eftersom modellen kan tillämpas på olika databastekniker och produkter. (Observera att det kanske inte finns någon konceptuell modell om projektet avser en enda ansökan eller annat begränsat system.)

 

Fysisk datamodell

 

Den fysiska databasmodellen beskriver detaljerna för hur den logiska modellen kommer att realiseras. Det måste innehålla tillräckligt med detaljer för att teknikerna ska kunna skapa den faktiska databasstrukturen i hårdvara och programvara för att stödja de applikationer som kommer att använda den. Naturligtvis är den fysiska datamodellen specifik för ett särskilt databasprogramvarusystem. Det kan finnas flera fysiska modeller härledda från en enda logisk modell om olika databassystem kommer att användas.

Processer och tekniker för datamodellering

Datamodellering är i sig en top-down-process, som börjar med den konceptuella modellen för att etablera den övergripande visionen, sedan gå vidare till den logiska modellen, och slutligen den detaljerade designen i den fysiska modellen.

 

Att bygga den konceptuella modellen är mest en process för att omvandla idéer till en grafisk form som liknar en programmerares flödesschema.

 

Moderna datamodelleringsverktyg kan hjälpa dig att definiera och bygga logiska och fysiska datamodeller och databaser. Här är några typiska datamodelleringstekniker och steg:

  • Bestäm entiteter och skapa ett entitetsrelationsdiagram (ERD). Enheter kan bättre beskrivas som ”dataelement som är av intresse för din verksamhet”. Till exempel skulle ”kund” vara ett företag. “Försäljning” skulle vara en annan. På en ERD dokumenterar du hur dessa olika entiteter relaterar till varandra i din verksamhet och vilka högnivåanslutningar som finns mellan dem.

  • Definiera dina fakta, mått och dimensioner. Ett faktum är den del av dina data som indikerar en viss förekomst eller transaktion, till exempel försäljning av en produkt. Dina mått är kvantitativa, som kvantitet, intäkt, kostnad och så vidare. Dina dimensioner är kvalitativa mått, till exempel beskrivningar, platser och datum.

  • Skapa en länk för datavy med ett grafiskt verktyg eller via SQL-frågor. Om du inte känner till SQL är det grafiska verktyget det mest intuitiva alternativet, så att du kan dra och släppa element i din modell och visuellt bygga dina anslutningar. När du skapar en vy kan du kombinera tabeller och till och med andra vyer till en enda utmatning. När du väljer en källa i den grafiska vyn och drar den ovanpå en källa som redan är associerad med utdata har du möjlighet att antingen koppla eller skapa en union av dessa tabeller.

Moderna analyslösningar kan också hjälpa dig att välja, filtrera och ansluta datakällor med hjälp av en grafisk dra-och-släpp-skärm. Avancerade verktyg är tillgängliga för dataexperter som vanligtvis arbetar med IT – men användare kan också skapa egna storyer genom att visuellt skapa en datamodell och organisera tabeller, diagram, kartor och andra objekt för att berätta en story baserat på datainsikter.

Exempel på datamodellering

För alla applikationer – oavsett om det är företag, underhållning, personliga eller andra – är datamodellering ett nödvändigt tidigt steg för att utforma systemet och definiera den infrastruktur som behövs för att möjliggöra systemet. Detta inkluderar alla typer av transaktionssystem, applikationsgrupper för databearbetning eller andra system som samlar in, skapar eller använder data.

 

Datamodellering är nödvändigt för datalagring eftersom ett datalager är en lagringsplats för data som hämtas från flera källor, som troligen har liknande eller relaterade data i olika format. Det är nödvändigt att först kartlägga lagerformat och struktur för att bestämma hur varje inkommande datauppsättning ska anpassas till lagerdesignens behov – så att data blir användbara för analys och datautvinning. Datamodellen är då en viktig möjliggörare för analysverktyg, exekutiva informationssystem (dashboards), datautvinning och integration med alla datasystem och applikationer.

 

I ett tidigt skede av design för ett system är datamodellering en viktig förutsättning för att alla andra steg och steg är beroende av att etablera den grund som alla program, funktioner och verktyg förlitar sig på. Datamodellen är som ett gemensamt språk som gör det möjligt för system att kommunicera genom sin förståelse och acceptans av data enligt beskrivningen i modellen. Detta är viktigare än någonsin i dagens värld av stordata, maskininlärning, artificiell intelligens, molnkonnektivitet, IoT och distribuerade system inklusive edge computing.

Utveckling av datamodellering

I en mycket verklig mening har datamodellering funnits så länge som databehandling, datalagring och datorprogrammering, även om själva termen troligen bara kom i gemensamt bruk kring den tid som databashanteringssystem började utvecklas under 1960-talet. Det finns inget nytt eller nyskapande med konceptet att planera och arkitektera en ny struktur. Datamodelleringen i sig har blivit mer strukturerad och formaliserad i takt med att mer data, fler databaser och fler varianter av data har vuxit fram.

 

Idag är datamodellering viktigare än någonsin eftersom teknikerna kämpar med nya datakällor (IoT-sensorer, platsmedvetna enheter, klickströmmar, sociala medier) tillsammans med en onrush av ostrukturerade data (text, ljud, video, rå sensorutgång) – vid volymer och hastighet som överstiger de traditionella systemens kapacitet. Det finns nu en ständig efterfrågan på nya system, innovativa databasstrukturer och tekniker och nya datamodeller för att koppla samman denna nya utvecklingsinsats.

Vad händer sedan för datamodellering?

Informationsanslutning och stora mängder data från så många olika källor – inklusive sensorer, röst, video, e-post med mera – utökar omfattningen av modelleringsprojekt för IT-proffs. Internet är naturligtvis en av grundstenarna i denna utveckling. Molnet är en stor del av lösningen eftersom det är den enda datainfrastrukturen som är tillräckligt stor, skalbar och tillräckligt flexibel för att möta nuvarande och framtida krav i den växande världen av konnektivitet.

 

Alternativen för databasdesign ändras också. För ett decennium sedan var den dominerande databasstrukturen en radorienterad relationsdatabas med traditionell disklagringsteknik. Data för en typisk ERP:s huvudbok eller lagerhållning lagrades i dussintals olika tabeller som behöver uppdateras och modelleras. Idag lagrar moderna ERP-lösningar aktiva data i minnet med hjälp av en kolumndesign för en dramatisk minskning av tabeller och ökad hastighet och effektivitet.

 

För yrkesverksamma inom branschen kommer de nya självbetjäningsverktyg som finns tillgängliga idag att fortsätta att förbättras. Och nya verktyg kommer att introduceras för att göra datamodellering och visualisering ännu enklare och mer samverkande.

Sammanfattning

En väl genomtänkt och komplett datamodell är nyckeln till utvecklingen av en verkligt funktionell, användbar, säker och korrekt databas. Börja med den konceptuella modellen för att lägga ut alla komponenter och funktioner i datamodellen. Förfina sedan dessa planer till en logisk datamodell som beskriver dataflödena och förtydligar definitionen av vilka data som behövs och hur de ska hämtas, hanteras, lagras och distribueras. Den logiska datamodellen styr den fysiska datamodell som är specifik för en databasprodukt och är det detaljerade designdokumentet som styr skapandet av databas- och applikationsprogramvaran.

 

God datamodellering och databasdesign är avgörande för utvecklingen av funktionella, tillförlitliga och säkra applikationssystem och databaser som fungerar bra med datalager och analysverktyg – och underlättar datautbyte med affärspartner och mellan flera applikationsgrupper. Väl genomtänkta datamodeller bidrar till att säkerställa dataintegritet, vilket gör ditt företags data ännu mer värdefulla och tillförlitliga.

placeholder

Utforska moderna datamodelleringsverktyg

Anslut data till affärskontext för att ge företagsanvändare tillgång till insikter.

placeholder

Idéer som du inte hittar någon annanstans

Registrera dig för en dos business intelligence som levereras direkt till din inkorg.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel