Na czym polega modelowanie danych?
Modelowanie danych to proces diagramowania przepływów danych.
Przegląd modelowania danych
Modelowanie danych to proces diagramowania przepływów danych. Podczas tworzenia nowej lub alternatywnej struktury bazy danych projektant rozpoczyna od wykresu przepływu danych do i z bazy danych. Ten diagram przepływu służy do definiowania cech formatów danych, struktur i funkcji obsługi baz danych w celu efektywnego zaspokojenia wymagań dotyczących przepływu danych. Po utworzeniu i wdrożeniu bazy danych model danych pozostaje włączony, aby stać się dokumentacją i uzasadnieniem istnienia bazy danych oraz sposobu projektowania przepływów danych.
Model danych, który wynika z tego procesu, zapewnia strukturę relacji między elementami danych w ramach bazy danych oraz przewodnik po wykorzystaniu danych. Modele danych są podstawowym elementem rozwoju i analizy oprogramowania. Zapewniają one standardową metodę definiowania i formatowania zawartości bazy danych w sposób spójny w różnych systemach, umożliwiając różnym aplikacjom współdzielenie tych samych danych.
Dlaczego modelowanie danych jest ważne?
Kompleksowy i zoptymalizowany model danych pomaga stworzyć uproszczoną, logiczną bazę danych, która eliminuje nadmiarowość, zmniejsza wymagania dotyczące przechowywania i umożliwia efektywne pobieranie danych. Wyposaża również wszystkie systemy w „jedno źródło prawdy” – co jest niezbędne do skutecznego działania i udowodnionej zgodności z przepisami i wymogami regulacyjnymi. Modelowanie danych jest kluczowym krokiem w dwóch kluczowych funkcjach przedsiębiorstwa cyfrowego.
Projekty rozwoju oprogramowania (nowe lub dostosowania) wykonywane przez specjalistów IT
Przed zaprojektowaniem i zbudowaniem jakiegokolwiek projektu oprogramowania musi istnieć udokumentowana wizja tego, jak będzie wyglądał produkt końcowy i jak będzie się zachowywał. Dużą częścią tej wizji jest zbiór reguł biznesowych, które regulują pożądaną funkcjonalność. Drugą częścią jest opis danych – przepływy danych (lub model danych) i projekt bazy danych, aby je obsługiwać.
Modelowanie danych rejestruje wizję i zapewnia mapę drogową dla projektantów oprogramowania. Dzięki w pełni zdefiniowanej i udokumentowanej bazie danych i przepływom danych oraz systemom opracowanym zgodnie z tymi specyfikacjami systemy powinny zapewniać oczekiwaną funkcjonalność wymaganą do utrzymania dokładności danych (przy założeniu, że procedury były właściwie przestrzegane).
Analityka i wizualizacja – czyli business intelligence – podstawowe narzędzie decyzyjne dla użytkowników
Wraz z rosnącym wolumenem danych i rosnącą liczbą użytkowników organizacje potrzebują sposobu na przekształcenie nieprzetworzonych danych w przydatne informacje do podejmowania decyzji. Nic dziwnego, że zapotrzebowanie na analitykę danych gwałtownie wzrosło. Wizualizacja danych sprawia, że dane są jeszcze bardziej dostępne dla użytkowników, prezentując je w formie graficznej.
Dzisiejsze modele danych przekształcają niesformatowane dane w przydatne informacje, które można przekształcić w dynamiczne wizualizacje. Modelowanie danych przygotowuje dane do analizy: czyszczenie danych, definiowanie miar i wymiarów oraz rozszerzanie danych poprzez ustanawianie hierarchii, ustawianie jednostek i walut oraz dodawanie formuł.
Jakie są typy modelowania danych?
Trzy główne typy modeli danych to relacyjny, wymiarowy i encji (E-R). Istnieje również kilka innych, które nie są w ogólnym użyciu, w tym hierarchiczne, sieciowe, obiektowe i wielowartościowe. Typ modelu definiuje strukturę logiczną – logicznie sposób przechowywania danych oraz sposób ich przechowywania, organizowania i wywoływania.
- Relacyjne: Chociaż „starsze” w podejściu, najczęstszym modelem bazy danych nadal w użyciu jest relacyjny, który przechowuje dane w rekordach o stałym formacie i rozmieszcza dane w tabelach z wierszami i kolumnami. Najbardziej podstawowy typ modelu danych ma dwa elementy: miary i wymiary. Miary to wartości numeryczne, takie jak ilości i przychody, używane w obliczeniach matematycznych, takich jak suma lub średnia. Wymiary mogą być tekstowe lub numeryczne. Nie są one używane w obliczeniach i zawierają opisy ani lokalizacje. Nieprzetworzone dane są zdefiniowane jako miara lub wymiar. Inna terminologia stosowana w projektowaniu relacyjnej bazy danych obejmuje „relacje” (tabela z wierszami i kolumnami), „atrybuty” (kolumny), „krotki” (wiersze) i „domenę” (zbiór wartości dozwolonych w kolumnie). Chociaż istnieją dodatkowe warunki i wymagania strukturalne, które definiują relacyjną bazę danych, ważnym czynnikiem są relacje zdefiniowane w tej strukturze. Wspólne elementy danych (lub klucze) łączą ze sobą tabele i zbiory danych. Tabele mogą być również powiązane jawnie, takie jak relacje nadrzędne i podrzędne, w tym jeden do jednego, jeden do wielu lub wiele do wielu.
- Wymiar: mniej sztywne i ustrukturyzowane podejście wymiarowe sprzyja strukturze danych kontekstowych, która jest bardziej powiązana z wykorzystaniem biznesowym lub kontekstem. Ta struktura bazy danych jest zoptymalizowana pod kątem zapytań online i narzędzi hurtowni danych. Krytyczne elementy danych, takie jak na przykład ilość transakcji, nazywane są „faktami” i dołączane są do nich informacje referencyjne o nazwie „wymiary”, takie jak ID produktu, cena jednostkowa lub data transakcji. Tabela faktów jest tabelą podstawową w modelu wymiarowym. Odtwarzanie może być szybkie i wydajne – z danymi dla określonego rodzaju aktywności przechowywanymi razem – ale brak powiązań może skomplikować analityczne pobieranie i wykorzystanie danych. Ponieważ struktura danych jest powiązana z funkcją biznesową, która generuje i wykorzystuje dane, łączenie danych wytwarzanych przez różne systemy (na przykład w hurtowni danych) może być problematyczne.
- Entity-Rich (E-R): Model E-R reprezentuje strukturę danych biznesowych w formie graficznej, zawierającą pola o różnych kształtach reprezentujące czynności, funkcje lub „podmioty” i linie reprezentujące powiązania, zależności lub „relacje”. Model E-R jest następnie używany do tworzenia relacyjnej bazy danych z każdym wierszem reprezentującym jednostkę, a pola w tym wierszu zawierają atrybuty. Podobnie jak we wszystkich relacyjnych bazach danych, „kluczowe” elementy danych są używane do łączenia tabel.
Jakie są trzy poziomy abstrakcji danych?
Istnieje wiele typów modeli danych, z różnymi typami możliwych układów. Społeczność przetwarzająca dane określa trzy rodzaje modelowania, które reprezentują poziomy myślenia w miarę opracowywania modeli.
Model danych koncepcyjnych
Jest to model „dużego obrazu”, który przedstawia ogólną strukturę i zawartość, ale nie szczegóły planu danych. Jest to typowy punkt wyjścia dla modelowania danych, identyfikujący różne zbiory danych i przepływ danych w ramach organizacji. Model koncepcyjny jest ogólną koncepcją rozwoju modeli logicznych i fizycznych i stanowi ważną część dokumentacji architektury danych.
Logiczny model danych
Drugi poziom szczegółowości jest logicznym modelem danych. Najściślej odnosi się do ogólnej definicji „modelu danych”, ponieważ opisuje przepływ danych i zawartość bazy danych. Model logiczny dodaje szczegóły do ogólnej struktury w modelu koncepcyjnym, ale nie zawiera specyfikacji dla samej bazy danych, ponieważ model może być stosowany do różnych technologii i produktów baz danych. (Należy pamiętać, że nie może istnieć model koncepcyjny, jeśli projekt odnosi się do jednej aplikacji lub innego ograniczonego systemu).
Fizyczny model danych
Fizyczny model bazy danych opisuje specyfikę sposobu realizacji modelu logicznego. Musi zawierać wystarczająco dużo szczegółów, aby technolodzy mogli stworzyć rzeczywistą strukturę bazy danych w sprzęcie i oprogramowaniu do obsługi aplikacji, które będą z niego korzystać. Nie trzeba dodawać, że fizyczny model danych jest specyficzny dla wyznaczonego systemu oprogramowania bazodanowego. Może istnieć wiele modeli fizycznych wyprowadzonych z jednego modelu logicznego, jeśli używane będą różne systemy bazy danych.
Proces i techniki modelowania danych
Modelowanie danych jest z natury procesem góra-dół, zaczynając od modelu koncepcyjnego w celu ustalenia ogólnej wizji, a następnie przechodząc do modelu logicznego, a na koniec do szczegółowego projektu zawartego w modelu fizycznym.
Budowanie modelu koncepcyjnego jest głównie procesem przekształcania pomysłów w formę graficzną, która przypomina schemat blokowy programisty.
Nowoczesne narzędzia do modelowania danych mogą pomóc w definiowaniu i tworzeniu logicznych i fizycznych modeli danych oraz baz danych. Oto kilka typowych technik i kroków modelowania danych:
Określ encje i utwórz diagram relacji encji (ERD). Podmioty można lepiej opisać jako „dane będące przedmiotem zainteresowania Twojej firmy”. Na przykład „klientem” byłby podmiot. „Sprzedaż” byłaby kolejna. W ERD dokumentujesz, w jaki sposób te różne encje odnoszą się do siebie nawzajem w Twojej firmie i jakie powiązania wysokiego poziomu istnieją między nimi.
Zdefiniuj swoje fakty, miary i wymiary. Fakt jest częścią Twoich danych, która wskazuje na określone wystąpienie lub transakcję, taką jak sprzedaż produktu. Twoje miary są ilościowe, takie jak ilość, przychód, koszt itd. Twoje wymiary są miarami jakościowymi, takimi jak opisy, lokalizacje i daty.
Utwórz łącze widoku danych za pomocą narzędzia graficznego lub zapytań SQL. Jeśli nie znasz SQL, narzędzie graficzne jest najbardziej intuicyjną opcją, która pozwala przeciągnąć i upuścić elementy do modelu i wizualnie zbudować połączenia. Podczas tworzenia widoku można połączyć tabele, a nawet inne widoki w jeden wynik. Gdy wybierzesz źródło w widoku graficznym i przeciągniesz je na źródło już powiązane z wynikiem, będziesz mieć możliwość połączenia lub utworzenia sumy tych tabel.
Nowoczesne rozwiązania analityczne mogą również pomóc w wyborze, filtrowaniu i łączeniu źródeł danych za pomocą graficznego wyświetlania typu „przeciągnij i upuść”. Zaawansowane narzędzia są dostępne dla ekspertów ds. danych pracujących zazwyczaj w IT, ale użytkownicy mogą również tworzyć własne raporty, tworząc wizualnie model danych i organizując tabele, wykresy, mapy i inne obiekty w celu przedstawienia raportu na podstawie analiz danych.
Przykłady modelowania danych
Modelowanie danych dla każdej aplikacji – biznesowej, rozrywkowej, osobistej lub innej – jest niezbędnym wczesnym etapem projektowania systemu i definiowania infrastruktury niezbędnej do jego uruchomienia. Obejmuje to wszelkiego rodzaju system transakcyjny, zestaw lub pakiet aplikacji do przetwarzania danych bądź każdy inny system, który gromadzi, tworzy lub wykorzystuje dane.
Modelowanie danych jest niezbędne dla hurtowni danych, ponieważ hurtownia danych jest repozytorium danych pochodzących z wielu źródeł, które prawdopodobnie mają podobne lub powiązane dane w różnych formatach. Konieczne jest najpierw odwzorowanie formatów i struktury magazynu w celu określenia sposobu manipulowania każdym przychodzącym zbiorem danych w celu dostosowania go do potrzeb projektu magazynu – tak, aby dane były przydatne do analizy i eksploracji danych. Model danych jest wówczas ważnym czynnikiem umożliwiającym tworzenie narzędzi analitycznych, systemów informacyjnych (kokpitów menedżerskich), eksploracji danych oraz integracji z dowolnymi systemami i aplikacjami danych.
Na wczesnych etapach projektowania każdego systemu modelowanie danych jest kluczowym warunkiem wstępnym, od którego zależą wszystkie pozostałe etapy i etapy w celu ustanowienia podstawy, na której opierają się wszystkie programy, funkcje i narzędzia. Model danych jest jak wspólny język, który pozwala systemom komunikować się poprzez zrozumienie i akceptację danych, jak opisano w modelu. Jest to ważniejsze niż kiedykolwiek w dzisiejszym świecie Big Data, uczenia maszynowego, sztucznej inteligencji, łączności w chmurze, IoT i systemów rozproszonych, w tym obliczeń brzegowych.
Ewolucja modelowania danych
W bardzo realnym znaczeniu modelowanie danych trwało tak długo, jak długo przetwarzanie danych, przechowywanie danych i programowanie komputerowe, chociaż samo określenie prawdopodobnie weszło w powszechne zastosowanie dopiero w czasie, gdy systemy zarządzania bazami danych zaczęły ewoluować w latach 60. Nie ma nic nowego ani nowatorskiego w koncepcji planowania i architektury nowej struktury. Samo modelowanie danych stało się bardziej ustrukturyzowane i sformalizowane, ponieważ pojawiło się więcej danych, więcej baz danych i więcej odmian danych.
Modelowanie danych jest dziś ważniejsze niż kiedykolwiek wcześniej, ponieważ technolodzy zmagają się z nowymi źródłami danych (czujniki IoT, urządzenia uwzględniające lokalizację, strumienie kliknięć, media społecznościowe) wraz z nagromadzeniem nieustrukturyzowanych danych (tekst, dźwięk, wideo, surowe wyjście czujników) – przy wolumenach i prędkościach, które przekraczają możliwości tradycyjnych systemów. Obecnie istnieje stałe zapotrzebowanie na nowe systemy, innowacyjne struktury i techniki baz danych oraz nowe modele danych, aby połączyć te nowe wysiłki rozwojowe.
Co dalej z modelowaniem danych?
Łączność z informacjami i duże ilości danych z tak wielu różnych źródeł – w tym czujników, głosu, wideo, poczty elektronicznej i innych – rozszerzają zakres projektów modelowania dla specjalistów IT. Internet jest oczywiście jednym z czynników sprzyjających tej ewolucji. Chmura jest główną częścią rozwiązania, ponieważ jest to jedyna infrastruktura obliczeniowa wystarczająco duża, wystarczająco skalowalna i wystarczająco elastyczna, aby sprostać obecnym i przyszłym wymaganiom w rozwijającym się świecie łączności.
Zmieniają się również opcje projektowania baz danych. Dekadę temu dominującą strukturą bazy danych była relacyjna baza danych zorientowana na wiersze, wykorzystująca tradycyjną technologię pamięci dyskowej. Dane dla typowej Księgi Głównej ERP lub zarządzania zapasami zostały zapisane w dziesiątkach różnych tabel, które wymagają aktualizacji i modelowania. Współcześnie nowoczesne rozwiązania ERP przechowują aktywne dane w pamięci, wykorzystując kolumnową konstrukcję umożliwiającą radykalną redukcję tabel oraz zwiększenie szybkości i wydajności.
W przypadku specjalistów branżowych nowe narzędzia samoobsługowe dostępne dziś będą nadal udoskonalane. Zostaną wprowadzone nowe narzędzia, które ułatwią modelowanie i wizualizację danych i zwiększą współpracę.
Podsumowanie
Dobrze przemyślany i kompletny model danych jest kluczem do stworzenia prawdziwie funkcjonalnej, użytecznej, bezpiecznej i dokładnej bazy danych. Zacznij od modelu koncepcyjnego, aby określić wszystkie składniki i funkcje modelu danych. Następnie dopracuj te plany w logiczny model danych, który opisuje przepływy danych i wyjaśnia, jakie dane są potrzebne oraz w jaki sposób będą one pozyskiwane, przetwarzane, przechowywane i dystrybuowane. Logiczny model danych napędza fizyczny model danych, który jest specyficzny dla produktu bazy danych i jest szczegółowym dokumentem projektowym, który prowadzi do tworzenia bazy danych i oprogramowania aplikacji.
Dobre modelowanie danych i projektowanie baz danych są niezbędne do rozwoju funkcjonalnych, niezawodnych i bezpiecznych systemów aplikacyjnych i baz danych, które dobrze współpracują z hurtowniami danych i narzędziami analitycznymi – i ułatwiają wymianę danych z partnerami biznesowymi oraz między wieloma zestawami aplikacji. Dobrze przemyślane modele danych pomagają zapewnić integralność danych, czyniąc dane firmy jeszcze bardziej wartościowymi i wiarygodnymi.
Poznaj nowoczesne narzędzia do modelowania danych
Połącz dane z kontekstem biznesowym, aby umożliwić użytkownikom biznesowym uzyskanie wglądu w dane.
Pomysłów nie znajdziesz nigdzie indziej
Zarejestruj się, aby otrzymać dawkę rozwiązań Business Intelligence dostarczanych bezpośrednio na Twoją skrzynkę odbiorczą.