Co to jest siatka danych?
Siatka danych to podejście do zarządzania danymi, które wykorzystuje rozproszoną strukturę architektoniczną.
default
{}
default
{}
primary
default
{}
secondary
Przegląd siatki danych
Siatka danych stanowi nowy sposób przeglądania informacji. Z rosnącej koncepcji wynika, że dane są w rzeczywistości produktem, narzędziem, środkiem do końca — a nie tylko czymś, co firmy gromadzą i analizują później, próbując zrozumieć rzeczy, które już się wydarzyły.
Definicja siatki danych
Siatka danych to podejście do zarządzania danymi, które wykorzystuje rozproszoną strukturę architektoniczną. Innymi słowy, przenosi odpowiedzialność za określone zbiory danych na użytkowników posiadających specjalistyczną wiedzę, aby zrozumieć, co te dane oznaczają i jak najlepiej je wykorzystać.
Architektura siatki danych łączy i czerpie dane z różnych źródeł, takich jak jeziora danych i magazyny. Następnie rozdziela odpowiednie zbiory danych do odpowiednich ekspertów ludzkich i zespołów dziedzinowych w całej firmie. Zasadniczo obszerny zbiór danych w centralnym jeziorze danych jest sortowany i rozdzielany na możliwe do zarządzania kawałki do tych, które najlepiej nadają się do ich zrozumienia i wykorzystania.
Pochodzenie siatki danych
Siatka danych powstała około 2009 roku w odpowiedzi na wyzwania związane ze skalowaniem architektur danych w dużych, złożonych organizacjach. Podstawową ideą siatki danych jest decentralizacja własności i architektury danych, traktowanie danych jako produktu i przypisywanie odpowiedzialności zespołom zorientowanym na domenę. Siatka danych łączy zasady z zakresu projektowania opartego na domenach, myślenia o produktach i samoobsługowej infrastruktury, umożliwiając organizacjom skalowanie systemów danych bez tworzenia monolitycznych wąskich gardeł.
Scentralizowane modele zarządzania danymi często kończą się niepowodzeniem w dużych organizacjach z powodu:
- Wąskie gardła w realizacji: pojedynczy centralny zespół staje się przeciążony, co spowalnia dostęp do danych i analitykę.
- Luki we własności: Brak jasnej odpowiedzialności za jakość danych w różnych dziedzinach powoduje niespójne standardy i problemy związane z zaufaniem.
- Problemy ze skalowalnością: wraz ze wzrostem wolumenu i złożoności danych scentralizowane systemy mają trudności z skalowaniem bez ogromnych kosztów pośrednich.
- Słaba wiedza w danej dziedzinie: centralne zespoły nie mają dogłębnego zrozumienia domen biznesowych, co prowadzi do niskiej jakości lub niezgodnych produktów obsługujących dane.
- Ograniczona elastyczność: zmiany wymagające koordynacji dzięki jednemu zespołowi spowalniają reagowanie na zmieniające się potrzeby biznesowe.
Korzyści z siatki danych
Dotychczasowe bazy danych i ograniczona infrastruktura zarządzania danymi przyczyniły się do tego, że dane mają być przechowywane w jednym skarbcu i pomijane według uznania kilku menedżerów danych. Teraz dane są paliwem napędzającym Twój biznes; powinny być przekazywane swobodnie tym specjalistom, którzy najlepiej wiedzą, jak to zrobić i zwiększyć zysk w czasach konkurencyjnych.
Główne zalety architektury siatki danych można podsumować w trzech kategoriach:
Skalowalność i elastyczność
Większa dostępność danych: Siatka danych zapewnia, że wszystkie właściwe osoby w całej organizacji mogą uzyskać dostęp do potrzebnych im danych — aby być absolutnie najlepszym na swoich stanowiskach.
Konfigurowalne potoki danych i procesy: Wiele najlepszych i potencjalnie najbardziej dochodowych projektów jest na półce ze względu na ogromny kłopot z zakrzywieniem unikalnych i dostosowanych zbiorów danych niezbędnych do osiągnięcia sukcesu. Dzięki siatce danych zespoły mogą szybko uzyskać dostęp i przetestować nowe modele projektów bez tradycyjnej utraty czasu i zasobów.
Ograniczone wąskie gardła: jest to oczywiste zwycięstwo dla zespołów IT i właścicieli danych. Ponadto ograniczając źródło frustracji i irytacji firmy mogą pomóc w przełamaniu silosów, które stoją na drodze do zdrowego rozwoju biznesu.
Jakość i zaufanie
Ulepszone funkcje analityczne: gdy organizacje postrzegają dane jako produkt, który będzie używany codziennie, zespoły zaczynają stosować podejście do planowania i strategii jako pierwsze z danymi. Prowadzi to do zmniejszenia liczby błędów i bardziej obiektywnego, mniej opiniotwórczego podejścia do rozwoju biznesu.
Współpraca międzydomenowa i ponowne wykorzystanie
Zmniejszone obciążenie centralnych zespołów ds. zarządzania danymi: Oznacza to nie tylko zmniejszenie zaległości i frustracji, ale także uwolnienie niezliczonych godzin dla Twoich utalentowanych zespołów IT, aby poświęcić się bardziej wyspecjalizowanym, interesującym i dochodowym postępom.
Dzięki decentralizacji własności i traktowaniu danych jako produktu, siatka danych umożliwia organizacjom szybsze działanie, budowanie zaufania do wglądu i płynne skalowanie we wszystkich domenach.
Podstawowe zasady siatki danych
Kiedy mówimy o jeziorach danych i siatce danych, mówimy zasadniczo o Big Data. To, co sprawia, że dane są „duże”, nie jest po prostu ich ogromnym wolumenem. Wśród innych kryteriów duże zbiory danych definiuje się również jako złożone, zmienne, szybko generowane i nieustrukturyzowane.
Liniowa baza danych jest jak arkusz kalkulacyjny: zawiera kolumny i wiersze oraz niezmienne kategorie, do których muszą pasować wszystkie komponenty danych. Niektóre dane generowane przez maszyny, czujniki i źródła przemysłowe są uporządkowane i starannie wpisują się w liniową bazę danych. Bez względu na to, ile wolumenu danych masz do czynienia, jeśli jest w 100% ustrukturyzowany, nie spełnia kryteriów big data i może być przechowywany w liniowej bazie danych, co czyni go stosunkowo prostym do filtrowania i ekstrakcji.
Ale coraz częściej nowoczesne big data są nieustrukturyzowane i składają się z elementów wizualnych, otwartego tekstu, a nawet wideo i bogatych mediów. Te kluczowe dane mogą składać się z tysięcy terabajtów informacji dla wielu firm i po prostu nie mogą być przechowywane w standardowej liniowej bazie danych.
Wprowadź jezioro danych. Wraz ze wzrostem wolumenów dużych zbiorów danych opracowano jeziora danych jako miejsce, w którym można było przechowywać złożone dane i uzyskiwać do nich dostęp z centralnego repozytorium w jego formacie surowym. Chociaż jeziora danych stanowią doskonałe rozwiązanie problemu dużych zbiorów danych, to jednak mają one słabe strony. Laki danych nie mają pewnych funkcji analitycznych, co sprawia, że są one zależne od innych usług wyszukiwania, indeksowania, transformacji, tworzenia zapytań i funkcji analitycznych.
Cztery zasady siatki danych odpowiadają wyzwaniom związanym z jeziorami danych:
1. Własność domeny
Własność w jeziorach danych jest złożona, aby określić, kiedy zbyt wielu graczy generuje i uzyskuje dostęp do danych. W przypadku braku jasno zdefiniowanych ról i obowiązków, ten sam zbiór danych może być zarządzany w różny sposób przez różne strony, tworząc niespójności, które utrudniają ich wykorzystanie. Podobnie, inne dane są zaniedbywane, gdy nie są aktywnie zarządzane przez tych, którzy ostatecznie będą z nich korzystać.
Architektura Data Mesh rozwiązuje ten problem poprzez decentralizację własności. Zapewnia, że nadzór nad danymi jest wyraźnie dystrybuowany przez domenę, tak aby każdy zespół lub ekspert domeny zarządzał danymi, które tworzą i wykorzystują. W tym celu siatki danych wykorzystują również sfederowaną strukturę nadzoru, aby umożliwić centralną kontrolę modelowania danych, polityk bezpieczeństwa i zgodności z przepisami. Własność siatki danych tworzy odpowiedzialność i poprawia użyteczność danych.
2. Dane jako produkt
Laki danych mogą nie zapewnić jakości danych, gdy ich ilość stanie się zbyt duża lub gdy centralni menedżerowie danych nie będą ich rozumieć. Architektura siatki danych zasadniczo traktuje dane jako cenny produkt, który stawia jakość i kompletność danych na pierwszym miejscu w zarządzaniu danymi. Przypuszczalnie każdy zespół zna najważniejsze kryteria i kwestie, które chcą ekstrapolować z danych, które gromadzą. Dzięki zintegrowaniu tych kryteriów i priorytetów z architekturą, siatka danych może pomóc zapewnić ciągłe i priorytetowe dostarczanie czystych, świeżych i kompletnych danych, nawet jeśli zaangażowane są większe zbiory danych. I oczywiście, gdy stosowane są algorytmy uczenia maszynowego, te kryteria i wynikowe zbiory danych stają się coraz dokładniejsze i przydatne w miarę upływu czasu.
3. Samoobsługowa platforma danych
Laki danych mogą tworzyć wąskie gardła ze względu na scentralizowaną architekturę oraz tradycyjnie trudne procesy i protokoły pozyskiwania danych. Oznacza to zazwyczaj, że kontrola dużej ilości skonsolidowanych danych sprowadza się do jednego zespołu IT lub zespołu ds. zarządzania danymi. W miarę wzrostu ilości danych (i popytu na ich pozyskiwanie) te zespoły IT podlegają nadmiernemu opodatkowaniu.
Ponadto dane muszą zostać odpowiednio zweryfikowane i ustrukturyzowane, aby zapewnić zgodność z zasadami nadzoru nad danymi i ich przestrzeganie. W obliczu nadmiernej presji może wystąpić tendencja do przechodzenia przez te etapy zgodności, co generuje potencjalne ryzyko i straty dla firmy. Zasady siatki danych rozwiązują ten problem, umożliwiając samodzielną platformę danych. Daje dostęp i kontrolę autoryzowanym wyspecjalizowanym użytkownikom, którzy mają większy interes w danych - wszystko to przy użyciu rygorystycznych, wbudowanych protokołów bezpieczeństwa. Zmniejsza to wąskie gardła i przyspiesza dostarczanie danych.
4. Sfederowane zarządzanie
Podczas gdy decentralizacja ma kluczowe znaczenie, organizacje nie mogą zrezygnować z zarządzania. Siatka danych wykorzystuje model federacji nadzoru w celu zrównoważenia autonomii ze spójnością. Oznacza to, że domeny zarządzają własnymi produktami obsługującymi dane, ale muszą przestrzegać wspólnych standardów bezpieczeństwa, zgodności i interoperacyjności w całej organizacji. To hybrydowe podejście do zarządzania siatką danych zapewnia elastyczność bez poświęcania zaufania i przestrzegania przepisów.
Podczas gdy istnieją wyzwania związane z siatką danych, zdecentralizowana i zdemokratyzowana architektura zarządzania danymi sprawiła, że firmy stały się bardziej inteligentne, elastyczne i dokładniejsze. Jak? Zapewniając, że właściwe dane są natychmiast dostępne dla właściwych osób, gdziekolwiek i kiedy ich potrzebują. Siatka danych sprawia, że dane jako produkt stają się rzeczywistą rzeczywistością, zmniejszając bariery i nadając priorytet wartości informacjom, tak aby zespoły mogły szybciej uzyskać niezakłócony dostęp do niezbędnych danych.
Architektura i struktury siatki danych
Omówiliśmy, jak siatka danych jest zdecentralizowaną formą architektury danych, która traktuje dane jako niezbędne narzędzie do zarządzania przedsiębiorstwem. Co ważne, w jaki sposób niezależne zespoły są odpowiedzialne za przetwarzanie danych w swoich dziedzinach pracy i wiedzy specjalistycznej, jednocześnie zapewniając zgodność z centralnie ustalonymi praktykami zarządzania danymi. Ta zmiana sposobu myślenia leży u podstaw siatki danych.
Widok z lotu ptaka na architekturę siatki danych
W siatce danych domeny są głównymi producentami i odbiorcami danych, z których każdy posiada swoje dane jako produkt w celu zapewnienia jakości i istotności. Platforma samoobsługowa zapewnia infrastrukturę do publikowania, odkrywania i korzystania z tych produktów obsługujących dane, a także zautomatyzowane funkcje bezpieczeństwa i zgodności z przepisami. Nadzór działa w modelu federacyjnym, równoważąc globalne standardy interoperacyjności i bezpieczeństwa z lokalną autonomią, dzięki czemu domeny mogą wprowadzać innowacje przy jednoczesnym utrzymaniu zaufania i spójności w całej organizacji.
Aby lepiej zrozumieć, jak architektura siatki danych pasuje do siebie, przeanalizujmy trzy główne komponenty.
Źródła danych
Reprezentują one repozytorium – jak jezioro danych – do którego wprowadzane są pierwotne dane niesformatowane. Niezależnie od tego, czy są zbierane z sieci w chmurze IIoT, formularzy informacji zwrotnych od klientów, czy zezłomowanych danych internetowych, są to surowe dane wejściowe, do których użytkownicy będą odwoływać się i przetwarzać w zależności od potrzeb w całej sieci. Podczas gdy podejście Data Lake wysyła wszystkie te dane do jednego centralnego miejsca, metodyka siatki danych rozdziela odpowiedzialność za przyjmowanie, przechowywanie, przetwarzanie i ekstrakcję tych niesformatowanych danych w szeregu odpowiedzialnych domen.
Infrastruktura siatki danych
Informacje nie są odizolowane wyłącznie w ramach poszczególnych dziedzin działu, ale mogą być również udostępniane w całej sieci operacyjnej organizacji, przy jednoczesnym zachowaniu zgodności z ustalonymi wytycznymi dotyczącymi zarządzania danymi. Jest to bezpośredni wynik dwóch kluczowych filarów siatki danych: samoobsługowej platformy danych i federacyjnego zarządzania. Samoobsługowa platforma danych zapewnia narzędzia i infrastrukturę potrzebne każdej domenie do powszechnego pozyskiwania, przekształcania, przetwarzania i obsługi swoich danych. W międzyczasie federacyjne zasady nadzoru zapewniają standaryzację w całej organizacji, umożliwiając łatwą interoperacyjność danych między wszystkimi zespołami domeny.
Właściciele danych
Jako końcowy składnik siatki danych, właściciele danych są odpowiedzialni za stosowanie protokołów zgodności, nadzoru i kategoryzacji danych swoich działów. Na przykład pliki HR muszą być przechowywane przy użyciu określonych protokołów bezpieczeństwa, nie mogą być używane do tego lub w tym celu, muszą być udostępniane tylko takiemu i takiej osobie. Oczywiście każdy dział będzie miał kategorie i typy danych unikalne dla swojego działu lub celów. W systemie Data Lake zespoły IT muszą korzystać ze wszystkich tych różnych protokołów i kategorii dla wszystkich właścicieli danych, którzy wrzucili rzeczy do jeziora. Podczas gdy architektura siatki danych daje właścicielom domen pełną władzę i kontrolę nad tymi sprawami, ponieważ znowu, kto lepiej niż eksperci w danej dziedzinie do zarządzania własnymi danymi i zapewnienia, że spełniają one standardy jakości?
Model operacyjny siatki danych
Model operacyjny siatki danych łączy w sobie ludzi, procesy i technologię, aby umożliwić zdecentralizowane zarządzanie danymi na dużą skalę. Współpraca ta zapewnia płynny przepływ danych w całej organizacji, zwiększając zaufanie, elastyczność i ponowne wykorzystanie bez konieczności korzystania z jednego scentralizowanego zespołu. Siatka danych umożliwia interoperacyjność i wykrywalność poprzez egzekwowanie wspólnych standardów i zapewnienie wspólnej platformy, spójnych formatów i terminów wyszukiwania oraz zasad zarządzania publikowaniem i wykorzystywaniem produktów obsługujących dane. Narzędzia siatki danych, takie jak katalogi i rejestry danych, umożliwiają zespołom szybkie znajdowanie, bezpieczny dostęp do produktów obsługujących dane i korzystanie z nich w całej organizacji.
Pomyśl o siatce danych jako o nowoczesnym mieście: każda dzielnica (domena) zarządza własnymi narzędziami i usługami — takimi jak woda, prąd i odpady — ponieważ najlepiej znają swoje lokalne potrzeby. Miasto zapewnia wspólną infrastrukturę, taką jak drogi i transport publiczny (platforma samoobsługowa) i standardy bezpieczeństwa (nadzór), dzięki czemu dzielnice mogą łączyć się, uzyskiwać dostęp do zasobów miasta i współpracować bez chaosu. W ten sposób zasoby przepływają swobodnie po całym mieście, każdy przestrzega wspólnych zasad, a innowacje rozwijają się lokalnie, podczas gdy całe miasto funkcjonuje sprawnie.
Siatka danych w praktyce: przykłady i przypadki użycia
Aby rozwiązania do zarządzania danymi ewoluowały i odnosiły większe sukcesy, muszą być użyteczne i odpowiednie dla szerokiego zakresu aplikacji i operacji. Wraz z poprawą architektury siatki danych i przyjaznością dla użytkownika obserwujemy zwiększony zakres funkcji biznesowych, które organizacje mogą zwiększyć dzięki bezpiecznemu i rozproszonemu podejściu do danych jako produktowi i narzędziu.
Przejrzyjmy kilka typowych biznesowych przypadków użycia siatki danych.
Sprzedaż
W przypadku zespołów sprzedażowych wszystko sprowadza się do pozyskiwania, pielęgnowania i zamykania potencjalnych szans. Im więcej czasu członkowie zespołu sprzedażowego spędzają w biurkach wykonując zadania administracyjne, tym mniej czasu muszą budować relacje z nowymi klientami. Dzięki architekturze siatki danych użytkownicy zespołów sprzedażowych nie muszą być ekspertami w zakresie zarządzania danymi i pozyskiwania danych, aby mieć najpotężniejsze i najbardziej odpowiednie zbiory danych i kombinacje na wyciągnięcie ręki. Gdy działy sprzedaży mają wszystkie odpowiednie dane do analizy, przekłada się to na bardziej praktyczne analizy i strategie.
Przykład siatki danych sprzedaży: regionalne lub specyficzne dla produktu zespoły sprzedaży mogą być właścicielami swoich domen danych CRM i lejka sprzedaży, umożliwiając dokładne prognozowanie i kokpity w czasie rzeczywistym bez czekania na centralny zespół IT.
Łańcuch dostaw i logistyka
Nowoczesne łańcuchy dostaw są narażone na ogromny zakres zakłóceń. Przewaga konkurencyjna pojawia się wtedy, gdy firmy mogą szybko reagować na zagrożenia i szanse z zachowaniem jednakowej elastyczności. Dzisiejsze dane o globalnym łańcuchu dostaw pojawiają się szybko i szybko — od informacji zwrotnych od klientów po sieci IIoT i cyfrowe bliźniaki. Gdy doświadczeni i doświadczeni menedżerowie łańcucha dostaw sami są w stanie pozyskać i rozwinąć dowolny z tych zbiorów danych w czasie rzeczywistym, firmy zyskują potężne źródło informacji i wyczucia.
Przykład siatki danych łańcucha dostaw: Optymalizacja łańcucha dostaw wymaga wglądu w czasie rzeczywistym w poziomy zapasów, wydajność dostawców i dane logistyczne. Siatka danych daje każdej dziedzinie — zaopatrzenie, magazynowanie, transport — własność swoich produktów obsługujących dane, umożliwiając szybsze podejmowanie decyzji i opłacalne operacje.
Produkcja
W ramach łańcucha dostaw operacje produkcyjne firmy są równie podatne na szybkie zmiany rynkowe i zmienne wymagania klientów. W przeszłości zespoły projektowe i badawczo-rozwojowe musiałyby polegać na historycznych danych klientów, przekazywanych im z innych działów. Dziś siatka danych zapewnia użytkownikom dostęp na żywo do danych za tabelą redakcyjną, na zespołach badawczo-rozwojowych i testowych, a także przez całą drogę do hali produkcyjnej. Informacje zwrotne od klientów w czasie rzeczywistym mogą błyskawicznie informować o rozwoju produktów, a aktualne informacje z sieci IIoT i symulacji cyfrowych mogą pomóc fabrykom działać bezpieczniej, szybciej i wydajniej.
Przykład siatki danych produkcyjnych: zespoły na poziomie zakładu mogą posiadać dane dotyczące wydajności czujników i maszyn, umożliwiając konserwację predykcyjną i skracając czas przestojów dzięki zdecentralizowanym analizom.
Marketing
Obecnie wymagania i oczekiwania klientów kształtują przyszłość, zmieniają się i rosną w niespotykanym dotąd tempie. Jedna marka zazwyczaj ma niezliczone punkty kontaktu z konsumentami w mediach społecznościowych, ukierunkowane reklamy cyfrowe oraz portale zakupowe online i omnikanałowe. Obecny rynek widzi rosnące pragnienie szybkiej personalizacji, krótszych cykli życia produktów oraz ogromnych poziomów wyboru i konkurencji. Aby zrozumieć i wyprzedzić te trendy, współczesni specjaliści ds. marketingu potrzebują w czasie rzeczywistym i jednoczesnego dostępu do szerokiej gamy zbiorów danych. W przeszłości oznaczało to żądanie (i oczekiwanie na) tych danych z innych działów. W przypadku konfiguracji siatki danych marketerzy mogą jednak w danym momencie, na własnych warunkach, korzystać z tych danych i uzyskiwać do nich dostęp.
Przykład siatki danych marketingowych: budowanie widoku 360 klientów wymaga zintegrowania danych z wielu kanałów, takich jak wiadomości e-mail, reklamy społecznościowe i płatne. Siatka danych umożliwia każdemu kanałowi posiadanie swojego produktu obsługującego dane, zapewniając dokładny wgląd w czasie rzeczywistym w spersonalizowane kampanie i lepsze doświadczenia klienta.
Zasoby ludzkie
Zespoły HR muszą zarządzać dużą ilością niezwykle złożonych i wrażliwych danych. Wraz z rosnącym trendem w kierunku zdalnych i hybrydowych miejsc pracy dane te stają się coraz bardziej skomplikowane i zróżnicowane geograficznie każdego dnia. Nie wspominając już o ciągle zmieniającym się zbiorze kwestii dotyczących zgodności z przepisami i kwestii prawnych, które zespoły HR muszą pilnie utrzymać. Od zatrudnienia do przejścia na emeryturę liderzy HR muszą być w stanie weryfikować, oceniać i analizować niektóre z najbardziej zróżnicowanych zbiorów danych w każdej organizacji. Architektura siatki danych pozwala na odpowiednie protokoły bezpieczeństwa i ściśle ograniczony dostęp. Jednocześnie umożliwia uprawnionym użytkownikom HR dostęp do danych i informacji szybko i bez zależności od złożonych protokołów wewnętrznych i wielowydziałowej biurokracji.
Przykład siatki danych HR: zespoły ds. rekrutacji, rozliczania listy płac i zarządzania wydajnością mogą zarządzać własnymi domenami danych, zwiększając zgodność z przepisami i umożliwiając analizę personelu w czasie rzeczywistym w celu podejmowania strategicznych decyzji.
Finanse
Podobnie jak w przypadku HR, zespoły ds. finansów i księgowości są również odpowiedzialne za niezwykle ważne i wrażliwe dane. Nowoczesne systemy ERP rewolucjonizują finanse, wykorzystując technologię baz danych in-memory do dostosowywania aktualnych raportów, analiz i prognoz. Jednak nawet jeśli zespoły finansowe korzystają z najlepszych baz danych i systemów ERP, często napotykają na przeszkody wynikające z długotrwałych i sztywnych kultur, silnych silosów i biurokratycznych, staroszkolnych procesów. Architektura siatki danych wprowadza zasadniczą zmianę w sposobie, w jaki dane finansowe są przeglądane i zarządzane. Może nawet wstrząsnąć stagnacyjnym myśleniem, które może się zdarzyć, gdy organizacje umożliwiają zespołom posiadanie i weryfikację ich procesów starzenia się danych.
Przykład siatki danych finansowych: zespoły ds. planowania finansowego mogą być właścicielami domen danych dotyczących przychodów, wydatków i inwestycji, zapewniając dokładne prognozowanie i elastyczne modelowanie scenariuszy bez konieczności korzystania z jednego centralnego zespołu.
Oczywiste jest, że siatka danych nie jest tylko kolejnym słowem i jest trendem strategii zarządzania danymi, który należy traktować poważnie. Firmy różnej wielkości i z różnych branż wykorzystują siatkę danych, szukając sposobów wykorzystania danych do tworzenia analiz i wartości.
Alternatywy siatki danych
Chociaż siatka danych oferuje zdecentralizowane podejście do zarządzania danymi, nie jest to jedyna opcja. Tradycyjne architektury, takie jak jeziora danych i hurtownie danych, pozostają szeroko stosowane do centralizacji i przechowywania dużych ilości danych, często w połączeniu z jeziorami danych, które łączą ustrukturyzowane i nieustrukturyzowane funkcje danych. Inne modele, takie jak struktura danych, koncentrują się na tworzeniu ujednoliconej warstwy do integracji danych i orkiestracji w różnych systemach. Każda alternatywa inaczej odnosi się do skalowalności, nadzoru i dostępności, uzależniając wybór od potrzeb i dojrzałości organizacji.
Przyjrzyjmy się alternatywom siatki danych i ich porównaniu.
Siatka danych a jezioro danych/jezioro
Siatka danych a hurtownia danych
Siatka danych a struktura danych
Wdrażanie siatki danych
Wdrożenie siatki danych wymaga strategicznego podejścia, które równoważy decentralizację ze wspólnymi standardami. Oto kluczowe kroki siatki danych:
- Identyfikacja domen pilotażowych: Rozpocznij od wyboru dwóch lub trzech domen o jasnej wartości biznesowej i dużej dojrzałości danych. Zespoły te będą służyć jako pierwsi użytkownicy, udowadniając model siatki danych przed skalowaniem w całej organizacji.
- Ustanowienie platformy: stworzenie samoobsługowej platformy do obsługi danych, która zapewnia wspólne narzędzia do publikowania, odkrywania i korzystania z produktów obsługujących dane. Obejmuje to katalogi danych, interfejsy API i zautomatyzowane funkcje zabezpieczeń w celu zmniejszenia tarcia dla zespołów domeny.
- Definiowanie federacyjnego nadzoru: tworzenie polityk nadzoru, które wymuszają globalne standardy w zakresie bezpieczeństwa, zgodności i interoperacyjności, a jednocześnie zezwalają na autonomię domen. Nadzór powinien obejmować jasne role, definicje produktów danych i oczekiwania dotyczące jakości.
Antywzory, których należy unikać
Gdy siatka danych jest wykonywana nieprawidłowo przez nieprzestrzeganie naturalnych wzorców organizacyjnych, może prowadzić do zamieszania i niezgody. Antywzorzec w siatce danych to powtarzające się podejście lub praktyka, która wydaje się pomocna, ale ostatecznie podważa podstawowe zasady architektury. Antywzory, których należy unikać, obejmują:
- Traktowanie siatki danych jako innego scentralizowanego jeziora danych.
- Ignorowanie zmian kulturowych – sama technologia nie rozwiąże problemów związanych z własnością.
- Przeprojektuj platformę, zanim udowodnisz wartość biznesową.
- Brak jasnej odpowiedzialności za jakość danych.
- Zbyt szybkie skalowanie bez walidacji modelu siatki danych w domenach pilotażowych.
Pięć najlepszych praktyk w zakresie siatki danych
- Rozpocznij od małej ilości i wykonaj iterację: użyj domen pilotażowych do zawężenia procesów przed skalowaniem.
- Traktuj dane jako produkt: zdefiniuj prawa własności, umowy dotyczące poziomu usług i standardy użyteczności dla każdego zbioru danych.
- Inwestuj w wspólne narzędzia: Ułatw publikowanie i odkrywanie dla zespołów domenowych.
- Wdrażanie nadzoru na wczesnym etapie: zrównoważenie autonomii ze zgodnością z przepisami od samego początku.
- Skupienie się na wynikach biznesowych: Dostosowanie produktów obsługujących dane do wymiernej wartości, a nie tylko celów technicznych.
Dzięki połączeniu własności domeny, solidnej platformy i sfederowanego nadzoru organizacje mogą zwiększyć elastyczność, zaufanie i współpracę między domenami — bez wąskich gardeł tradycyjnych scentralizowanych modeli.
Pomiary i metryki
Ocena sukcesu wymaga metryk siatki danych, które równoważą wydajność techniczną z wynikami biznesowymi. Metryki te mogą obejmować:
-
Jakość produktów danych SLOs/SLA: niezbędna, ale musi być dostosowana do kontekstu każdej domeny, a nie stosowana jednolicie. Przykładowe wskaźniki KPI produktu danych to:
- Świeżość danych: Odsetek produktów obsługujących dane aktualizowanych w uzgodnionym oknie czasowym — na przykład co godzinę lub codziennie
- Kompletność: Procent wymaganych pól wypełnionych w zbiorach danych
- Dostępność: Czas produktywny produktów obsługujących dane — na przykład 99,9%
-
Przyjęcie i ponowne wykorzystanie przez konsumentów: Może być silnym wskaźnikiem wartości, ale jego dokładne pomiary często polegają na śledzeniu wzorców wykorzystania i informacji zwrotnych w różnych zespołach. Przykładowe wskaźniki KPI przyjęcia i ponownego wykorzystania przez klienta to:
- Liczba unikalnych odbiorców końcowych na produkt obsługujący dane
- Wskaźnik wielokrotnego wykorzystania międzydomenowego: Procent produktów obsługujących dane wykorzystanych przez wiele domen
- Ocena zadowolenia konsumentów wynikająca z ankiet lub informacji zwrotnych
-
Czas potrzebny na wgląd w dane i koszty obsługi: Podkreślenie wzrostu wydajności w porównaniu z modelami scentralizowanymi, ale te ulepszenia zależą od dojrzałości organizacyjnej i procesów bazowych. Przykładowe wskaźniki KPI „czas do analizy” i „koszt do obsługi” to:
- Średni czas od żądania danych do analizy możliwej do wykonania
- Obniżenie kosztów operacyjnych w porównaniu ze scentralizowanym modelem
- Procent zmniejszenia zleceń zaległych dla żądań danych
-
Wspólna luka konkurentów do przechwycenia: Skup się na obszarach, w których konkurenci borykają się z problemami i wykorzystują zasady siatki danych, aby je przewyższyć. Przykładowe luki konkurentów do przechwytywania wskaźników KPI to:
- Liczba zidentyfikowanych niedociągnięć konkurentów rozwiązanych za pomocą funkcji produktu obsługującego dane — na przykład zwiększona wykrywalność, szybszy dostęp do danych
- Przewaga rynkowa w przypadku nowych produktów obsługujących dane w porównaniu z konkurentami
- Wzrost wskaźnika samoobsługowego wdrożenia w porównaniu z szacunkami konkurentów
Te metryki razem zapewniają bezpośredni wgląd w to, czy siatka danych zapewnia elastyczność, zaufanie i skalowalność, nie przyjmując jednego, uniwersalnego punktu odniesienia.
Często zadawane pytania dotyczące Data Mesh
Interoperacyjność jest zdefiniowana jako zdolność systemu lub produktu do pracy z innymi systemami lub produktami bez specjalnego wysiłku ze strony użytkownika. Techtarget dodaje, że pomaga organizacjom osiągnąć wyższą wydajność i bardziej całościowy wgląd w informacje i dane. Aby uzyskać bardziej szczegółowe informacje, w niniejszej lekcji Open MOOC przedstawiono podstawy interoperacyjności danych, a także różne rodzaje i warstwy interoperacyjności danych.
W kontekście danych interoperacyjność wykrywa poza prostą łączność i obejmuje wykrywalność (ułatwianie wyszukiwania produktów danych we wszystkich domenach poprzez katalogi lub rejestry), zawieranie umów (jasnych, nadających się do odczytu maszynowego porozumień dotyczących schematów danych, interfejsów API i umów SLA w celu zapewnienia spójnego wykorzystania) oraz wspólnych standardów (wspólne zarządzanie, metadane i praktyki w zakresie bezpieczeństwa w odniesieniu do bezproblemowej wymiany danych między domenami).
Przykładem interoperacyjności jest sytuacja, w której domena Klient publikuje produkt obsługujący dane z profilami klientów, a następnie dziedzina Sprzedaż wykorzystuje te dane do wzbogacenia analizy lejka sprzedaży. Interoperacyjność sprawia, że zespół ds. sprzedaży może odkryć produkt danych klienta w katalogu, polegać na umowie dotyczącej schematu i gwarancji jakości oraz zintegrować go z wykorzystaniem wspólnych standardów bez ręcznej pracy.
Siatka danych i struktura danych to różne podejścia architektoniczne w ramach strategii zarządzania danymi firmy.
Struktura danych to technocentryczne podejście, które stara się znaleźć coraz bardziej spójne sposoby zarządzania złożonymi metadanymi i nieustrukturyzowanymi informacjami poprzez połączenie sztucznej inteligencji, uczenia maszynowego i zaawansowanych analiz. Siatka danych z drugiej strony, choć zależy od wszystkich osiągnięć technologicznych w strukturze danych, jest bardziej skoncentrowana na integracji procesów zarządzania danymi z użytkownikami ludzkimi, którzy są od nich zależni - oraz na znalezieniu sposobów na usprawnienie i uproszczenie dostępu do danych i ich użyteczności z perspektywy ludzi.
Między siatką danych a tkaniną danych istnieje pewna zależność między kurką i jajkiem: jeśli zarządzanie danymi ma ewoluować z prędkością, której potrzebuje, potrzebne są stale rozwijające się technologie tkanin danych. Jednak bez towarzyszącej ewolucji procesów i strategii organizacyjnych ludzie nie będą w stanie odpowiednio wykorzystać zaawansowanych technologii tkanin danych. Tak jak DOS i złożone interfejsy ustąpiły miejsca bardziej bezproblemowym komputerowym systemom operacyjnym, z których dziś korzystamy, architektury siatki danych i tkanin danych są przeznaczone do coraz bardziej płynnego rozwoju wraz z postępem tych procesów i technologii.
PRODUKT SAP
Połącz dane, wspieraj innowacje
Dowiedz się, jak rozwiązanie SAP Business Data Cloud przyspiesza analizy oparte na danych w całym przedsiębiorstwie.