media-blend
text-black

Przedsiębiorcy studiujący wykresy na interaktywnym ekranie na spotkaniu biznesowym

Jezioro danych a hurtownia danych

Jeziora danych przechowują nieprzetworzone dane w ich rodzimym formacie — niezależnie od rodzaju danych. W hurtowniach dane są wyczyszczone i ustrukturyzowane we wstępnie określony sposób.

default

{}

default

{}

primary

default

{}

secondary

Wprowadzenie do zagadnienia jeziora danych i hurtowni danych

Jeziora danych i hurtownie danych to systemy pobierania i przechowywania dużych ilości informacji cyfrowych oraz zarządzania nimi. Firmy gromadzą dane, aby mieć wgląd w operacje, klientów, rynki oraz łańcuchy dostaw i dzięki temu reagować bardziej strategicznie.

Hurtownie danych powstały jako rozwiązanie umożliwiające wyeliminowanie problemu izolacji danych i stawienie czoła wyzwaniu rozproszenia danych biznesowych o różnych formatach w wielu systemach oraz działach.

Taka niespójność utrudnia dostęp do danych oraz ich integrację i analizę pod kątem wzorców w celu prognozowania popytu lub oceny wydajności biznesowej. Hurtownie danych zostały opracowane w celu konsolidacji danych w scentralizowanym repozytorium, gdzie można je zintegrować, wyczyścić i ustrukturyzować na potrzeby analizy. W efekcie powstaje „pojedyncze źródło informacji”, które ułatwia pilnowanie zgodności z przepisami, monitorowanie wydajności oraz realizowanie procesów wspomagających podejmowanie decyzji biznesowych (Business Intelligence).

Z kolei jeziora danych pojawiły się w odpowiedzi na ograniczenia dotyczące hurtowni danych, które nie były w stanie sprostać gwałtownemu napływowi nieustrukturyzowanych i częściowo ustrukturyzowanych danych generowanych z nowych źródeł, takich jak media społecznościowe, urządzenia IoT, czujniki, aplikacje mobilne itd. Przechowywanie i przetwarzanie ogromnych ilości różnorodnych danych: obrazów, filmów czy tekstu, okazało się zbyt kosztowne i nieefektywne, zwłaszcza że tradycyjne hurtownie danych wymagały początkowo czyszczenia i przetwarzania informacji przed przyjęciem.

Przedsiębiorstwa potrzebowały bardziej elastycznego, taniego sposobu przechowywania danych — w surowym, oryginalnym formacie. Rozwiązaniem okazały się jeziora danych.

Obecnie wiele nowoczesnych przedsiębiorstw stosuje podejście hybrydowe i łączy hurtownie danych z jeziorami danych na platformie jeziora danych. Taka architektura oferuje zarówno funkcje szybkiego, ustrukturyzowanego raportowania (jak pierwszy sposób przechowywania), jak i możliwość wykorzystania AI oraz uczenia maszynowego (jak drugi).

Jeziora danych a hurtownie danych: kluczowe różnice

Kluczowe różnice między jeziorami danych a hurtowniami danych dotyczą rodzaju informacji oraz ich sposobu ich przechowywania, przy czym oba aspekty są istotne z punktu widzenia strategii organizacji w zakresie danych.

Hurtownie danych przechowują ustrukturyzowane dane, które zostały wyczyszczone i przetworzone z uwzględnieniem wstępnie ustalonej struktury lub schematu. Podejście, w którym schemat jest stosowany przed zapisaniem danych, nosi nazwę Schema-on-Write.

Schemat może na przykład wymagać, aby dane identyfikatora klienta były liczbą całkowitą, data zamówienia miała format RRRR-MM-DD, a łączna kwota sprzedaży była wyrażona w postaci dziesiętnej. Jeśli wszystkie dane są zgodne z tymi regułami, użytkownicy mogą zadawać pytania takie jak „znajdź całkowitą sprzedaż na klienta w kwietniu 2025 r.” i uzyskiwać błyskawiczne, rzetelne odpowiedzi. Właśnie ze względu na tę szybkość i dokładność hurtownie danych sprawdzają się doskonale w przypadku raportowania, pulpitów i Business Intelligence.

Z kolei jeziora danych mogą przechowywać dane w oryginalnym formacie i dowolnej strukturze. Żaden określony z góry schemat nie jest wymagany.

Schemat taki definiowany jest dopiero w momencie otrzymania zapytania dotyczącego danych. Podejście to nosi nazwę Schema-on-Read. Wtedy surowe dane są analizowane, strukturyzowane i interpretowane zgodnie z zapytaniem.

Hurtownie danych stosują więc schemat przed zapisaniem informacji w celu ich ustrukturyzowania i wyczyszczenia na potrzeby użycia. Jeziora danych stosują schemat dopiero w momencie tworzenia zapytania dotyczącego danych, natomiast mogą do nich trafiać dowolne dane, ustrukturyzowane lub nie.

Różnice między jeziorami danych a hurtowniami danych

Jeziora danych
Hurtownie danych
Typ danych
Przechowują dane ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane (np. dzienniki, filmy, tekst).
Przechowują tylko dane ustrukturyzowane (np. transakcje sprzedaży, dane finansowe).
Schemat
Schema-on-Read: schemat jest stosowany na etapie zapytania o dane.
Schema-on-Write: schemat jest stosowany przed zapisaniem danych.
Użytkownicy
Eksperci ds. danych, inżynierowie i analitycy badający wzorce, modele analizy lub realizujący przepływy pracy uczenia maszynowego.
Analitycy biznesowi, kadra kierownicza i członkowie zespołów operacyjnych generujący raporty oraz wskaźniki KPI.
Cel
Elastyczne przechowywanie dużych ilości surowych, zróżnicowanych danych, wykorzystywanych na potrzeby eksploracji danych, sztucznej inteligencji i uczenia maszynowego.
Scentralizowane repozytorium ustrukturyzowanych, przetworzonych danych, wykorzystywanych na potrzeby raportowania, pulpitów i Business Intelligence.
Koszty
Tańsza pamięć obiektowa
Wyższe koszty magazynowania i przetwarzania ze względu na konieczność wstępnego przygotowania i optymalizacji.

Wybór pomiędzy jeziorami danych a hurtowniami danych

Jeziora danych, które mogą przechowywać surowe dane w dowolnym formacie, są rozwiązaniem dla firm potrzebujących elastyczności. Na przykład sprzedawcy detaliczni gromadzą ogromne ilości danych z wielu źródeł, takich jak strony internetowe, aplikacje mobilne, media społecznościowe, systemy punktów sprzedaży itd. Informacje te nie muszą być czyszczone, przekształcane ani strukturyzowane, można więc wybrać bardziej atrakcyjny kosztowo system pamięci masowej, który łatwo daje się skalować. Jednak koszt przetwarzania surowych danych w czasie realizacji zapytania może być wyższy w porównaniu ze zoptymalizowanymi zapytaniami w hurtowni danych.

Gdyby porównać oba modele, w przypadku hurtowni danych koszty będą wyższe. Procesy czyszczenia, przekształcania i strukturyzowania danych przed załadowaniem, a także ich indeksowania oraz partycjonowania po załadowaniu wymagają dodatkowych zasobów i pamięci. Ta optymalizacja zapewnia jednak gotowe do użycia dane na potrzeby analityki biznesowej, raportowania oraz analizy operacyjnej. Dzięki hurtowniom danych analitycy, a także przedstawiciele kadry kierowniczej mogą szybko i łatwo generować raporty, monitorować wskaźniki KPI oraz podejmować świadome decyzje.

Warto zwrócić uwagę, że jeziora danych otwierają nowe możliwości dla zastosowania sztucznej inteligencji i uczenia maszynowego. Ogromne i zróżnicowane zbiory informacji umożliwiają analitykom danych wyszukiwanie trendów, tworzenie modeli predykcyjnych i stosowanie technologii uczenia maszynowego. W ten sposób działają na przykład systemy rekomendacji, które sugerują użytkownikom produkty na podstawie wcześniejszych interakcji, czy narzędzia do przetwarzania języka naturalnego analizujące nastroje w recenzjach klientów i komentarzach w mediach społecznościowych.

Obecnie wiele nowoczesnych przedsiębiorstw zarządza architekturami danych stanowiącymi w zasadzie kombinację obu omówionych modeli. Takie platformy jeziora danych mają na celu uzyskanie elastyczności jeziora danych oraz poziomu nadzoru i wydajności hurtowni danych. Chociaż stają się coraz bardziej popularne, wiele firm nadal opiera się na tradycyjnych hurtowniach w odniesieniu do sprawozdawczości o znaczeniu krytycznym.

Przykłady i przypadki użycia w świecie rzeczywistym

Oto kilka przykładów wykorzystywania jezior danych, hurtowni danych lub kombinacji elementów obu modeli w różnych branżach w celu realizacji specyficznych potrzeb każdej z nich.

Opieka zdrowotna: Szpitale często wykorzystują architekturę jeziora danych do przechowywania, zarządzania i analizowania ogromnych ilości i różnych rodzajów danych generowanych przez ich operacje. Obejmuje to nieustrukturyzowane dane dotyczące noszenia i obrazy medyczne, częściowo ustrukturyzowane dane pacjenta HL7 i ustrukturyzowane wyniki badań laboratoryjnych. Konsolidując wszystko w centralnym repozytorium, mogą zastosować zaawansowane analizy i sztuczną inteligencję do nieprzetworzonych danych, na przykład w celu identyfikacji pacjentów zagrożonych lub analizy genomiki w celu spersonalizowania planów leczenia. Dzięki wyposażeniu pacjentów w „inteligentne” urządzenia do noszenia, które przesyłają strumieniowo dane na temat objawów życiowych, pracownicy służby zdrowia mogą nawet wykrywać wczesne znaki ostrzegawcze i szybciej interweniować.

Finanse: banki i inne instytucje finansowe muszą przestrzegać zasad przeciwdziałania praniu pieniędzy (AML) i rygorystycznych przepisów dotyczących sprawozdawczości finansowej (takich jak Sarbanes-Oxley w USA, a na arenie międzynarodowej Bazylea III). Używając hurtowni danych do przechowywania ustrukturyzowanych danych finansowych z wielu systemów, w tym rekordów transakcji, sald kont i danych handlowych, mogą generować raporty na potrzeby organów regulacyjnych spełniające wymagania w zakresie nadzoru i bezpieczeństwa. Oprócz zapewniania zgodności z przepisami hurtownie danych pomagają instytucjom finansowym przeprowadzać analizy Business Intelligence, zarządzać ryzykiem i wykrywać oszustwa, ponieważ pozwalają na przetwarzanie złożonych zapytań dotyczących historycznych i bieżących zbiorów danych.

Media: usługi strumieniowego przesyłania filmów wykorzystują podejście platformy jeziora danych przy gromadzeniu, przechowywaniu i analizowaniu danych użytkowników w celu personalizacji doświadczeń. Pobierają różne rodzaje danych z wielu źródeł, takich jak dzienniki przesyłania strumieniowego czy informacja zwrotna z mediów społecznościowych, i przechowują je w centralnym repozytorium. Dane te można następnie wykorzystać do tworzenia modeli uczenia maszynowego, które rekomendują najbardziej odpowiednie treści. Te same informacje, po odpowiednim wyselekcjonowaniu i ustrukturyzowaniu w podzbiorach, można wykorzystać na potrzeby analityki lub raportowania, prezentowania wskaźników retencji na odpowiednich pulpitach oraz podejmowania świadomych decyzji dotyczących pozyskiwania treści.

Nowe trendy dotyczące platform danych

Platformy jezior danych szybko stają się preferowaną opcją w firmach, które dążą do maksymalizacji wartości swoich danych. Platformy te współpracują zarówno z rozwiązaniami z dziedziny Business Intelligence, jak i AI, a także z technologiami uczenia maszynowego. Warto jednak pamiętać, że mówimy o technologii, która wciąż się rozwija, oraz że część przedsiębiorstw woli jednak polegać na tradycyjnych hurtowniach danych w przypadku sprawozdawczości o krytycznym znaczeniu.

Potencjał sztucznej inteligencji jako czynnika zwiększającego produktywność i wydajność mocno wpłynął na architektury danych, a niektóre powstające technologie jezior danych i platform jezior danych są obecnie zintegrowane z systemami LLM. Umożliwia to eksplorowanie i analizowanie danych przez użytkowników bez wiedzy technicznej, którzy mogą formułować zapytania prostym językiem. Użytkownik może na przykład poprosić: „pokaż mi trendy sprzedaży w drugim kwartale”, a LLM wygeneruje kod SQL zrozumiały dla systemu. To demokratyzuje dostęp do analiz opartych na danych.

Wykorzystywana bywa także strategia architektury bezserwerowej: firmy zatrudniają dostawcę chmury do zarządzania swoją infrastrukturą danych. W takim układzie firma płaci za dostęp do platformy danych zamiast zakładać własną platformę i nią zarządzać. Do zalet takiego rozwiązania należą niższe koszty i łatwiejsza skalowalność. Dostawca chmury zapewnia elastyczność przepustowości w przypadku gwałtownych wzrostów wolumenu danych lub zapytań, a firma płaci tylko za to, czego używa. W ten sposób programiści są w stanie wdrożyć się szybciej, ponieważ nie muszą zmagać się z kwestiami związanymi z infrastrukturą.

Niektóre firmy decydują się nawet na strategię wielochmurową, rozmieszczając swoje jeziora i hurtownie danych w kilku usługach chmury. Główną zaletą takiego rozwiązania jest odporność wynikająca z nadmiarowości. Jeśli jedna chmura przejdzie w tryb offline, firma może nadal działać na innej. Możliwa jest również optymalizacja wybranych przepływów pracy w określonych chmurach, np. jeśli jedna usługa specjalizuje się w uczeniu maszynowym. W niektórych branżach lub krajach dane wrażliwe muszą być przechowywane w regionach lub u dostawców chmury spełniających lokalne wymogi zgodności.

Aby łączyć dane i zarządzać nimi w wielu środowiskach chmurowych, firmy mogą wdrażać architektury oparte na strukturze danych. Zapewniają one dostęp do danych w czasie rzeczywistym w oddzielnych, ale zsynchronizowanych systemach i aplikacjach. Pozwala to zyskać ujednolicony widok danych w całym środowisku.

Aby chronić wrażliwe dane, na przykład dokumentację medyczną, numery ubezpieczenia społecznego czy kody źródłowe, organizacje stosują również na swoich platformach danych zasady kontroli dostępu z zerowym zaufaniem. Mechanizmy te wymagają weryfikacji tożsamości wszystkich użytkowników przed uzyskaniem dostępu do potrzebnych danych.

Najczęstsze pytania

Co to jest jezioro danych?
Jezioro danych to system przechowywania danych zaprojektowany w celu przechowywania dużych ilości surowych danych w oryginalnym formacie: liczb, tekstu, obrazów, filmów, dzienników i innych. To olbrzymi „cyfrowy zbiornik”, do którego trafiają wszelkiego rodzaju informacje, przy czym nie są od razu porządkowane.

Jeziora danych są użyteczne dla analityków danych, którzy trenują modele uczenia maszynowego zasilające systemy rekomendowania treści.
Co to jest hurtowania danych?

Hurtownia danych to system przeznaczony przede wszystkim do przechowywania dużych ilości ustrukturyzowanych danych. Ustrukturyzowane dane są czyszczone, uporządkowane i formatowane w określony sposób, co przypomina umieszczanie ich w określonych wierszach i kolumnach arkusza kalkulacyjnego. Nowocześniejsze hurtownie mogą również obsługiwać niektóre formaty półstrukturalne, takie jak JSON lub XML.

Hurtownie danych ułatwiają i przyspieszają uzyskiwanie odpowiedzi na pytania, generowanie raportów i śledzenie kluczowych wskaźników wydajności. Funkcje te są należą do kategorii Business Intelligence.

Co to jest platforma jeziora danych?
Jest to nowoczesna platforma danych, która łączy zalety jeziora danych i hurtowni danych. Może przechowywać wszystkie typy danych: surowe, nieustrukturyzowane oraz częściowo ustrukturyzowane i nie ma konieczności ich początkowego uporządkowania. Platforma zapewnia możliwość przeprowadzania w razie potrzeby szybkich, ustrukturyzowanych analiz i generowania raportów.
Co to jest schemat? Jaka jest różnica między koncepcjami Schema-on-Read a Schema-on-Write?

Schematy to reguły porządkowania danych, dotyczące na przykład rodzaju przechowywanych danych (liczby, daty), sposobu ich organizacji (tabele i kolumny) oraz zasad wzajemnego powiązania.

Schema-on-Write to system, w którym dane są dopasowywane do wstępnie określonej struktury (czyli schematu), zanim zostaną zapisane. Tak działają hurtownie danych. Dane są w nich oczyszczone i przygotowane do analizowania.

Schema-on-Read to system, w którym struktura nakładana jest dopiero wtedy, gdy ktoś chce użyć danych lub je przeanalizować. Tak działają jeziora danych. Podejście to pozwala na większą elastyczność, ponieważ dane mogą być najpierw przechowywane w dowolnej formie i trzeba ich od razu porządkować. Ceną jest jednak wolniejszy czas realizacji zapytań i potencjalna niespójność, ponieważ różni użytkownicy mogą inaczej interpretować te same niesformatowane dane.

Model schema-on-Write wymusza z kolei spójność z góry, ale ogranicza elastyczność.

Jaka jest różnica między danymi ustrukturyzowanymi, nieustrukturyzowanymi i częściowo ustrukturyzowanymi?

Ustrukturyzowane dane są wysoce uporządkowane, łatwe do wyszukania i zwykle mogą być przechowywane w tabelach. To na przykład nazwy klientów czy liczby i daty związane ze sprzedażą.

Dane nieustrukturyzowane nie mają ustalonego formatu i są trudniejsze do uporządkowania. To między innymi filmy, obrazy, pliki audio i posty w mediach społecznościowych.

Dane częściowo ustrukturyzowane mają cechy obu zbiorów. Charakteryzują się pewnym uporządkowaniem, ale nie tak rygorystycznym jak tabele. To na przykład pliki JSON, dokumenty XML i wiadomości e-mail.

Logo firmy SAP

Zmaksymalizuj wartość danych

Wszystkie te dane można połączyć w SAP Business Data Cloud.

Dowiedz się więcej