Co to jest hurtowania danych?

Hurtownia danych (data warehouse) to cyfrowy system przechowywania danych, który łączy i harmonizuje duże ilości danych z wielu różnych źródeł.

Przegląd hurtowni danych

Hurtownia danych (DW) to cyfrowy system przechowywania danych, który łączy i harmonizuje duże ilości danych z wielu różnych źródeł. Jego celem jest dostarczanie informacji Business Intelligence (BI), raportowania i analiz oraz wspieranie wymagań prawnych, aby firmy mogły przekształcać swoje dane w analizy i podejmować inteligentne decyzje oparte na danych. Hurtownie danych przechowują aktualne i historyczne dane w jednym miejscu i pełnią rolę jednego źródła informacji dla organizacji.

 

Dane przepływają do hurtowni danych z systemów operacyjnych (takich jak ERP i CRM), baz danych i źródeł zewnętrznych, takich jak systemy partnerskie, urządzenia Internetu rzeczy (IoT), aplikacje pogodowe i media społecznościowe – zwykle w regularnych odstępach czasu. Pojawienie się chmury obliczeniowej spowodowało zmianę krajobrazu. W ostatnich latach miejsca przechowywania danych zostały przeniesione z tradycyjnej infrastruktury lokalnej do wielu lokalizacji, w tym lokalnie, w chmurze prywatnej i w chmurze publicznej.

 

Nowoczesne hurtownie danych projektuje się z myślą o obsłudze zarówno danych ustrukturyzowanych, jak i nieustrukturyzowanych, takich jak filmy, pliki obrazów i dane z czujników. Niektóre korzystają ze zintegrowanej analityki oraz technologii baz danych in-memory (która przechowuje zbiór danych w pamięci komputera, a nie w przestrzeni dyskowej), aby zapewnić dostęp do wiarygodnych danych w czasie rzeczywistym, ułatwiając podejmowanie trafnych decyzji. Bez hurtowni danych bardzo trudno jest łączyć dane z heterogenicznych źródeł, dbać o format pozwalający na prowadzenie analiz, a także uzyskiwać widok zarówno aktualnych danych, jak i danych obejmujących dłuższy okres.

Co to jest hurtowania danych?

Korzyści ze stosowania hurtowni danych

Dobrze zaprojektowana hurtownia danych jest podstawą każdego udanego programu BI i analitycznego. Jej podstawowym zadaniem jest zasilanie raportów, pulpitów oraz narzędzi analitycznych, które są obecnie niezbędne w przedsiębiorstwach. Hurtownia danych zapewnia informacje potrzebne do podejmowania trafnych decyzji — od danych dotyczących nowych produktów po poziomy zapasów. Hurtownia danych oferuje wiele korzyści. Oto kilka przykładów: 

  • Lepsze analizy biznesowe: dzięki hurtowni danych osoby podejmujące decyzje mają dostęp do informacji z wielu źródeł i nie muszą opierać się na niekompletnych danych.  

  • Szybsze przetwarzanie zapytań: hurtownie danych są opracowywane pod kątem szybkiego pozyskiwania i analizowania danych. Organizacja, która korzysta z DW, może bardzo szybko wysyłać zapytania o duże ilości skonsolidowanych danych niemal bez wsparcia ze strony działu IT.  

  • Lepsza jakość danych: przed wczytaniem danych do DW system przeprowadza ich czyszczenie i sporządza listy robocze danych do dalszego przetwarzania, dzięki czemu są one przekształcane na jednolity format umożliwiający prowadzenie analiz — i podejmowanie decyzji — w oparciu o dokładne, rzetelne informacje.

  • Wgląd w dane historyczne: dzięki przechowywaniu dużych ilości danych historycznych hurtownia danych umożliwia wyciąganie wniosków z dawniejszych trendów i wyzwań oraz formułowanie prognoz, co sprzyja rozwojowi biznesowemu.

placeholder

Zrzut ekranu hurtowni danych pokazujący pochodzenie danych.

Co może przechowywać hurtownia danych?

Kiedy hurtownie danych stały się popularne pod koniec lat 80., były projektowane pod kątem przechowywania informacji o ludziach, produktach i transakcjach. Dane te — nazywane danymi ustrukturyzowanymi — były starannie porządkowane i formatowane z myślą o zapewnieniu łatwego dostępu. Wkrótce jednak pojawiła się potrzeba przechowywania, pobierania i analizowania danych nieustrukturyzowanych, takich jak dokumenty, obrazy, filmy, e-maile, wpisy w mediach społecznościowych i surowe dane z czujników w maszynach.

 

Nowoczesna hurtownia danych obsługuje zarówno ustrukturyzowane, jak i nieustrukturyzowane dane. Połączenie tych typów danych i rozdzielenie ich zbiorów pozwala firmom uzyskać pełny, kompleksowy obraz i najbardziej wartościowe informacje.

Kilka kluczowych pojęć

W świecie DW jest wiele pojęć, które należy rozumieć. Oto niektóre z najważniejszych. Zapoznaj się z innymi terminami i często zadawanymi pytaniami w naszym słowniku.

 

Hurtownia danych a baza danych

 

Bazy danych i hurtownie danych są systemami przechowywania danych, ale służą różnym celom. Baza danych przechowuje dane zwykle dla określonego obszaru biznesowego. Hurtownia danych przechowuje aktualne i historyczne dane dla całej firmy oraz przekazuje dane BI i analizy. Hurtownie danych wykorzystują serwer bazy danych do pobierania danych z baz danych organizacji i posiadają dodatkowe funkcjonalności do modelowania danych, zarządzania cyklem życia danych, integracji źródeł danych itp.

 

Hurtownia danych a jezioro danych

 

Do przechowywania Big Data wykorzystywane są zarówno hurtownie danych , jak i jeziora danych , ale są to bardzo różne systemy przechowywania. Hurtownia danych przechowuje dane sformatowane do określonego celu, natomiast jezioro danych przechowuje dane w stanie surowym, nieprzetworzonym – cel którego nie został jeszcze zdefiniowany. Hurtownie danych i jeziora często się uzupełniają. Na przykład, gdy surowe dane przechowywane w jeziorze są potrzebne do udzielenia odpowiedzi na pytanie biznesowe, można je wyodrębnić, wyczyścić, przekształcić i wykorzystać do analizy w hurtowni danych. Wolumen danych, wydajność bazy danych i ceny pamięci masowej odgrywają ważną rolę w wyborze odpowiedniego rozwiązania do przechowywania danych.

Schemat przedstawiający porównanie hurtowni danych z jeziorem danych.

Hurtownia danych a hurtownia danych

 

Hurtownia danych to podsekcja hurtowni danych podzielona specjalnie dla działu lub branży – takiej jak sprzedaż, marketing lub finanse. Niektóre hurtownie danych są również tworzone do samodzielnych celów operacyjnych. Podczas gdy hurtownia danych służy jako centralny magazyn danych dla całej firmy, hurtownia danych obsługuje istotne dane dla wybranej grupy użytkowników. Upraszcza to dostęp do danych, przyspiesza analizę i daje im kontrolę nad własnymi danymi. Wielokrotne hurtownie danych są często wdrażane w hurtowni danych.

Schemat przedstawiający tematyczną hurtownię danych i sposób jej działania.

Jakie są najważniejsze elementy hurtowni danych?

Typowa hurtownia danych obejmuje cztery główne elementy: centralną bazę danych, narzędzia ETL (do ekstrakcji, transformacji, ładowania danych), metadane i narzędzia dostępowe. Wszystkie te składniki są projektowane z myślą o szybkim uzyskiwaniu wyników i natychmiastowej analizie danych.

Schemat przedstawiający elementy hurtowni danych.

  1. Centralna baza danych: Baza danych służy jako podstawa hurtowni danych. Tradycyjnie były to standardowe relacyjne bazy danych działające lokalnie lub w chmurze. Ale ze względu na Big Data, potrzebę prawdziwej wydajności w czasie rzeczywistym i drastyczne obniżenie kosztów pamięci RAM, bazy danych in-memory szybko zyskują na popularności.
  2. Integracja danych: Dane są pobierane z systemów źródłowych i modyfikowane w celu dostosowania informacji do szybkiego wykorzystania analitycznego za pomocą różnych podejść do integracji danych, takich jak ETL (ekstrakcja, transformacja, ładowanie) i ELT, a także replikacji danych w czasie rzeczywistym, przetwarzania zbiorczego, transformacji danych oraz usług w zakresie jakości i wzbogacania danych.
  3. Metadane: Metadane to dane dotyczące Twoich danych. Określa źródło, wykorzystanie, wartości i inne funkcje zbiorów danych w hurtowni danych. Istnieją metadane biznesowe, które dodają kontekst do Twoich danych, oraz metadane techniczne, które opisują sposób uzyskiwania dostępu do danych – w tym miejsce ich przechowywania i strukturę.
  4. Narzędzia dostępu do hurtowni danych: Narzędzia dostępu pozwalają użytkownikom na interakcję z danymi w Twojej hurtowni danych. Przykładami narzędzi dostępowych są: narzędzia zapytań i raportowania, narzędzia do projektowania aplikacji, narzędzia eksploracji danych oraz narzędzia OLAP.

Architektura hurtowni danych

W przeszłości hurtownie danych opierały się na warstwach odpowiadających przepływowi danych biznesowych.

Diagram architektury hurtowni danych. Typowa hurtownia danych obejmuje trzy osobne warstwy powyżej. Współcześnie nowoczesne hurtownie danych łączą OLTP i OLAP w jednym systemie.

  • Warstwa danych: Dane są wyodrębniane ze źródeł, a następnie przekształcane i ładowane do dolnej warstwy za pomocą narzędzi ETL. Dolna warstwa składa się z serwera bazy danych, hurtowni danych i jezior danych. W tej warstwie tworzone są metadane, a narzędzia do integracji danych, takie jak wirtualizacja danych, są używane do płynnego łączenia i agregowania danych.

  • Warstwa semantyczna: W warstwie środkowej serwery przetwarzania analitycznego online (OLAP) i przetwarzania transakcyjnego online (OLTP) restrukturyzują dane na potrzeby szybkich, złożonych zapytań i analiz.

  • Warstwa analityczna: Górna warstwa to warstwa klienta front-end. Posiada narzędzia dostępu do hurtowni danych, które umożliwiają użytkownikom interakcję z danymi, tworzenie pulpitów i raportów, monitorowanie wskaźników KPI, eksplorację i analizę danych, tworzenie aplikacji i wiele innych. Ta warstwa często obejmuje środowisko lub obszar testowy do eksploracji danych i opracowywania nowego modelu danych.

Hurtownie danych są projektowane jako wsparcie dla procesów podejmowania decyzji i budowane oraz utrzymywane przede wszystkim przez zespoły IT, ale w ciągu ostatnich kilku lat zaczęły stanowić narzędzie wykorzystywane przez użytkowników biznesowych. Hurtownie danych pozwalają użytkownikom biznesowym uniezależnić się od zespołów IT w zakresie dostępu do danych i przeprowadzania niezbędnych analiz. Ważne z punktu widzenia użytkowników biznesowych cechy hurtowni danych to między innymi:

  1. Warstwa semantyczna lub biznesowa, zapewniająca frazy w języku naturalnym i umożliwiająca natychmiastowe zrozumienie danych, definiowanie relacji między elementami w modelu danych oraz wzbogacanie pól danych o nowe informacje biznesowe.
  2. Wirtualne obszary robocze umożliwiające zespołom wprowadzanie modeli danych i połączeń w jednym bezpiecznym i nadzorowanym miejscu, co ułatwia współpracę dzięki jednej, wspólnej przestrzeni i jednemu, wspólnemu zbiorowi danych.
  3. Chmura dodatkowo usprawnia podejmowanie decyzji, ponieważ oferuje bogaty zestaw narzędzi i funkcji umożliwiających łatwe wykonywanie zadań związanych z analizą danych. Pracownicy mogą podłączać nowe aplikacje i źródła danych bez odwoływania się do działu IT.

Siedem najważniejszych korzyści związanych z hurtownią danych w chmurze

Hurtownie danych oparte na chmurze zyskują na popularności – z ważnego powodu. Te nowoczesne magazyny oferują kilka zalet w porównaniu z tradycyjnymi, lokalnymi wersjami. Oto siedem najważniejszych zalet hurtowni danych w chmurze:

  1. Szybkie wdrożenie: dzięki hurtowni danych w chmurze możesz zakupić niemal nieograniczoną moc obliczeniową i przechowywanie danych za pomocą zaledwie kilku kliknięć — i możesz zbudować własną hurtownię danych, hurtownie danych i piaskownice z dowolnego miejsca i w ciągu kilku minut.
  2. Niski całkowity koszt posiadania (TCO): Modele cenowe hurtowni danych jako usługi (DWaaS) są konfigurowane, więc płacisz tylko za potrzebne zasoby, gdy ich potrzebujesz. Nie musisz prognozować długoterminowych potrzeb ani płacić za więcej obliczeń w ciągu roku, niż to konieczne. Można również uniknąć kosztów początkowych, takich jak kosztowny sprzęt, serwerownie i personel konserwacyjny. Oddzielenie cen magazynów od cen obliczeniowych daje również sposób na obniżenie kosztów.
  3. Elastyczność: dzięki hurtowni danych w chmurze możesz dynamicznie skalować w górę lub w dół w zależności od potrzeb. Chmura zapewnia nam zwirtualizowane, wysoce rozproszone środowisko, które może zarządzać ogromnymi wolumenami danych, które mogą być skalowane w górę i w dół.
  4. Bezpieczeństwo i odzyskiwanie po awarii: W wielu przypadkach hurtownie danych w chmurze zapewniają większe bezpieczeństwo danych i szyfrowanie niż lokalne DWI. Dane są również automatycznie duplikowane i tworzone w kopii zapasowej, dzięki czemu można zminimalizować ryzyko utraty danych.
  5. Technologie w czasie rzeczywistym: hurtownie danych w chmurze oparte na technologii baz danych in-memory mogą zapewnić niezwykle szybkie prędkości przetwarzania danych, aby dostarczać dane w czasie rzeczywistym w celu zapewnienia natychmiastowej orientacji sytuacyjnej.
  6. Nowe technologie: hurtownie danych w chmurze umożliwiają łatwą integrację nowych technologii, takich jak uczenie maszynowe, które mogą zapewnić użytkownikom biznesowym wspomagane doświadczenia oraz wsparcie podejmowania decyzji w postaci zalecanych pytań, które należy zadać, jako przykład.
  7. Zwiększ możliwości użytkowników biznesowych: hurtownie danych w chmurze umożliwiają pracownikom jednakowe i globalne korzystanie z jednego widoku danych z wielu źródeł oraz bogatego zestawu narzędzi i funkcji ułatwiających wykonywanie zadań związanych z analizą danych. Mogą łączyć nowe aplikacje i źródła danych bez IT.
placeholder

Hurtownia danych umożliwia na przykład kompleksową analizę wydatków firmy według działu, dostawcy, regionu i stanu.

Najlepsze praktyki w zakresie hurtowni danych

Podczas tworzenia nowej hurtowni danych lub dodawania nowych aplikacji do istniejącej hurtowni można sięgnąć po sprawdzone metody, umożliwiające realizację zamierzeń, a jednocześnie zaoszczędzenie czasu i pieniędzy. Niektóre z tych metod koncentrują się na użyciu biznesowym, inne należą do ogólnego programu IT. Poniższa lista stanowi punkt wyjścia, a dodatkowych najlepszych praktyk można poszukać już podczas współpracy z partnerami w zakresie technologii i usług. 

Najlepsze praktyki biznesowe

  • Zdefiniuj wymagane informacje. Gdy już dobrze zrozumiesz swoje początkowe potrzeby, możesz znaleźć źródła danych, które je obsługują. Często grupy handlowe, klienci i dostawcy będą mieć dla Ciebie rekomendacje danych.

  • Dokumentowanie lokalizacji, struktury i jakości bieżących danych. Następnie można zidentyfikować luki w danych i reguły biznesowe w celu przekształcenia danych w celu spełnienia wymagań magazynowych.

  • Zbuduj zespół. Obejmuje to sponsorów wykonawczych, menedżerów i pracowników, którzy będą wykorzystywać i dostarczać informacje. Możesz na przykład zidentyfikować standardowe raportowanie i wskaźniki KPI, których potrzebują do wykonania swoich zadań.

  • Nadaj priorytet aplikacjom hurtowni danych. Wybierz jeden lub dwa projekty pilotażowe, które mają rozsądne wymagania i dobrą wartość biznesową.

  • Wybierz silnego partnera w zakresie technologii hurtowni danych. Muszą mieć usługi wdrożeniowe i doświadczenie potrzebne do realizacji Twoich projektów. Upewnij się, że spełniają Twoje potrzeby w zakresie wdrożenia, w tym zarówno usługi w chmurze, jak i opcje lokalne.

  • Opracowanie dobrego planu projektu. Współpraca z zespołem w zakresie realistycznej koncepcji i harmonogramu wspierającego komunikację i raportowanie statusu.

Najlepsze praktyki informatyczne

  • Monitorowanie wydajności i bezpieczeństwa. Informacje w Twojej hurtowni danych są cenne, ale muszą być łatwo dostępne, aby zapewnić wartość organizacji. Uważnie monitoruj zużycie systemu, aby upewnić się, że poziomy wydajności są wysokie.

  • Utrzymywanie standardów jakości danych, metadanych, struktury i nadzoru. Nowe źródła wartościowych danych stają się rutynowo dostępne, ale wymagają spójnego zarządzania w ramach hurtowni danych. Postępuj zgodnie z procedurami dotyczącymi czyszczenia danych, definiowania metadanych i spełniania standardów nadzoru.

  • Zapewnienie elastycznej architektury. Wraz ze wzrostem wykorzystania Twojej firmy i jednostki biznesowej odkryjesz szeroki zakres potrzeb hurtowni danych i magazynów. Elastyczna platforma będzie je wspierać znacznie lepiej niż ograniczony, restrykcyjny produkt.

  • Automatyzacja procesów, takich jak serwisowanie. Oprócz zwiększenia wartości rozwiązań Business Intelligence uczenie maszynowe może zautomatyzować funkcje zarządzania technicznego hurtownią danych, aby utrzymać szybkość i obniżyć koszty operacyjne.

  • Korzystaj z chmury strategicznie. Jednostki biznesowe i działy mają różne potrzeby w zakresie wdrożenia. W razie potrzeby korzystaj z systemów lokalnych i korzystaj z hurtowni danych w chmurze, aby uzyskać skalowalność, niższe koszty oraz dostęp do telefonów i tabletów.

Podsumowanie

Nowoczesne hurtownie danych, a w coraz większym stopniu hurtownie danych w chmurze, będą kluczowym elementem każdej inicjatywy cyfrowej transformacji dla firm macierzystych i ich jednostek biznesowych. Wykorzystują one aktualne systemy biznesowe, szczególnie w przypadku łączenia danych z wielu systemów wewnętrznych z nowymi, ważnymi informacjami z organizacji zewnętrznych.

 

Pulpity, wskaźniki KPI, alerty i wymagania kadry kierowniczej, kierownictwa i personelu, a także istotne potrzeby klientów i dostawców. Hurtownie danych zapewniają również szybkie, złożone eksploracje i analizy danych i nie zakłócają wydajności innych systemów biznesowych.

 

Biorąc pod uwagę elastyczność umożliwiającą rozpoczęcie działalności na małą skalę i rozbudowę w razie potrzeby, zarówno biura korporacyjne, jak i jednostki biznesowe mogą usprawnić podejmowanie decyzji i wydajność dolną dzięki nowoczesnej technologii hurtowni danych.

Hurtownia danych — często zadawane pytania

Jezioro danych to miejsce do przechowywania wszelkiego rodzaju Big Data, niezależnie od tego, czy są to dane ustrukturyzowane z aplikacji biznesowych, czy nieustrukturyzowane dane z aplikacji mobilnych, mediów społecznościowych lub urządzeń Internetu rzeczy (IoT). Ponieważ dane są przechowywane w naturalnym formacie – strukturalnym, nieustrukturyzowanym, półustrukturyzowanym lub binarnym – konwersja, normalizacja lub inne przetwarzanie mogą być potrzebne do umożliwienia analizy wielu typów danych. Większość jezior danych opiera się na chmurze ze względu na duże ilości przechowywanych danych, potrzebę szybkich połączeń z rozproszonymi źródłami oraz potrzebę skalowalności.

ETL to skrót angielskiego wyrażenia „Extract, Transform, Load”, które oznacza ekstrakcję, transformację i ładowanie danych. Wszystkie te działania stanowią proces wykorzystywany przy pobieraniu danych ze źródła i konwertowaniu ich na format możliwy do wykorzystania, a następnie przenoszeniu do hurtowni lub innego magazynu danych. ETL przydaje się szczególnie w przypadku danych transakcyjnych, ale bardziej zaawansowane narzędzia mogą również zarządzać różnymi rodzajami danych nieustrukturyzowanych.

Hurtownia danych to podzielony segment hurtowni danych, który jest zorientowany na określony obszar biznesowy lub zespół, taki jak finanse lub marketing. Marki danych ułatwiają działom szybki dostęp do istotnych dla nich danych i analiz, a także kontrolę nad własnymi zbiorami danych w obrębie większego magazynu danych.

Modele danych są podstawowym elementem rozwoju i analizy oprogramowania. Model danych to opis struktury danych oraz formy, w jakiej dane będą przechowywane w bazie danych. Model danych zapewnia strukturę relacji między elementami danych w ramach bazy danych, a także przewodnik po wykorzystaniu danych.

 

Modelowanie danych to proces tworzenia modeli danych. Podczas tworzenia bazy danych lub struktury hurtowni danych projektant rozpoczyna od wykresu przepływu danych do i z bazy danych lub hurtowni danych. Ten diagram przepływu służy do definiowania cech formatów danych, struktur i funkcji obsługi baz danych w celu efektywnego zaspokojenia wymagań dotyczących przepływu danych. Modelowanie zapewnia ustandaryzowaną metodę definiowania i formatowania zawartości bazy danych w sposób spójny w różnych systemach, umożliwiając różnym aplikacjom współużytkowanie tych samych danych.

Hurtownia danych przedsiębiorstwa (EDW) przechowuje wszystkie aktualne i historyczne dane biznesowe w jednym miejscu – przykład zarządzania danymi podstawowymi, hurtowni danych oraz strategia danych oparta na całościowym podejściu do zarządzania danymi. EDW zapewniają przyjazne środowisko dla oprogramowania analitycznego i opracowania dokładnych wskaźników KPI dla całej firmy oraz raportowania. Wiele EDW jest opartych na chmurze dla skalowalności, dostępu i łatwości użytkowania.

placeholder

Poznaj nowoczesne narzędzia do hurtowni danych

SAP Datasphere to kolejna generacja SAP Data Warehouse Cloud.

placeholder

Pomysłów nie znajdziesz nigdzie indziej

Zarejestruj się, aby otrzymać dawkę rozwiązań Business Intelligence dostarczanych bezpośrednio na Twoją skrzynkę odbiorczą.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel