Czym jest hurtownia danych?
Hurtownia danych (DW) to cyfrowy system przechowywania, który łączy i harmonizuje duże ilości danych z wielu różnych źródeł. Jego celem jest dostarczanie danych Business Intelligence (BI), raportów i analiz oraz obsługa wymogów regulacyjnych, tak aby firmy mogły przekształcać swoje dane w analizy i podejmować inteligentne decyzje oparte na danych. Hurtownie danych przechowują aktualne i historyczne dane w jednym miejscu i działają jako jedno źródło wiarygodnych informacji dla organizacji.
Przepływy danych do hurtowni danych z systemów operacyjnych (takich jak ERP i CRM), baz danych i źródeł zewnętrznych, takich jak systemy partnerów, urządzenia Internetu rzeczy (IoT), aplikacje pogodowe i media społecznościowe – zazwyczaj w regularnych odstępach czasu. Pojawienie się chmury obliczeniowej spowodowało zmianę krajobrazu. W ostatnich latach miejsca przechowywania danych odeszły od tradycyjnej infrastruktury lokalnej do wielu lokalizacji, w tym lokalnie, w chmurze prywatnej i w chmurze publicznej.
Nowoczesne hurtownie danych są zaprojektowane do obsługi zarówno ustrukturyzowanych, jak i nieustrukturalizowanych danych, takich jak pliki wideo, pliki obrazów i dane z czujników. Niektóre z nich wykorzystują zintegrowaną technologię analityczną i technologię baz danych in-memory (przechowującą zbiór danych w pamięci komputera, a nie w pamięci dyskowej), aby zapewnić dostęp do wiarygodnych danych w czasie rzeczywistym i podejmować trafne decyzje. Bez hurtowni danych bardzo trudno jest łączyć dane z heterogenicznych źródeł, zapewnić, że są we właściwym formacie dla celów analitycznych i uzyskać zarówno bieżący, jak i dalekosiężny wgląd w dane w czasie.
Czym jest hurtownia danych?
Korzyści z hurtowni danych
Dobrze zaprojektowana hurtownia danych stanowi podstawę każdego udanego programu BI lub analitycznego. Jego głównym zadaniem jest dostarczanie raportów, kokpitów menedżerskich i narzędzi analitycznych, które stały się obecnie niezbędne dla przedsiębiorstw. Hurtownia danych udostępnia informacje umożliwiające podejmowanie decyzji w oparciu o dane i ułatwia wykonywanie właściwych rozmów, począwszy od opracowania nowych produktów, a skończywszy na poziomach zapasów. Istnieje wiele zalet hurtowni danych. Oto tylko kilka z nich:
- Lepsze analizy biznesowe: dzięki hurtowni danych decydenci mają dostęp do danych z wielu źródeł i nie muszą już podejmować decyzji na podstawie niekompletnych informacji.
- Szybsze zapytania: Hurtownie danych są budowane specjalnie z myślą o szybkim pobieraniu i analizowaniu danych. DW pozwala na szybkie wysyłanie zapytań do dużych ilości skonsolidowanych danych bez wsparcia działu IT.
- Poprawa jakości danych: Przed wczytaniem do DW system tworzy przypadki czyszczenia danych i wprowadza je do listy roboczej w celu dalszego przetwarzania, zapewniając, że dane są przekształcane w spójny format wspierający analizy – i decyzje – w oparciu o wysokiej jakości, dokładne dane.
- Analiza historyczna: przechowując bogate dane historyczne, hurtownia danych umożliwia decydentom wyciągnięcie wniosków z przeszłych trendów i wyzwań, przygotowywanie prognoz i ciągłe doskonalenie działalności.
Zrzut ekranu hurtowni danych przedstawiający pochodzenie danych.
Co może przechowywać hurtownia danych?
Kiedy hurtownie danych stały się po raz pierwszy popularne pod koniec lat 80., zaprojektowano je do przechowywania informacji o ludziach, produktach i transakcjach. Dane te – zwane danymi ustrukturyzowanymi – były starannie uporządkowane i sformatowane w celu zapewnienia łatwego dostępu. Jednak firmy wkrótce chciały przechowywać, pobierać i analizować nieuporządkowane dane, takie jak dokumenty, obrazy, wideo, e-maile, wpisy w mediach społecznościowych i surowe dane z czujników maszyn.
Nowoczesna hurtownia danych może pomieścić zarówno ustrukturyzowane, jak i nieustrukturalizowane dane. Dzięki scaleniu tych typów danych i rozbiciu silosów między nimi firmy mogą uzyskać pełny, kompleksowy obraz najcenniejszych informacji.
Kilka kluczowych terminów
W świecie DW jest mnóstwo terminów, które można uznać za sensowne. Oto jedne z najważniejszych. Zapoznaj się z innymi terminami i często zadawanymi pytaniami (FAQ) w naszym słowniku.
Hurtownia danych a baza danych
Bazy danych i hurtownie danych są systemami przechowywania danych, jednak służą różnym celom. Baza danych przechowuje dane zwykle dla określonego obszaru biznesowego. Magazyn danych przechowuje aktualne i historyczne dane dla całej działalności i wykorzystuje BI oraz analizy. Hurtownie danych używają serwera bazy danych do pobierania danych z baz danych organizacji i posiadają dodatkowe funkcjonalności w zakresie modelowania danych, zarządzania cyklem życia danych, integracji źródeł danych itd.
Hurtownia danych a jezioro danych
Do przechowywania Big Data wykorzystywane są zarówno hurtownie danych, jak i jeziora danych, ale są to bardzo różne systemy przechowywania. Magazyn danych przechowuje dane, które zostały sformatowane w określonym celu, natomiast jezioro danych przechowuje dane w stanie surowym, nieprzetworzonym – którego cel nie został jeszcze zdefiniowany. Magazyny danych i jeziora często się uzupełniają. Na przykład, gdy do udzielenia odpowiedzi na pytanie biznesowe potrzebne są surowe dane przechowywane w jeziorze, można je wyodrębnić, wyczyścić, przekształcić i wykorzystać do analizy w hurtowni danych. Wolumen danych, wydajność bazy danych i ustalanie cen za przechowywanie odgrywają ważną rolę w wyborze odpowiedniego rozwiązania do przechowywania danych.
Wykres hurtowni danych w porównaniu z jeziorem danych.
Hurtownia danych a hurtownia danych
tematyczna hurtownia danych to podsekcja hurtowni danych, podzielona na partycje specjalnie dla działu lub dziedziny, takiej jak sprzedaż, marketing lub finanse. Niektóre marże danych są również tworzone w niezależnych celach operacyjnych. Podczas gdy hurtownia danych służy jako centralne archiwum danych dla całej firmy, hurtownia danych obsługuje istotne dane dla wybranej grupy użytkowników. Upraszcza to dostęp do danych, przyspiesza analizę i daje im kontrolę nad własnymi danymi. W hurtowni danych często wdrażanych jest wiele hurtowni danych.
Diagram składnicy danych i sposób jej działania.
Jakie są kluczowe składniki hurtowni danych?
Typowa hurtownia danych ma cztery główne komponenty: centralną bazę danych, narzędzia ETL (ekstrakcja, transformacja, ładowanie), metadane i narzędzia dostępowe. Wszystkie te komponenty są projektowane z myślą o szybkości, dzięki czemu można szybko uzyskać wyniki i analizować dane na bieżąco.
Wykres przedstawiający komponenty hurtowni danych.
- Centralna baza danych: Baza danych stanowi podstawę hurtowni danych. Tradycyjnie były to standardowe relacyjne bazy danych działające lokalnie lub w chmurze. Jednak ze względu na Big Data, potrzebę prawdziwej wydajności w czasie rzeczywistym i drastyczne obniżenie kosztów pamięci RAM, bazy danych in-memory szybko zyskują na popularności.
- Integracja danych: dane są pobierane z systemów źródłowych i modyfikowane w celu dostosowania informacji do szybkiego wykorzystania analitycznego przy użyciu różnych podejść do integracji danych, takich jak ETL (ekstrakcja, transformacja, ładowanie) i ELT, a także replikacja danych w czasie rzeczywistym, przetwarzanie wsadowe, transformacja danych oraz usługi zapewniania jakości i rozszerzania danych.
- Metadane: Metadane są danymi dotyczącymi Twoich danych. Określa źródło, wykorzystanie, wartości i inne funkcje zbiorów danych w magazynie danych. Istnieją metadane biznesowe, które dodają kontekst do danych, oraz metadane techniczne, które opisują sposób dostępu do danych – w tym miejsce ich przechowywania i strukturę.
- Narzędzia dostępu do hurtowni danych: Narzędzia dostępu umożliwiają użytkownikom interakcję z danymi w hurtowni danych. Przykłady narzędzi dostępu to: narzędzia zapytań i raportowania, narzędzia do projektowania aplikacji, narzędzia do eksploracji danych oraz narzędzia OLAP.
Architektura hurtowni danych
W przeszłości hurtownie danych działały w warstwach zgodnych z przepływem danych biznesowych.
Diagram architektury hurtowni danych. Typowa hurtownia danych obejmuje trzy oddzielne warstwy powyżej. Obecnie nowoczesne hurtownie danych łączą OLTP i OLAP w jednym systemie.
- Warstwa danych: Dane są wyodrębniane ze źródeł, a następnie przekształcane i wczytywane do dolnej warstwy za pomocą narzędzi ETL. Dolna warstwa składa się z serwera bazy danych, hurtowni danych i jezior danych. W tej warstwie tworzone są metadane – narzędzia integracji danych, takie jak wirtualizacja danych, służą do płynnego łączenia i agregowania danych.
- Warstwa semantyki: w warstwie średniej serwery przetwarzania analitycznego (OLAP) i przetwarzania transakcyjnego online (OLTP) restrukturyzują dane w celu szybkiego, złożonego zapytania i analiz.
- Warstwa analityczna: Górna warstwa to warstwa klienta z kontem front-end. Zawiera narzędzia umożliwiające dostęp do hurtowni danych, które umożliwiają użytkownikom interakcję z danymi, tworzenie pulpitów i raportów, monitorowanie wskaźników KPI, eksplorację i analizę danych, tworzenie aplikacji itd. Warstwa ta często obejmuje obszar roboczy lub testowy do eksploracji danych i projektowania nowego modelu danych.
Hurtownie danych zostały zaprojektowane z myślą o wspieraniu procesu podejmowania decyzji i zostały zbudowane i utrzymywane głównie przez zespoły IT, ale w ciągu ostatnich kilku lat rozwijały się w taki sposób, aby umożliwić użytkownikom biznesowym — zmniejszając ich poleganie na IT w celu uzyskania dostępu do danych i uzyskania przydatnych informacji. Oto kilka kluczowych funkcji hurtowni danych, które umożliwiły użytkownikom biznesowym:
- Warstwa semantyczna lub biznesowa zapewniająca frazy w języku naturalnym i pozwalająca każdemu na błyskawiczne zrozumienie danych, definiowanie relacji między elementami w modelu danych i wzbogacanie pól danych o nowe informacje biznesowe.
- Wirtualne obszary robocze umożliwiają zespołom wprowadzanie modeli danych i połączeń do jednego bezpiecznego i zarządzanego miejsca wspierającego lepszą współpracę ze współpracownikami w ramach jednej wspólnej przestrzeni i jednego wspólnego zbioru danych.
- Chmura jeszcze bardziej usprawniła proces podejmowania decyzji dzięki globalnemu wyposażeniu pracowników w bogaty zestaw narzędzi i funkcji umożliwiających łatwe wykonywanie zadań związanych z analizą danych. Mogą łączyć nowe aplikacje i źródła danych bez większego wsparcia IT.
Najważniejsze siedem zalet hurtowni danych w chmurze
Hurtownie danych oparte na chmurze zyskują na popularności – z ważnego powodu. Te nowoczesne magazyny oferują kilka zalet nad tradycyjnymi, lokalnymi wersjami. Oto siedem największych zalet hurtowni danych w chmurze:
- Szybkie wdrożenie: dzięki hurtowni danych w chmurze możesz nabyć niemal nieograniczoną moc obliczeniową i pamięć danych za pomocą zaledwie kilku kliknięć — i możesz zbudować własną hurtownię danych, hurtownie danych i piaskownice z dowolnego miejsca i w ciągu kilku minut.
- Niski całkowity koszt posiadania (TCO): Modele ustalania cen hurtowni danych jako usługi (DWaaS) są skonfigurowane, więc płacisz tylko za potrzebne zasoby, gdy ich potrzebujesz. Nie musisz prognozować swoich długoterminowych potrzeb ani płacić za większe obliczenia w ciągu roku, niż jest to konieczne. Można również uniknąć kosztów początkowych, takich jak kosztowny sprzęt, serwerownie i personel zajmujący się konserwacją. Oddzielenie wyceny magazynu od wyceny obliczeniowej umożliwia również obniżenie kosztów.
- Elastyczność: Dzięki hurtowni danych w chmurze można w razie potrzeby dynamicznie powiększać się lub zmniejszać. Chmura zapewnia nam zwirtualizowane, wysoce rozproszone środowisko, w którym można zarządzać ogromnymi ilościami danych, które mogą się rozrastać.
- Bezpieczeństwo i odtwarzanie po awarii: W wielu przypadkach hurtownie danych w chmurze zapewniają większe bezpieczeństwo danych i szyfrowanie niż lokalne hurtownie danych. Dane są również automatycznie duplikowane i tworzone są kopie zapasowe, co pozwala zminimalizować ryzyko utraty danych.
- Technologie w czasie rzeczywistym: hurtownie danych w chmurze oparte na technologii baz danych in-memory mogą zapewnić niezwykle szybkie przetwarzanie danych, dostarczając dane w czasie rzeczywistym w celu uzyskania natychmiastowej orientacji sytuacyjnej.
- Nowe technologie: hurtownie danych w chmurze pozwalają na łatwą integrację nowych technologii, takich jak uczenie maszynowe, które mogą służyć pomocą użytkownikom biznesowym i wspierać podejmowanie decyzji w formie zalecanych pytań, które należy zadać jako przykład.
- Zwiększ możliwości użytkowników biznesowych: hurtownie danych w chmurze zapewniają pracownikom jednakowe i globalne możliwości dzięki jednemu wglądowi w dane z wielu źródeł oraz bogatemu zestawowi narzędzi i funkcji umożliwiających łatwe wykonywanie zadań związanych z analizą danych. Mogą łączyć nowe aplikacje i źródła danych bez IT.
Hurtownia danych obsługuje kompleksową analizę wydatków firmy według działu, dostawców, regionu i statusu, aby wymienić kilka elementów.
Najlepsze praktyki w zakresie hurtowni danych
Kiedy budujesz nową hurtownię danych lub dodajesz nowe aplikacje do istniejącej hurtowni, istnieją sprawdzone kroki w kierunku osiągnięcia celów przy jednoczesnej oszczędności czasu i pieniędzy. Niektóre z nich koncentrują się na użytkowaniu Twojej firmy, a inne praktyki są częścią ogólnego programu IT. Poniższa lista stanowi dobry punkt wyjścia i podczas pracy z partnerami w zakresie technologii i usług wybierzesz dodatkowe najlepsze praktyki.
Najlepsze praktyki biznesowe
- Zdefiniuj wymagane informacje. Gdy dobrze zrozumiesz swoje początkowe potrzeby, znajdziesz źródła danych, które je obsługują. Często grupy handlowe, klienci i dostawcy będą mieli dla Ciebie rekomendacje danych.
- Dokumentowanie lokalizacji, struktury i jakości bieżących danych. Następnie można zidentyfikować luki w danych i reguły biznesowe dla transformacji danych w celu spełnienia wymagań magazynu.
- Zbuduj zespół. Obejmują one sponsorów wykonawczych, menedżerów i pracowników, którzy będą wykorzystywać i dostarczać informacje. Na przykład identyfikacja standardowego raportowania i wskaźników KPI niezbędnych do wykonywania zadań.
- Ustal priorytety aplikacji hurtowni danych. Wybrać jeden lub dwa projekty pilotażowe o rozsądnych wymaganiach i dobrej wartości biznesowej.
- Wybierz silnego partnera w zakresie technologii hurtowni danych. Muszą mieć usługi wdrożeniowe i doświadczenie niezbędne do realizacji projektów. Upewnij się, że spełniają one wymagania związane z wdrożeniem, w tym zarówno usługi w chmurze, jak i opcje lokalne.
- Opracowanie dobrego planu projektu. Współpraca z zespołem w zakresie realistycznej koncepcji biznesowej i harmonogramu wspierającego komunikację i raportowanie statusu.
Najlepsze praktyki IT
- Monitorowanie wydajności i bezpieczeństwa. Informacje w hurtowni danych są cenne, choć muszą być łatwo dostępne, aby zapewnić wartość organizacji. Uważnie monitoruj wykorzystanie systemu, aby mieć pewność, że poziom wydajności jest wysoki.
- Utrzymywanie standardów jakości danych, metadanych, struktury i nadzoru. Staje się rutynowo dostępne nowe źródła cennych danych, ale wymagają one spójnego zarządzania w ramach hurtowni danych. Postępuj zgodnie z procedurami czyszczenia danych, definiowania metadanych i spełniania standardów nadzoru.
- Zapewnienie elastycznej architektury. Wraz ze wzrostem wykorzystania korporacji i jednostek biznesowych odkryjesz szeroki zakres potrzeb w zakresie hurtowni danych i magazynu. Elastyczna platforma będzie je wspierać znacznie lepiej niż ograniczony, restrykcyjny produkt.
- Automatyzacja procesów, takich jak serwisowanie. Oprócz tworzenia wartości dodanej do Business Intelligence, uczenie maszynowe może zautomatyzować funkcje zarządzania technikami hurtowni danych, aby utrzymać szybkość działania i obniżyć koszty operacyjne.
- Skorzystaj z chmury strategicznie. Jednostki biznesowe i działy mają różne potrzeby w zakresie wdrożenia. W razie potrzeby korzystaj z systemów lokalnych i korzystaj z hurtowni danych w chmurze w celu zapewnienia skalowalności, niższych kosztów oraz dostępu do telefonów i tabletów.
W podsumowaniu
Nowoczesne hurtownie danych i coraz częściej chmurowe hurtownie danych będą kluczowym elementem każdej inicjatywy transformacji cyfrowej dla spółek nadrzędnych i ich jednostek biznesowych. Korzystają z bieżących systemów biznesowych, szczególnie w przypadku łączenia danych z wielu systemów wewnętrznych z nowymi, ważnymi informacjami pochodzącymi z organizacji zewnętrznych.
Pulpity, KPI, alerty i raporty wspierają kierownictwo, kierownictwo i wymagania kadr, a także ważne potrzeby klientów i dostawców. Hurtownie danych zapewniają również szybkie, złożone eksploracje i analizy danych i nie zakłócają wydajności innych systemów biznesowych.
Biorąc pod uwagę elastyczność pozwalającą na rozpoczęcie małej działalności i rozwijanie działalności w zależności od potrzeb, dzięki nowoczesnej technologii hurtowni danych zarówno biura korporacyjne, jak i jednostki biznesowe mogą usprawnić podejmowanie decyzji i zwiększyć wydajność.
Poznaj rozwiązanie
hurtowni danych SAP
Uzyskaj ujednolicone dane i analizy, by podejmować trafne decyzje w chmurze.
Więcej w tej serii
Często zadawane pytania dotyczące hurtowni danych
Jezioro danych jest miejscem przechowywania wszelkiego rodzaju Big Data, niezależnie od tego, czy są to dane ustrukturyzowane z aplikacji biznesowych, czy nieustrukturyzowane dane z aplikacji mobilnych, mediów społecznościowych czy urządzeń z Internetu rzeczy (IoT). Ponieważ dane są przechowywane w naturalnym formacie – strukturalnym, niestrukturalnym, częściowo ustrukturyzowanym lub binarnym – konwersja, normalizacja lub inne przetwarzanie mogą być potrzebne w celu umożliwienia analizy wielu typów danych. Większość jezior danych opiera się na chmurze ze względu na duże ilości przechowywanych przez nie danych, potrzebę szybkich połączeń ze źródłami rozproszonymi oraz potrzebę skalowalności.
ETL oznacza „ekstrakt, transformację i ładowanie”. Te działania razem tworzą proces używany do pobierania danych ze źródła i konwertowania ich na format użytkowy – a następnie przenoszą je do hurtowni danych lub innego magazynu danych. ETL jest szczególnie przydatny w przypadku danych transakcyjnych, ale bardziej zaawansowane narzędzia mogą również zarządzać różnymi nieustrukturyzowanymi typami danych.
Data Mart to podzielony na partycje segment hurtowni danych, który jest zorientowany na określony obszar biznesowy lub zespół, np. finanse lub marketing. Marże danych ułatwiają działom szybki dostęp do istotnych dla nich danych i analiz, a także kontrolę nad własnymi zbiorami danych w obrębie większego archiwum danych.
Modele danych są podstawowym elementem rozwoju i analiz oprogramowania. Model danych to opis struktury danych oraz forma, w jakiej dane będą przechowywane w bazie danych. Model danych zapewnia strukturę relacji między elementami danych w bazie danych, a także przewodnik użytkowania danych.
Modelowanie danych to proces tworzenia modeli danych. Podczas tworzenia struktury bazy danych lub hurtowni danych projektant rozpoczyna od diagramu, w jaki sposób dane będą przekazywane do bazy danych lub hurtowni danych oraz z nich wypływają. Ten schemat przepływu służy do definiowania cech formatów danych, struktur i funkcji obsługi bazy danych w celu efektywnego spełnienia wymagań dotyczących przepływu danych. Modelowanie zapewnia ustandaryzowaną metodę definiowania i formatowania zawartości bazy danych w sposób spójny we wszystkich systemach, umożliwiając różnym aplikacjom współdzielenie tych samych danych.
Hurtownia danych przedsiębiorstwa (EDW) przechowuje wszystkie bieżące i historyczne dane biznesowe w jednym miejscu — w ramach zarządzania danymi podstawowymi, hurtowni danych oraz strategii zarządzania danymi opartej na całościowym podejściu do zarządzania danymi. EDWs zapewniają przyjazne środowisko dla oprogramowania analitycznego oraz opracowanie dokładnych, obejmujących całą firmę wskaźników KPI i raportów. Wiele EDW opiera się na chmurze dla skalowalności, dostępu i łatwości użytkowania.
Biuletyn SAP Insights
Zasubskrybuj już dziś
Zasubskrybuj newsletter i zyskaj dostęp do najważniejszych analiz.