Co to jest jezioro danych?

Jezioro danych to centralne repozytorium danych, które pomaga rozwiązać problemy z silosami danych. 

Przegląd jeziora danych

Zasadniczo jezioro danych jest repozytorium informacji. Jeziora danych są często mylone z hurtowniami danych, ale zarówno służą różnym potrzebom biznesowym, jak i mają różne architektury. W szczególności jeziora danych w chmurze stanowią istotny element nowoczesnej strategii zarządzania danymi, ponieważ rozprzestrzenianie się danych społecznościowych, danych maszynowych z Internetu rzeczy (IoT) i danych transakcyjnych stale się przyspiesza. Umiejętność przechowywania, przekształcania i analizowania dowolnych typów danych toruje drogę do nowych szans biznesowych i transformacji cyfrowej — i tu kryje się rola jeziora danych.

90

%

instytucji finansowych uważa, że inicjatywy Big Data decydują o przyszłym sukcesie

64.2

W 2020 r. utworzono zettabajty danych cyfrowych

17.6

B $USD

szacunkowa wartość rynku Data Lake do 2026 r.

Definicja jeziora danych

Jezioro danych to centralne repozytorium danych, które pomaga rozwiązać problemy z silosami danych. Co ważne, jezioro danych przechowuje ogromne ilości surowych danych w swoim natywnym – lub oryginalnym – formacie. Format ten może być ustrukturyzowany, nieustrukturyzowany lub częściowo ustrukturyzowany. Laki danych, zwłaszcza te w chmurze, są tanie, łatwo skalowalne i często używane z zastosowanymi analizami uczenia maszynowego.

Jezioro danych a hurtownia danych

W przeciwieństwie do jeziora danych hurtownia danych zapewnia funkcje zarządzania danymi i przechowuje przetworzone i przefiltrowane dane, które są już przetwarzane dla predefiniowanych pytań biznesowych lub przypadków użycia.

Schemat przedstawiający porównanie hurtowni danych z jeziorem danych.

Hurtownie danych i jeziora często się uzupełniają. Na przykład, gdy dane niesformatowane przechowywane w jeziorze danych są potrzebne do udzielenia odpowiedzi na pytanie biznesowe, można je wyodrębnić, wyczyścić, przekształcić i wykorzystać w hurtowni danych do dalszej analizy.

 

„Data Lakehouse” to nowa i rozwijająca się koncepcja, która oprócz tradycyjnego jeziora danych dodaje możliwości zarządzania danymi. Zasadniczo jest to połączenie jeziora danych i hurtowni danych.

 

Oprócz rodzaju danych i różnic w wyżej wymienionym procesie przedstawiono kilka szczegółów porównujących jezioro danych z rozwiązaniem hurtowni danych.

Jezioro danych
Hurtownia danych
Dane
Dowolny typ danych z dowolnego źródła
Relacyjne lub ustrukturyzowane
Schemat
Schemat podczas odczytu (czas analizy)
Schemat przy zapisie (predefiniowany)
Koszty składowania
Niższy koszt – skala petabajtów
Wyższy koszt – skala terabajtów
Jakość danych
Dane utwardzone lub niepoddane obróbce
Utworzone dane
Użytkownicy
Analitycy danych, programiści danych (np. za pomocą Pythona) oraz analitycy biznesowi (używający SQL dla danych nadzorowanych)
Analitycy biznesowi używający SQL
Analityka
Uczenie maszynowe, analizy predykcyjne, wykrywanie/profilowanie danych
Raportowanie wsadowe, BI, wizualizacje

Ostatecznie wolumen danych, wydajność bazy danych i ceny pamięci masowej odegrają ważną rolę w wyborze odpowiedniego rozwiązania pamięci masowej.

Kluczowe elementy rozwiązania Data Lake

  • Przenoszenie danych: jeziora danych umożliwiają import dowolnego typu danych z wielu źródeł w formacie natywnym. Umożliwia to firmom skalowanie rozmiaru danych w zależności od potrzeb bez konieczności definiowania struktur danych, schematów i transformacji, co może skutkować oszczędnościami kosztów pośrednich.

  • Bezpieczne przechowywanie i przechowywanie danych katalogowych: jezioro danych przechowuje dane ustrukturyzowane, półustrukturyzowane i nieustrukturyzowane z różnych źródeł, takich jak dane biznesowe z oprogramowania CRM lub ERP, urządzeń IoT, mediów społecznościowych, a nawet dane historyczne z poprzednich systemów. Laki danych umożliwiają przechwytywanie danych wsadowych i strumieniowych przy zastosowaniu nadzoru, bezpieczeństwa i kontroli. Dane mogą być wyszukiwane bezpośrednio lub wprowadzane do hurtowni danych za pomocą odpowiednich narzędzi.

  • Analizy i uczenie maszynowe: Liny danych umożliwiają bazujący na rolach dostęp do informacji w celu uruchamiania analiz i analizy uczenia maszynowego bez konieczności przenoszenia danych do oddzielnej bazy danych analizy. Ponadto jeziora danych umożliwiają łączenie danych historycznych z danymi w czasie rzeczywistym w celu udoskonalenia modeli uczenia maszynowego lub analiz predykcyjnych w celu zapewnienia lepszych i/lub nowych wyników.

Jak działają jeziora danych

Nowoczesne jezioro danych ma trzy główne cechy:

  1. Strefa lądowania dla niesformatowanych danych
  2. Strefa przygotowania, w której dane są przekształcane z myślą o celu analitycznym
  3. Strefa eksploracji danych, w której dane są wykorzystywane przez analizy, aplikacje oraz do przekazywania modeli uczenia maszynowego

Z jeziora danych informacje są dostarczane do różnych źródeł, takich jak analityka lub inne aplikacje biznesowe, lub do narzędzi uczenia maszynowego w celu dalszej analizy.

 

Przypadek użycia jeziora danych

Oto dwa przykłady zastosowania jeziora danych w handlu detalicznym.

 

Długoterminowe dane sprzedaży są przechowywane w jeziorze danych wraz z nieustrukturyzowanymi danymi, takimi jak strumienie kliknięć na stronie internetowej, pogoda, wiadomości i dane mikro-/makroekonomiczne. Przechowywanie tych danych i ich dostępność ułatwia naukowcowi łączenie tych różnych źródeł informacji w model, który prognozuje popyt na konkretny produkt lub linię produktów. Informacje te są następnie wykorzystywane jako dane wejściowe do systemu ERP w celu zwiększenia lub zmniejszenia planów produkcji.

 

Jednocześnie ekspert ds. marketingu może uzyskać dostęp do tego samego jeziora danych i przyjrzeć się analizie nastawienia strony internetowej i mediów społecznościowych z wiadomościami, danymi makroekonomicznymi i historią sprzedaży, aby określić, na których produktach należy się skupić i jak najlepiej zmaksymalizować sprzedaż, zysk i/lub adopcję.

Rodzaje jezior danych

Jeziora danych mogą znajdować się w obiektach, w chmurze, hybrydzie zarówno, jak i w wielu hiperskalach chmury, takich jak Amazon Web Services (AWS), Microsoft Azure lub Google Cloud.

 

Do tej pory najpopularniejszym rodzajem jeziora danych jest jezioro danych w chmurze. Jezioro danych w chmurze zapewnia wszystkie zwykłe funkcje jeziora danych, ale w pełni zarządzaną usługę chmurową.

  • Jezioro danych on-premise: dzięki jeziorowi danych on-premise wewnętrzne zasoby IT zarządzają sprzętem, oprogramowaniem i procesami. Podejście to wiąże się z większym zaangażowaniem w wydatki kapitałowe (CAPEX), a dane są zazwyczaj rozproszone.

  • Jezioro danych w chmurze: W jeziorze danych w chmurze infrastruktura lokalna jest zlecana na zewnątrz. Istnieje większe zaangażowanie w wydatki operacyjne (OPEX), ale takie podejście umożliwia przedsiębiorstwom łatwiejsze skalowanie, a także wiele innych korzyści (zob. poniżej).

  • Hybrydowe jezioro danych: w wybranych przypadkach niektóre firmy decydują się na jednoczesne opracowywanie zarówno jezior lokalnych, jak i jezior danych w chmurze. Sytuacja ta jest dość rzadka i najczęściej obserwowana w scenariuszach migracji z rozwiązania lokalnego do chmury.

  • Wielochmurowe jezioro danych: w wielochmurowym jeziorze danych dwie lub więcej ofert chmurowych są łączone; na przykład firma może używać zarówno platformy AWS, jak i platformy Azure do zarządzania i utrzymywania jezior danych w chmurze. Wymaga to większej wiedzy fachowej, aby zapewnić wzajemną komunikację między różnymi platformami.

Sześć najważniejszych zalet jeziora danych w chmurze

Dlaczego warto wybrać jezioro danych w chmurze? Przekształcenie danych w wartościowy zasób biznesowy napędza transformację cyfrową. Podstawę stanowią atuty chmury w połączeniu z jeziorem danych. Jezioro danych w chmurze umożliwia firmom stosowanie analiz do danych historycznych, a także nowych źródeł danych, takich jak pliki logów, strumienie kliknięć, media społecznościowe, urządzenia połączone z Internetem itp.

 

Oto niektóre z kluczowych korzyści, których należy się spodziewać:

  1. Efektywność kosztowa: dostawcy pamięci masowej w chmurze oferują wiele opcji przechowywania i wyceny.
  2. Automatyczne skalowanie: usługi w chmurze zostały zaprojektowane z myślą o zapewnieniu funkcji skalowania, aby umożliwić firmom obliczanie i wykorzystanie pojemności pamięci masowej na żądanie.
  3. Centralne repozytorium danych: jezioro danych w chmurze łączy informacje, pełniąc rolę jednego źródła danych z regulowanym dostępem do danych, który pozwala na wydajność procesów między zespołami.
  4. Bezpieczeństwo danych: Dostawcy pamięci masowej w chmurze gwarantują bezpieczeństwo danych poprzez model współodpowiedzialności.
  5. Narzędzia: dostawcy pamięci masowej w chmurze i inni dostawcy zapewniają narzędzia ETL, które indeksują dane, tworzą katalog danych i wykonują przygotowanie danych, transformację i pozyskiwanie danych w celu umożliwienia zapytania o dane.
  6. Ulepszone analizy zapewniające nowe analizy i lepsze wyniki biznesowe: jezioro danych w chmurze może łączyć dane na nowe sposoby. Na przykład dane CRM i analizy mediów społecznościowych mogą zapewnić nowy wgląd w przyczyny odpływu klientów lub pokazać, które promocje zwiększają lojalność. Wydajność operacyjną można również poprawić poprzez analizę danych IoT.

Często zadawane pytania dotyczące jeziora danych

Poznaj niektóre z najczęściej zadawanych pytań dotyczących jezior danych poniżej i zapoznaj się z naszym słownikiem zarządzania danymi, aby uzyskać więcej definicji.

Termin „jezioro danych” ewoluował tak, aby odzwierciedlał koncepcję płynnego, większego magazynu danych – w porównaniu z bardziej rozproszoną, dobrze zdefiniowaną i ustrukturyzowaną hurtownią danych.

 

Ponad dekadę temu, wraz ze wzrostem liczby źródeł danych, jeziora danych zmieniły się, aby zaspokoić potrzebę przechowywania petabajtów niezdefiniowanych danych do późniejszej analizy. Wczesne jeziora danych były oparte na systemie plików Hadoop (HDFS) i sprzęcie towarowym opartym na lokalnych centrach danych. Jednak nieodłączne wyzwania związane z architekturą rozproszoną oraz potrzeba niestandardowej transformacji i analizy danych przyczyniły się do nieoptymalnej wydajności systemów opartych na Hadoop.

 

Technologie przetwarzania w chmurze i przechowywania danych są obecnie główną podstawą nowoczesnego stosu danych i jezior danych w chmurze.

Hurtownia danych (DW) to cyfrowy system przechowywania danych, który łączy i harmonizuje duże ilości ustrukturyzowanych i sformatowanych danych z wielu różnych źródeł. Natomiast jezioro danych przechowuje dane w oryginalnej formie i nie jest ustrukturyzowane ani sformatowane.

Zarządzanie danymi to proces gromadzenia, organizowania i uzyskiwania dostępu do danych w celu wsparcia produktywności, wydajności i podejmowania decyzji.

Lakehouse danych dodaje funkcje zarządzania danymi i magazynów oprócz możliwości tradycyjnego jeziora danych. Jest to nowy i rozwijający się obszar, który szybko się zmienia.

Multicloud to korzystanie z wielu usług przetwarzania w chmurze i przechowywania danych w jednej heterogenicznej architekturze. Dotyczy to na przykład dystrybucji zasobów, oprogramowania i aplikacji w chmurze w kilku środowiskach hostingowych w chmurze.

Pamięć do przechowywania plików organizuje i przedstawia dane jako hierarchię plików w folderach; blokuje fragmenty pamięci w dowolnie zorganizowane wolumeny o równomiernym rozmiarze; pamięć obiektów zarządza danymi i łączy je z powiązanymi metadanymi. Systemy przechowywania obiektów pozwalają na zatrzymywanie ogromnych ilości nieustrukturyzowanych danych.

placeholder

Zacznij korzystać z rozwiązań Data Lake

Poznaj możliwości jeziora danych w rozwiązaniu SAP HANA Cloud.

placeholder

Pomysłów nie znajdziesz nigdzie indziej

Zarejestruj się, aby otrzymać dawkę rozwiązań Business Intelligence dostarczanych bezpośrednio na Twoją skrzynkę odbiorczą.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel