Co to jest jezioro danych?
Jezioro danych to centralne repozytorium danych, które pomaga rozwiązać problemy z silosami danych.
Przegląd jeziora danych
Zasadniczo jezioro danych jest repozytorium informacji. Jeziora danych są często mylone z hurtowniami danych, ale zarówno służą różnym potrzebom biznesowym, jak i mają różne architektury. W szczególności jeziora danych w chmurze stanowią istotny element nowoczesnej strategii zarządzania danymi, ponieważ rozprzestrzenianie się danych społecznościowych, danych maszynowych z Internetu rzeczy (IoT) i danych transakcyjnych stale się przyspiesza. Umiejętność przechowywania, przekształcania i analizowania dowolnych typów danych toruje drogę do nowych szans biznesowych i transformacji cyfrowej — i tu kryje się rola jeziora danych.
90
%
instytucji finansowych uważa, że inicjatywy Big Data decydują o przyszłym sukcesie
64.2
W 2020 r. utworzono zettabajty danych cyfrowych
17.6
B $USD
szacunkowa wartość rynku Data Lake do 2026 r.
Definicja jeziora danych
Jezioro danych to centralne repozytorium danych, które pomaga rozwiązać problemy z silosami danych. Co ważne, jezioro danych przechowuje ogromne ilości surowych danych w swoim natywnym – lub oryginalnym – formacie. Format ten może być ustrukturyzowany, nieustrukturyzowany lub częściowo ustrukturyzowany. Laki danych, zwłaszcza te w chmurze, są tanie, łatwo skalowalne i często używane z zastosowanymi analizami uczenia maszynowego.
Jezioro danych a hurtownia danych
W przeciwieństwie do jeziora danych hurtownia danych zapewnia funkcje zarządzania danymi i przechowuje przetworzone i przefiltrowane dane, które są już przetwarzane dla predefiniowanych pytań biznesowych lub przypadków użycia.
Schemat przedstawiający porównanie hurtowni danych z jeziorem danych.
Hurtownie danych i jeziora często się uzupełniają. Na przykład, gdy dane niesformatowane przechowywane w jeziorze danych są potrzebne do udzielenia odpowiedzi na pytanie biznesowe, można je wyodrębnić, wyczyścić, przekształcić i wykorzystać w hurtowni danych do dalszej analizy.
„Data Lakehouse” to nowa i rozwijająca się koncepcja, która oprócz tradycyjnego jeziora danych dodaje możliwości zarządzania danymi. Zasadniczo jest to połączenie jeziora danych i hurtowni danych.
Oprócz rodzaju danych i różnic w wyżej wymienionym procesie przedstawiono kilka szczegółów porównujących jezioro danych z rozwiązaniem hurtowni danych.
Ostatecznie wolumen danych, wydajność bazy danych i ceny pamięci masowej odegrają ważną rolę w wyborze odpowiedniego rozwiązania pamięci masowej.
Kluczowe elementy rozwiązania Data Lake
Przenoszenie danych: jeziora danych umożliwiają import dowolnego typu danych z wielu źródeł w formacie natywnym. Umożliwia to firmom skalowanie rozmiaru danych w zależności od potrzeb bez konieczności definiowania struktur danych, schematów i transformacji, co może skutkować oszczędnościami kosztów pośrednich.
Bezpieczne przechowywanie i przechowywanie danych katalogowych: jezioro danych przechowuje dane ustrukturyzowane, półustrukturyzowane i nieustrukturyzowane z różnych źródeł, takich jak dane biznesowe z oprogramowania CRM lub ERP, urządzeń IoT, mediów społecznościowych, a nawet dane historyczne z poprzednich systemów. Laki danych umożliwiają przechwytywanie danych wsadowych i strumieniowych przy zastosowaniu nadzoru, bezpieczeństwa i kontroli. Dane mogą być wyszukiwane bezpośrednio lub wprowadzane do hurtowni danych za pomocą odpowiednich narzędzi.
Analizy i uczenie maszynowe: Liny danych umożliwiają bazujący na rolach dostęp do informacji w celu uruchamiania analiz i analizy uczenia maszynowego bez konieczności przenoszenia danych do oddzielnej bazy danych analizy. Ponadto jeziora danych umożliwiają łączenie danych historycznych z danymi w czasie rzeczywistym w celu udoskonalenia modeli uczenia maszynowego lub analiz predykcyjnych w celu zapewnienia lepszych i/lub nowych wyników.
Jak działają jeziora danych
Nowoczesne jezioro danych ma trzy główne cechy:
- Strefa lądowania dla niesformatowanych danych
- Strefa przygotowania, w której dane są przekształcane z myślą o celu analitycznym
- Strefa eksploracji danych, w której dane są wykorzystywane przez analizy, aplikacje oraz do przekazywania modeli uczenia maszynowego
Z jeziora danych informacje są dostarczane do różnych źródeł, takich jak analityka lub inne aplikacje biznesowe, lub do narzędzi uczenia maszynowego w celu dalszej analizy.
Przypadek użycia jeziora danych
Oto dwa przykłady zastosowania jeziora danych w handlu detalicznym.
Długoterminowe dane sprzedaży są przechowywane w jeziorze danych wraz z nieustrukturyzowanymi danymi, takimi jak strumienie kliknięć na stronie internetowej, pogoda, wiadomości i dane mikro-/makroekonomiczne. Przechowywanie tych danych i ich dostępność ułatwia naukowcowi łączenie tych różnych źródeł informacji w model, który prognozuje popyt na konkretny produkt lub linię produktów. Informacje te są następnie wykorzystywane jako dane wejściowe do systemu ERP w celu zwiększenia lub zmniejszenia planów produkcji.
Jednocześnie ekspert ds. marketingu może uzyskać dostęp do tego samego jeziora danych i przyjrzeć się analizie nastawienia strony internetowej i mediów społecznościowych z wiadomościami, danymi makroekonomicznymi i historią sprzedaży, aby określić, na których produktach należy się skupić i jak najlepiej zmaksymalizować sprzedaż, zysk i/lub adopcję.
Rodzaje jezior danych
Jeziora danych mogą znajdować się w obiektach, w chmurze, hybrydzie zarówno, jak i w wielu hiperskalach chmury, takich jak Amazon Web Services (AWS), Microsoft Azure lub Google Cloud.
Do tej pory najpopularniejszym rodzajem jeziora danych jest jezioro danych w chmurze. Jezioro danych w chmurze zapewnia wszystkie zwykłe funkcje jeziora danych, ale w pełni zarządzaną usługę chmurową.
Jezioro danych on-premise: dzięki jeziorowi danych on-premise wewnętrzne zasoby IT zarządzają sprzętem, oprogramowaniem i procesami. Podejście to wiąże się z większym zaangażowaniem w wydatki kapitałowe (CAPEX), a dane są zazwyczaj rozproszone.
Jezioro danych w chmurze: W jeziorze danych w chmurze infrastruktura lokalna jest zlecana na zewnątrz. Istnieje większe zaangażowanie w wydatki operacyjne (OPEX), ale takie podejście umożliwia przedsiębiorstwom łatwiejsze skalowanie, a także wiele innych korzyści (zob. poniżej).
Hybrydowe jezioro danych: w wybranych przypadkach niektóre firmy decydują się na jednoczesne opracowywanie zarówno jezior lokalnych, jak i jezior danych w chmurze. Sytuacja ta jest dość rzadka i najczęściej obserwowana w scenariuszach migracji z rozwiązania lokalnego do chmury.
Wielochmurowe jezioro danych: w wielochmurowym jeziorze danych dwie lub więcej ofert chmurowych są łączone; na przykład firma może używać zarówno platformy AWS, jak i platformy Azure do zarządzania i utrzymywania jezior danych w chmurze. Wymaga to większej wiedzy fachowej, aby zapewnić wzajemną komunikację między różnymi platformami.
Sześć najważniejszych zalet jeziora danych w chmurze
Dlaczego warto wybrać jezioro danych w chmurze? Przekształcenie danych w wartościowy zasób biznesowy napędza transformację cyfrową. Podstawę stanowią atuty chmury w połączeniu z jeziorem danych. Jezioro danych w chmurze umożliwia firmom stosowanie analiz do danych historycznych, a także nowych źródeł danych, takich jak pliki logów, strumienie kliknięć, media społecznościowe, urządzenia połączone z Internetem itp.
Oto niektóre z kluczowych korzyści, których należy się spodziewać:
- Efektywność kosztowa: dostawcy pamięci masowej w chmurze oferują wiele opcji przechowywania i wyceny.
- Automatyczne skalowanie: usługi w chmurze zostały zaprojektowane z myślą o zapewnieniu funkcji skalowania, aby umożliwić firmom obliczanie i wykorzystanie pojemności pamięci masowej na żądanie.
- Centralne repozytorium danych: jezioro danych w chmurze łączy informacje, pełniąc rolę jednego źródła danych z regulowanym dostępem do danych, który pozwala na wydajność procesów między zespołami.
- Bezpieczeństwo danych: Dostawcy pamięci masowej w chmurze gwarantują bezpieczeństwo danych poprzez model współodpowiedzialności.
- Narzędzia: dostawcy pamięci masowej w chmurze i inni dostawcy zapewniają narzędzia ETL, które indeksują dane, tworzą katalog danych i wykonują przygotowanie danych, transformację i pozyskiwanie danych w celu umożliwienia zapytania o dane.
- Ulepszone analizy zapewniające nowe analizy i lepsze wyniki biznesowe: jezioro danych w chmurze może łączyć dane na nowe sposoby. Na przykład dane CRM i analizy mediów społecznościowych mogą zapewnić nowy wgląd w przyczyny odpływu klientów lub pokazać, które promocje zwiększają lojalność. Wydajność operacyjną można również poprawić poprzez analizę danych IoT.
Często zadawane pytania dotyczące jeziora danych
Poznaj niektóre z najczęściej zadawanych pytań dotyczących jezior danych poniżej i zapoznaj się z naszym słownikiem zarządzania danymi, aby uzyskać więcej definicji.
Zacznij korzystać z rozwiązań Data Lake
Poznaj możliwości jeziora danych w rozwiązaniu SAP HANA Cloud.
Pomysłów nie znajdziesz nigdzie indziej
Zarejestruj się, aby otrzymać dawkę rozwiązań Business Intelligence dostarczanych bezpośrednio na Twoją skrzynkę odbiorczą.