Co to jest jezioro danych?
Jezioro danych to scentralizowane repozytorium danych, które pomaga rozwiązać problemy z silosem danych.
default
{}
default
{}
primary
default
{}
secondary
Co to jest jezioro danych: definicja i cel
Jezioro danych to scentralizowane repozytorium, które przechowuje ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane dane w swoich natywnych formatach. W przeciwieństwie do innych systemów przechowywania, które wymagają uporządkowania danych przed ich zapisaniem (np. hurtownie danych), jezioro danych akceptuje niesformatowane dane w obecnej postaci, zachowując pierwotną strukturę i format do czasu, gdy będą potrzebne do zaawansowanych analiz, sztucznej inteligencji (AI) i uczenia maszynowego (ML).
Głównym celem jeziora danych jest podział silosów danych i utworzenie jednego źródła dla zasobów danych organizacji. Obejmuje konsolidację danych z wielu źródeł w jedną, dostępną lokalizację — jezioro danych, co oznacza, że analitycy danych, analitycy i inżynierowie uczenia maszynowego mogą wszyscy badać, eksperymentować i wyodrębniać wartość z informacji, które w przeciwnym razie mogły pozostać w pułapce w różnych systemach. Przykładowe źródła danych, które mogą być przechowywane w jeziorze danych, to:
- Bazy danych
- Pliki
- Strumienie
- Logi aplikacji
- Kanały mediów społecznościowych
- Logi czujników IoT
Celem jeziora danych jest zapewnienie elastycznego, skalowalnego rozwiązania do przechowywania i analizy danych wszystkich typów. Jest to możliwe dzięki metodzie schema-on-read (vs. schemat na zapisie, używany w hurtowniach danych).
Co oznacza schemat w czytaniu?
Schemat przy odczycie oznacza, że struktura i znaczenie danych – schemat – są stosowane, gdy uzyskuje się do nich dostęp, a nie wtedy, gdy są przechowywane. Pozwala to zachować elastyczność, umożliwiając organizacjom przechowywanie danych, nie wiedząc dokładnie, jak będą one wykorzystywane w przyszłości. Dlatego jeziora danych są idealne do analiz eksploracyjnych, eksploracji danych, uczenia maszynowego i odkrywania nieoczekiwanych wzorców w danych.
Architektura i komponenty jeziora danych
Architektura jeziora danych jest wielowarstwowa i składa się z kilku kluczowych komponentów, które współpracują ze sobą w celu przyjmowania, przechowywania, przetwarzania i dostarczania danych do użytkowników końcowych i aplikacji. Te kluczowe składniki jeziora danych to:
Warstwa składowania
Warstwa pamięci masowej stanowi podstawę architektury jeziora danych, zazwyczaj zbudowanej na systemach przechowywania obiektów, które zapewniają opłacalne, skalowalne przechowywanie dużych wolumenów danych. Ta warstwa przechowuje dane w natywnym formacie, niezależnie od tego, czy są to pliki CSV, dokumenty JSON, pliki parkietu, obrazy, filmy czy inny format.
Pozyskiwanie danych
Warstwa pozyskiwania danych obsługuje proces wprowadzania danych do jeziora z różnych źródeł. Obejmuje to pozyskiwanie wsadowe dla okresowego ładowania danych i pozyskiwania danych strumieniowych dla strumieni danych w czasie rzeczywistym. Narzędzia do pozyskiwania danych muszą obsługiwać różne typy danych i źródła, zapewniając jednocześnie integralność danych i śledzenie pochodzenia danych.
Zarządzanie katalogiem danych i metadanymi
Komponent katalogowania i zarządzania metadanymi opracowuje zorganizowaną inwentaryzację danych istniejących w jeziorze, w tym ich lokalizację, znaczenie i relacje z innymi danymi. Pomyśl o tym jak o bibliotece lub menedżerze katalogów archiwalnych. Solidny katalog danych służy jako indeks z możliwością wyszukiwania, umożliwiając użytkownikom odkrywanie odpowiednich zbiorów danych bez konieczności ręcznego przeglądania całego repozytorium.
Warstwa przetwarzania
Warstwa przetwarzania umożliwia transformację, czyszczenie, rozszerzanie i analizę danych. Warstwa ta obejmuje mechanizmy do przetwarzania wsadowego, przetwarzania strumieniowego i interaktywnych zapytań, umożliwiając użytkownikom przygotowanie się do określonych przypadków użycia lub wykonanie analizy ad-hoc.
Warstwa dostępu
Warstwa dostępu zapewnia interfejsy i narzędzia dla różnych typów użytkowników: analitycy danych korzystający z notebooków, analitycy wykonujący zapytania SQL lub aplikacje wykorzystujące dane za pośrednictwem interfejsów API. Warstwa ta wymusza również polityki bezpieczeństwa, zarządzając tym, kto może uzyskać dostęp do jakich danych i na jakich warunkach.
Rodzaje jezior danych: chmura, lokalna, hybrydowa, wielochmurowa
Istnieją różne rodzaje jezior danych, w zależności od konfiguracji, w której organizacja je wdraża. Każda konfiguracja oferuje pewne zalety i kompromisy.
Jeziora danych w chmurze
Laki danych w chmurze są hostowane w całości na platformach chmurowych. Mogą oferować praktycznie nieograniczoną skalowalność, wycenę repartycyjną i łatwą integrację z chmurowymi aplikacjami analitycznymi i usługami AI. Laki danych w chmurze eliminują potrzebę inwestycji w infrastrukturę z góry, umożliwiając organizacjom niezależne skalowanie pamięci masowej i obliczania zasobów. Są one szczególnie odpowiednie dla rozwijających się organizacji i tych, które chcą zmniejszyć koszty operacyjne, zachowując jednocześnie dostęp do najnowocześniejszych funkcji analitycznych.
Lokalne jeziora danych
Lokalne jeziora danych są wdrażane w centrach danych organizacji, co zapewnia pełną kontrolę i pełną odpowiedzialność za infrastrukturę, bezpieczeństwo i suwerenność danych. Chociaż czasami są używane przez organizacje z bardzo specyficznymi wymogami regulacyjnymi i dotyczącymi bezpieczeństwa, lokalne jeziora danych zwykle wymagają znacznych inwestycji kapitałowych, ciągłej konserwacji i znacznych nakładów pracy na wszelkie projekty transformacji. Często jest to kompromis: zwiększenie szczegółowości kontroli odbywa się kosztem skalowalności i efektywności kosztowej.
Hybrydowe jeziora danych
Hybrydowe jeziora danych łączą chmurę i lokalną pamięć masową, umożliwiając organizacjom przechowywanie niektórych danych lokalnie, jednocześnie wykorzystując zasoby w chmurze do skalowalności i zaawansowanych analiz. To podejście zapewnia elastyczność, ale wprowadza złożoność synchronizacji danych, nadzoru i zarządzania spójnym doświadczeniem w różnych środowiskach.
Laki danych wielochmurowych
Wielochmurowe jeziora danych obejmują wielu dostawców chmury, pomagając organizacjom uniknąć blokowania dostawców, optymalizować koszty dzięki wykorzystaniu najlepszych usług od każdego dostawcy i zapewnić ciągłość działania poprzez nadmiarowość. Architektury wielochmurowe wymagają jednak starannego planowania w zakresie interoperacyjności danych, spójnej polityki bezpieczeństwa i zarządzania kosztami transferu danych między dostawcami chmury. Mogą one również przekształcić wprowadzanie zmian lub innowacji w bardziej złożony proces.
Jezioro danych a hurtownia danych a jezioro danych
Zrozumienie różnic między tymi metodami przechowywania danych jest niezbędne do wyboru odpowiednich rozwiązań dla celów organizacji. Porównajmy jeziora danych, hurtownie danych i jeziora danych według wielu kluczowych kryteriów:
Jak to wygląda w praktyce?
Łodzie danych radzą sobie z ekonomicznym przechowywaniem dużych ilości nieprzetworzonych danych oraz wspierają analizy eksploracyjne i uczenie maszynowe. Są one idealne, gdy potrzebujesz elastyczności, aby pracować z różnymi typami danych i nie wiesz wcześniej, w jaki sposób dane będą wykorzystywane. Mogą również przechowywać dane, które są następnie pobierane do hurtowni danych.
Hurtownie danych są stworzone specjalnie na potrzeby Business Intelligence i raportowania, z ustrukturyzowanymi schematami zoptymalizowanymi pod kątem wydajności zapytań. Najlepiej nadają się one do dobrze zdefiniowanych potrzeb w zakresie raportowania i modelowania, gdzie jakość i spójność danych są najważniejsze — na przykład do wykorzystania w analizach predykcyjnych. W praktyce dane zgromadzone w jeziorach danych mogą być nawet przetwarzane i przesyłane strumieniowo lub regularnie wprowadzane do hurtowni danych, w zależności od konfiguracji potoków danych.
Jeziora danych reprezentują nowszą architekturę, która łączy elastyczność jezior danych z możliwościami zarządzania i wydajnością hurtowni danych. Umożliwiają one organizacjom uruchamianie zarówno analiz eksploracyjnych, jak i raportów biznesowych na tej samej platformie, zmniejszając duplikację i złożoność danych.
Korzyści z jezior danych
Korzyści płynące z jezior danych sprawiają, że są one tak atrakcyjnym wyborem dla organizacji i podstawą nowoczesnej architektury danych. Zalety architektury Data Lake to:
Elastyczność: jeziora danych akceptują każdy typ danych w dowolnym formacie, eliminując potrzebę przekształcania danych przed przechowywaniem lub borykają się z brakiem niektórych danych. Oznacza to, że można natychmiast rozpocząć gromadzenie danych bez konieczności szeroko zakrojonego planowania z góry lub wiedzy, jak z nich korzystać. Podejście schema-on-read umożliwia różnym zespołom wykorzystanie i interpretację tych samych danych na różne sposoby, wspierając innowacje i wykrywanie.
Skalowalność: dzięki jeziorom danych pamięć masowa może rosnąć z gigabajtów do petabajtów bez konieczności zmian architektonicznych lub migracji, szczególnie w przypadku implementacji opartych na chmurze. Organizacje mogą zaczynać od małych firm i rozszerzać działalność wraz z rosnącymi potrzebami w zakresie danych.
Efektywność kosztowa: Jedną z korzyści płynących z przechowywania danych jest to, że zwykle kosztują one znacznie mniej niż tradycyjne hurtownie danych dla tej samej ilości pamięci masowej, co sprawia, że zatrzymywanie danych historycznych i badanie nowych źródeł danych jest ekonomicznie wykonalne bez przekraczania ograniczeń budżetowych.
Zaawansowane wsparcie analityczne: jeziora danych umożliwiają analitykom danych i inżynierom uczenia maszynowego dostęp do nieprzetworzonych danych na potrzeby tworzenia i uczenia modeli, eksploracji danych i innych zaawansowanych zadań. W przeciwieństwie do przetwarzanych danych w magazynach, nieprzetworzone dane zachowują niuanse i szczegóły, które mogą okazać się kluczowe dla dokładnych prognoz i analiz. Laki danych obsługują również analizy w czasie rzeczywistym, pozyskując dane przesyłania strumieniowego, umożliwiając organizacjom działanie na podstawie świeżych informacji.
Demokratyzacja danych: Kolejną zaletą architektury jeziora danych jest to, że gdy wszystkie dane organizacyjne są przechowywane w jednej, dostępnej lokalizacji, więcej osób w całej organizacji może odkrywać i wykorzystywać dane, rozbijając silosy i wspierając podejmowanie decyzji w oparciu o dane na wszystkich poziomach.
Wspólne wyzwania związane z jeziorem danych
Choć jeziora danych oferują ogromne korzyści, stanowią one wyzwanie, którym muszą stawić czoła organizacje, aby w pełni wykorzystać swój potencjał. Wspólne wyzwania związane z jeziorem danych obejmują:
Nadzór nad złożonym jeziorem danych
Nadzór nad danymi staje się bardziej złożony przy przechowywaniu ogromnych ilości zróżnicowanych danych. Bez odpowiednich struktur nadzoru jeziora danych mogą przekształcać się w "data swamps"- repozytoria, w których dane są zrzucane bez żadnej organizacji, co utrudnia znalezienie, zrozumienie lub zaufanie. Ustanowienie jasnej odpowiedzialności, dokumentowanie pochodzenia danych i zarządzanie metadanymi są niezbędne, ale wymagają ciągłych wysiłków i dyscypliny.
Kwestie bezpieczeństwa danych
Bezpieczeństwo i kontrola dostępu wymagają starannej uwagi. Łodzie danych zawierają poufne informacje z całej organizacji i zapewniają, że tylko uprawnieni użytkownicy mogą uzyskać dostęp do określonych zbiorów danych, zachowując jednocześnie ścieżki audytu, wymaga solidnych zasad i narzędzi bezpieczeństwa. Szyfrowanie, uwierzytelnianie, precyzyjne kontrole dostępu i maskowanie danych odgrywają ważną rolę w zabezpieczaniu środowisk jeziora danych i unikaniu problemów z zarządzaniem jeziorem danych.
Nierówna jakość danych
Jakość danych nie jest automatycznie zapewniana w jeziorach danych. Ponieważ dane niesformatowane są przechowywane w obecnej postaci, mogą one zawierać błędy, duplikaty lub niespójności. Organizacje potrzebują procesów do walidacji, czyszczenia i rozszerzania tych danych przed ich wykorzystaniem do analiz. Bez dbałości o jakość danych analizy i modele ML zbudowane na danych jeziora mogą przynieść niewiarygodne wyniki.
Problemy z zarządzaniem jeziorem danych
Nie należy lekceważyć wymogów dotyczących złożoności i wiedzy fachowej. Efektywne zarządzanie jeziorem danych wymaga umiejętności w zakresie systemów rozproszonych, inżynierii danych, zarządzania metadanymi i różnych struktur przetwarzania. Organizacje mogą być zmuszone do inwestowania w szkolenia, zatrudniania wyspecjalizowanych talentów lub współpracy z dostawcą usług eksperckich w celu zbudowania i utrzymania swojej infrastruktury Data Lake.
Długie czasy zapytań
Optymalizacja wydajności może być trudna, szczególnie w przypadku interaktywnych zapytań dotyczących dużych zbiorów danych. W przeciwieństwie do magazynów z wstępnie zoptymalizowanymi schematami, jeziora danych wymagają przemyślanej organizacji danych, strategii partycjonowania i wyboru formatów plików, aby osiągnąć akceptowalną wydajność zapytań. Mówiąc prościej, jeziora danych mogą zawierać niewyobrażalnie ogromne ilości danych, więc znalezienie tego, czego potrzebujesz, może zająć trochę czasu.
Przykłady jezior danych i praktyczne przypadki użycia
Rzeczywiste przykłady wykorzystania jeziora danych pokazują, w jaki sposób organizacje wykorzystują jeziora danych do sprostania wyzwaniom biznesowym i uzyskania przewagi nad konkurencją. Rozważmy go, analizując kilka typowych przypadków użycia jeziora danych.
Przypadek użycia jezior danych: analiza IoT dla obsługi predykcyjnej
Firma produkcyjna gromadzi dane z czujników z tysięcy maszyn w wielu zakładach, generując terabajty danych szeregów czasowych dziennie. Przesyłając strumieniowo te dane do jeziora danych, łączą je z rekordami obsługi, harmonogramami produkcji i informacjami o dostawcy. Modele uczenia maszynowego analizują historyczne wzorce, aby przewidywać awarie urządzeń przed ich wystąpieniem, skracając czas przestoju i oszczędzając miliony kosztów naprawy. Zdolność jeziora danych do obsługi szybkich danych przesyłania strumieniowego z wielu źródeł umożliwia ten przypadek użycia.
Przypadek użycia jezior danych: Klient 360 dla spersonalizowanego marketingu
Dział sprzedaży detalicznej konsoliduje dane klientów na podstawie zachowań związanych z przeglądaniem online, historii zakupów, interakcji z aplikacjami mobilnymi, rozmów i czatów związanych z obsługą klienta, zaangażowania mediów społecznościowych i wizyt w sklepie w jeziorze danych. Analizując ten kompleksowy widok każdego klienta, może on tworzyć szczegółowe segmenty i personalizować kampanie marketingowe, rekomendacje produktów i doświadczenia klienta. Mogłoby to zwiększyć skuteczność kampanii i znacznie zwiększyć zadowolenie klientów. W tym przykładzie Data Lake elastyczność i możliwości przechowywania zarówno ustrukturyzowanych danych transakcyjnych, jak i nieustrukturyzowanych logów interakcji umożliwiają ten całościowy wgląd klienta.
Przypadek użycia jezior danych: modelowanie ryzyka usług finansowych
Instytucja finansowa wykorzystuje jezioro danych do agregacji danych handlowych, kanałów rynkowych, artykułów informacyjnych, nastrojów w mediach społecznościowych i zgłoszeń regulacyjnych. Eksperci ds. danych tworzą zaawansowane modele ryzyka, które uwzględniają zarówno tradycyjne metryki finansowe, jak i dodatkowe źródła danych. Podejście Lake's schema-on-read umożliwia im eksplorowanie różnych źródeł danych i technik modelowania bez zakłócania działania istniejących systemów, pomagając im w osiągnięciu dokładniejszych ocen ryzyka.
Najlepsze praktyki Data Lake
Wdrożenie następujących najlepszych praktyk dla jezior danych może pomóc organizacjom zmaksymalizować wartość jezior danych, unikając jednocześnie typowych pułapek:
- Nadaj priorytet zarządzaniu metadanymi od pierwszego dnia. Utwórz kompleksowy katalog danych, który dokumentuje, jakie dane istnieją, skąd pochodzą, co to znaczy i jak odnoszą się do innych zbiorów danych. Dobre metadane przekształcają jezioro danych w wyszukiwalny, zrozumiały zasób, a nie przytłaczający zrzut danych – jest to istotna część zarządzania jeziorem danych.
- Zapewnienie nadzoru nad jeziorem danych. Wdrożenie solidnych struktur nadzoru nad danymi, które definiują odpowiedzialność za dane, ustanawiają standardy jakości i tworzą jasne procesy pozyskiwania, klasyfikacji i zarządzania cyklem życia danych. Nadzór nie powinien być pomyślany — od początku wbudowuj go w architekturę Data Lake, aby utrzymać zaufanie do danych i zapewnić zgodność z wymogami prawnymi.
- Chroń swoje dane. Projektowanie pod kątem bezpieczeństwa i zgodności z przepisami poprzez wdrożenie szyfrowania w stanie spoczynku i w tranzycie, precyzyjne kontrole dostępu, rejestrowanie audytu i maskowanie danych w razie potrzeby. Regularnie sprawdzaj wzorce dostępu i uprawnienia, aby upewnić się, że są one zgodne z zasadą najmniejszych uprawnień.
- Optymalizacja wydajności. Optymalne uporządkowanie pamięci masowej poprzez logiczną partycjonowanie danych (według daty, regionu lub innych istotnych wymiarów), wybór wydajnych formatów plików dla obciążeń analitycznych i wdrożenie zasad cyklu życia w celu archiwizacji lub usunięcia nieaktualnych danych. Te wybory mają znaczący wpływ zarówno na koszty, jak i na wydajność zapytań.
- Wspieranie kultury opartej na danych. Zapewnij możliwość odkrywania i udostępniania danych, zapewniając szkolenia i narzędzia, które umożliwiają samoobsługowe analizy. Jeśli Twój zespół nie ma odpowiedniej wiedzy specjalistycznej, rozważ zatrudnienie dodatkowych talentów, które mogą wypełnić lukę między interesariuszami biznesowymi a technologią i zapewnić optymalne zarządzanie jeziorem danych. Infrastruktura techniczna jest cenna tylko wtedy, gdy ludzie faktycznie wykorzystują ją do podejmowania lepszych decyzji.
Przyszłość jezior danych
Rozwój jezior danych trwa, ponieważ organizacje wymagają zarówno elastyczności, jak i nadzoru, co prowadzi do powstania architektury Data Lake House, które łączą najlepsze aspekty jezior i magazynów. Ta konwergencja odzwierciedla rosnące zrozumienie, że organizacje potrzebują ujednoliconych platform, które wspierają różne podejścia, a nie utrzymują odrębne systemy do różnych celów.
Sztuczna inteligencja i uczenie maszynowe stają się coraz bardziej kluczowe dla strategii Data Lake. Nowoczesne jeziora danych to nie tylko repozytoria pamięci masowej — są centralnymi platformami, na których sztuczna inteligencja trenuje dane historyczne, przygotowuje prognozy za pomocą danych przesyłania strumieniowego i stale doskonali się dzięki pętlom informacji zwrotnej. Integracja z platformami AI i zautomatyzowanymi funkcjami uczenia maszynowego staje się standardem, a nie wyjątkiem.
Gdy organizacje dostrzegają wartość działania na świeżych danych, analiza w czasie rzeczywistym i przesyłanie strumieniowe zyskują na znaczeniu. W rezultacie jeziora danych ewoluują, aby wspierać przetwarzanie danych w sekundzie i zapytania, zacierając linię między analizą historyczną a operacjami w czasie rzeczywistym.
Wreszcie, wraz z rozwojem i zmianami przepisów o ochronie danych na całym świecie, jeziora danych muszą ewoluować, aby wspierać prywatność i ochronę danych dzięki funkcjom takim jak automatyczna klasyfikacja danych, zarządzanie zgodami i uproszczone raportowanie zgodności wbudowane w platformę, a nie dodawane później.
Najczęstsze pytania
PRODUKT SAP
Zmaksymalizuj wartość danych
Wszystkie te dane można połączyć w SAP Business Data Cloud.