flex-height
text-black
Zarządzanie danymi — glosariusz
Zapoznaj się z terminami i definicjami dotyczącymi zarządzania danymi.
default
{}
default
{}
primary
default
{}
secondary
Co to jest baza danych?
Baza danych to system służący do organizowania, przechowywania i zabezpieczania danych oraz zarządzania nimi i uprawnieniami dostępu do nich. Bazy danych są projektowane według wielu różnych schematów, przy czym wiele z nich opiera się na modelu relacyjnym, co ułatwia uzyskiwanie dostępu do danych przez programy oraz składanie zapytań. Najczęściej spotykane rodzaje baz danych obejmują systemy zarządzania relacyjnymi bazami danych (RDBMS), bazy danych in-memory, bazy danych zorientowane obiektowo (OODBMS), bazy danych NoSQL i bazy danych NewSQL. Każdy z tych typów ma swoje zalety.
Na czym polega zarządzanie danymi?
Termin „zarządzanie danymi” odnosi się do wszystkich czynności niezbędnych do gromadzenia, kontrolowania, zabezpieczania i dostarczania danych oraz manipulowania nimi. Systemy zarządzania danymi obejmują bazy danych, hurtownie danych i magazyny danych, narzędzia do gromadzenia, przechowywania i wyszukiwania danych oraz narzędzia do walidacji, kontroli jakości i integracji z aplikacjami i narzędziami analitycznymi. Firmy potrzebują strategii zarządzania danymi, która pozwoli im określić, kto ponosi odpowiedzialność za dane pochodzące z poszczególnych obszarów kompetencji.
Na czym polega zarządzanie bazą danych?
Pojęciem zarządzania bazą danych określa się procesy i procedury związane z przechowywaniem, obsługą i zabezpieczaniem danych oraz manipulowaniem nimi. W wielu organizacjach odpowiedzialność za ustanawianie i nadzorowanie takich procedur spoczywa na administratorze bazy danych (DBA) lub na osobie zajmującej podobne stanowisko. Większość organizacji korzysta z komercyjnego systemu zarządzania bazą danych (DBMS) jako podstawowego narzędzia.
Co to jest system zarządzania bazami danych (DBMS)?
System zarządzania bazą danych (DBMS) to zestaw narzędzi programistycznych, który oferuje strukturę przechowywania danych i funkcję zarządzania nimi. System DBMS może być integralną częścią licencjonowanego systemu planowania zasobów przedsiębiorstwa (ERP), koniecznym oddzielnym zakupem, elementem oprogramowania systemowego (systemu operacyjnego) lub oddzielnie licencjonowanym rozwiązaniem. Niezależnie od pochodzenia systemu, ważne jest, aby aplikacje były budowane z myślą o nim lub całkowicie z nim zintegrowane, ponieważ ta wzajemna zależność warunkuje skuteczność działania zarówno aplikacji, jak i samego systemu DBMS. Zasadniczo DBMS jest zestawem narzędzi do zarządzania bazami danych.
Co to jest baza danych SQL?
Baza danych SQL to relacyjna baza danych, w której dane przechowywane są w tabelach i wierszach. Wiersze danych są połączone w oparciu o wspólne pozycje, co zwiększa efektywność, pozwala uniknąć zbędnych elementów i ułatwia elastyczne wyszukiwanie. Nazwa SQL to skrót od angielskiego terminu Structured Query Language (strukturalny język zapytań) określającego zestaw narzędzi i protokół zapytań w języku naturalnym, którego użytkownicy mogą się nauczyć i używać w dowolnej zgodnej bazie danych do przechowywania danych, manipulowania nimi i ich wyszukiwania.
Co to jest baza danych NoSQL?
Bazy danych NoSQL zostały opracowane do obsługi nieustrukturyzowanych danych, których język SQL nie może obsługiwać ze względu na brak struktury. NoSQL wykorzystuje kreatywne techniki, aby obejść to ograniczenie, w tym dynamiczne schematy i różne metody wstępnego przetwarzania. Najpopularniejszymi typami baz danych nieustrukturyzowanych są bazy danych klucz-wartość, dokumenty, kolumny i wykresy, które często zawierają takie elementy jak wideo, grafika, swobodny tekst i nieprzetworzone dane z czujników.
Co to jest system zarządzania relacyjnymi bazami danych (RDBMS)?
System zarządzania relacyjną bazą danych jest systemem opartym na relacyjnym modelu danych. Zawartość systemu RDBMS jest przechowywana w tabelach, składających się z wierszy i kolumn, przy czym każda tabela reprezentuje określony obiekt lub element w bazie danych, który może być powiązany z innym. System RDBMS zazwyczaj zawiera wiele tabel oraz obejmuje dodatkowe funkcje, które pozwalają zachować wierność, spójność, integralność i bezpieczeństwo danych, a także interfejs SQL umożliwiający dostęp do danych we wzajemnych relacjach za pomocą złożonych zapytań.
Co to jest CDBMS?
CDBMS to termin ukuty przez firmę Gartner, który opisuje głównie chmurowy model wdrożenia opisanego powyżej systemu RDBMS.
Co to są dane ustrukturyzowane?
Ustrukturyzowane dane są starannie sformatowane w wierszach i kolumnach oraz mapowane do predefiniowanych pól. Zwykle przechowuje się je w arkuszach kalkulacyjnych Excel lub relacyjnych bazach danych, a ich przykłady obejmują transakcje finansowe, dane demograficzne i dzienniki maszyn. Do niedawna dane ustrukturyzowane były jedynym użytecznym typem danych dla firm.
Co to są dane nieustrukturyzowane?
Dane nieustrukturyzowane nie są uporządkowane w wierszach i kolumnach, co utrudnia ich przechowywanie, analizowanie i wyszukiwanie. Przykłady obejmują nieprzetworzone dane pochodzące z Internetu rzeczy (IoT), pliki wideo i audio, komentarze w mediach społecznościowych i transkrypcje rozmów z pracownikami infolinii. Dane nieustrukturyzowane są zwykle przechowywane w jeziorach danych, bazach danych NoSQL lub nowoczesnych hurtowniach danych.
Co to są dane częściowo ustrukturyzowane?
Dane częściowo ustrukturyzowane są w pewien sposób zorganizowane, np. za pomocą znaczników semantycznych lub metadanych, ale nie są sformatowane w wierszach i kolumnach arkusza kalkulacyjnego lub relacyjnej bazy danych. Dobrym przykładem danych częściowo ustrukturyzowanych jest korespondencja e-mail, w której część danych jest ustrukturyzowana — np. adres nadawcy i odbiorcy — a część nie — choćby sama treść wiadomości.
Na czym polega mapowanie danych?
Mapowanie danych to proces dopasowywania pól między różnymi strukturami lub bazami danych. To niezbędny krok, jeśli bazy danych mają zostać połączone, jeśli dane są przenoszone z jednego systemu do drugiego lub jeśli w ramach jednej aplikacji lub jednego narzędzia analitycznego mają być wykorzystywane różne źródła danych — co często ma miejsce w przypadku hurtowni danych. Mapowanie danych pozwala zidentyfikować unikalne, sprzeczne i zduplikowane informacje, dzięki czemu można opracować szereg reguł umożliwiających dostosowanie wszystkich danych do jednego schematu lub formatu.
Na czym polega modelowanie danych?
Czym jest modelowanie danych?Tworząc nową lub alternatywną strukturę bazy danych, autor zaczyna od diagramu pokazującego, w jaki sposób dane będą wpływać do bazy danych i z niej wypływać. Tworzenie diagramów przepływu danych nazywane jest modelowaniem. Na podstawie takiego diagramu przepływu programiści mogą zdefiniować cechy formatów i struktur danych oraz funkcji obsługi bazy danych, aby skutecznie sprostać wymaganiom dotyczącym przepływu danych.
Co to jest hurtownia danych?
Hurtownia danych oferuje jeden, obszerny magazyn danych pochodzących z wielu różnych źródeł — zarówno wewnętrznych, jak i zewnętrznych. Jej głównym zadaniem jest dostarczanie informacji na potrzeby analityki biznesowej (BI), raportowania i analiz. Nowoczesne hurtownie danych mogą przechowywać wszystkie typy danych — zarówno ustrukturyzowane jak i nieustrukturyzowane — i nimi zarządzać, a ponadto są zazwyczaj wdrażane w chmurze, co zapewnia większą skalowalność i wygodę użytkowania.
Co to jest jezioro danych?
Jezioro danych to ogromna pula danych przechowywanych w swojej nieprzetworzonej lub naturalnej postaci. Jeziora danych są zwykle używane do przechowywania danych Big Data, w tym danych ustrukturyzowanych, nieustrukturyzowanych i częściowo ustrukturyzowanych.
Co to jest Big Data?
Big Data to termin opisujący niezwykle duże zbiory danych ustrukturyzowanych, nieustrukturyzowanych i częściowo ustrukturyzowanych. Pojęcie Big Data często opisywane jest za pomocą pięciu liter „V”: ogromnej ilości („volume”) gromadzonych danych, różnorodności („variety”) ich typów, szybkości („velocity”), z jaką są generowane, ich wiarygodności („veracity”) i wartości („value”). Dzięki systemom zarządzania i analityce Big Data, firmy mogą pozyskiwać te dane i uzyskiwać na ich podstawie wnikliwe informacje, które pomagają w podejmowaniu decyzji i działań.
Co to jest small data?
W przeciwieństwie do zbiorów Big Data, które są niezwykle obszerne i złożone, zbiory small data są czytelne dla człowieka. Zbiory small data mogą obejmować wszystko, od ankiet marketingowych po codzienne arkusze kalkulacyjne — a nawet pojedyncze posty w mediach społecznościowych czy wiadomości e-mail. Firmy coraz częściej — oprócz danych Big Data — wykorzystują też małe zbiory danych do trenowania sztucznej inteligencji i algorytmów uczenia maszynowego i jeszcze dogłębniejszej analizy.
Co to jest thick data?
Thick data to informacje o charakterze jakościowym, które oferują wgląd w codzienne życie emocjonalne konsumentów. Obejmują one obserwacje, odczucia i reakcje — czyli zjawiska, które zazwyczaj trudno jest określić ilościowo. W połączeniu z danymi Big Data dają kompleksowy obraz preferencji i oczekiwań konsumentów.
Co to jest integracja danych?
Integracja danych to proces pozyskiwania, przekształcania, łączenia i udostępniania danych tam, gdzie są one potrzebne. Odbywa się ona zarówno w obrębie przedsiębiorstwa, jak i poza nim — pomiędzy partnerami, a także zewnętrznymi źródłami danych i przypadkami zastosowania. Jej celem jest zaspokojenie zapotrzebowania na dane we wszystkich aplikacjach i procesach biznesowych. Stosowane metody obejmują m.in. masowe i zbiorcze przenoszenie danych, wyodrębnianie, przekształcanie i ładowanie (ETL) danych, przechwytywanie zmian danych, replikację danych, wirtualizację danych, integrację danych strumieniowych, orkiestrację danych i wiele innych.
Co to jest wirtualizacja danych?
Wirtualizacja danych zapewnia firmom ujednolicony obraz wszystkich danych przedsiębiorstwa — w różnych systemach i formatach — w wirtualnej warstwie danych. Zamiast powielać dane, wirtualizacja pozwala pozostawić je w systemach źródłowych, a użytkownikom i aplikacjom udostępnić ich wirtualną reprezentację w czasie rzeczywistym. Wirtualizacja danych to nowoczesny sposób integracji danych, który daje użytkownikom możliwość poznawania danych i manipulowania nimi niezależnie od ich fizycznej lokalizacji, formatu czy protokołu.
Co to jest struktura danych?
Struktura danych to spersonalizowane połączenie architektury i technologii. Wykorzystuje dynamiczną integrację i orkiestrację danych do łączenia różnych lokalizacji, źródeł i typów danych. Dzięki odpowiednim strukturom i przepływom zdefiniowanym w ramach platformy struktury danych, firmy mogą szybko uzyskiwać dostęp do informacji i udostępniać je niezależnie od tego, gdzie się one znajdują i w jaki sposób zostały wygenerowane.
Co to jest siatka danych?
Siatka danych to podejście do zarządzania danymi, które wykorzystuje rozproszoną architekturę. Innymi słowy oznacza to, że odpowiedzialność za konkretne zbiory danych jest rozproszona po całym przedsiębiorstwie na tych użytkowników, którzy posiadają specjalistyczną wiedzę pozwalającą zrozumieć, co te dane oznaczają i jak najlepiej je wykorzystać.
Co to jest potok danych?
Potok danych opisuje zestaw zautomatyzowanych i powtarzalnych procesów wyszukiwania, oczyszczania, przekształcania i analizowania dowolnego typu danych u źródła. Ponieważ dane są analizowane w pobliżu miejsca ich generowania, użytkownicy biznesowi mogą szybko analizować i udostępniać potrzebne im informacje przy mniejszych kosztach dla organizacji. Potoki danych można również wzbogacić o technologie takie jak uczenie maszynowe, aby były szybsze i bardziej efektywne.
Co to jest silos danych?
Silos danych to potoczne określenie sytuacji, w której poszczególne działy lub obszary w przedsiębiorstwie nie dzielą się danymi i informacjami z innymi działami. Taka izolacja utrudnia skoordynowane działania na rzecz realizacji celów firmy i skutkuje słabą wydajnością (i niską jakością obsługi klienta), wysokimi kosztami i ogólną niezdolnością do reagowania na zapotrzebowanie rynku i zachodzące na nim zmiany. Trudno jest też uspójnić zduplikowane i nadmiarowe dane, co dodatkowo utrudnia koordynację działań i efektywne zarządzanie firmą.
Na czym polega oczyszczanie i przygotowywanie danych?
Oczyszczanie i przygotowywanie danych (ang. data wrangling) to proces pobierania nieprzetworzonych danych i ich konwersji do formatu zgodnego z istniejącymi bazami danych i aplikacjami. Proces ten może obejmować strukturyzację, czyszczenie, wzbogacanie i weryfikację danych tak, aby były one użyteczne.
Co to jest bezpieczeństwo danych?
Zapewnianie bezpieczeństwa danych polega na zabezpieczeniu ich przed nieautoryzowanym dostępem lub ujawnieniem bądź skutkami klęski żywiołowej lub awarii systemu, a jednocześnie na zapewnieniu łatwego dostępu do nich uprawnionym użytkownikom i aplikacjom. Stosowane metody i narzędzia obejmują szyfrowanie danych, zarządzanie kluczami, nadmiarowość i tworzenie kopii zapasowych oraz kontrolę dostępu. Bezpieczeństwo danych stanowi wymóg dla organizacji wszystkich rozmiarów i typów, gdyż chroni dane klientów i organizacji przed stale rosnącym zagrożeniem naruszeń. Z kolei nadmiarowość i tworzenie kopii zapasowych są istotne z punktu widzenia ciągłości biznesowej i odzyskiwania danych po awarii.
Co to jest prywatność danych?
Prywatność danych odnosi się do zasad i praktyk postępowania z danymi w sposób, który chroni je przed nieautoryzowanym dostępem lub ujawnieniem. Zasady i praktyki dotyczące prywatności danych obejmują sposób gromadzenia i przechowywania informacji zgodnie z przyjętą przez organizację strategią dotyczącą danych, sposób ich udostępniania stronom trzecim oraz zapewnianie zgodności z przepisami. Prywatność danych jest nadrzędną potrzebą biznesową, która zaspokaja oczekiwania klientów, jednocześnie chroniąc integralność i bezpieczeństwo przechowywanych informacji.
Co to jest jakość danych?
Jakość danych to nieprecyzyjny termin opisujący przydatność i wiarygodność danych. Dobra jakość danych oznacza po prostu, że dane są dokładne ( odzwierciedlają to, co opisują), wiarygodne (spójne, możliwe do skontrolowania, odpowiednio zarządzane i chronione) oraz kompletne w zakresie wymaganym przez użytkowników i aplikacje. Odpowiednią jakość danych można uzyskać wyłącznie dzięki właściwie opracowanej i wdrożonej strategii dotyczącej danych realizowanej za pomocą narzędzi i systemów klasy przemysłowej, a także rygorystycznie przestrzeganym zasadom i procedurom zarządzania danymi.
Na czym polega walidacja danych?
Walidacja danych to proces określania jakości, prawidłowości i wiarygodności danych przed ich zaimportowaniem lub wykorzystaniem. Procedura walidacji może się składać z szeregu działań mających na celu uwierzytelnienie i ogólne „wyczyszczenie” pozycji danych, w tym usunięcie duplikatów, poprawienie oczywistych błędów lub brakujących pozycji oraz ewentualne zmiany formatowania (oczyszczanie danych). Walidacja danych jest warunkiem tego, by informacje potrzebne do podejmowania istotnych decyzji były dokładne i wiarygodne.
Na czym polega oczyszczanie danych?
Oczyszczanie danych to proces eliminowania lub korygowania błędów występujących w zbiorze danych, tabeli lub bazie danych. Do takich błędów można zaliczyć uszkodzone, niedokładne, nieistotne lub niekompletne informacje. Ten proces pozwala znaleźć zduplikowane dane i inne niespójności, takie jak błędy ortograficzne czy liczby, które się nie sumują. Czyszczenie danych umożliwia usunięcie błędnych informacji lub poprawić oczywistych błędów, takich jak puste pola lub brakujące kody.
Co to jest integralność danych?
Pojęcie integralności danych odnosi się do wiarygodności danych w dłuższej perspektywie czasowej. Po wprowadzeniu lub zaimportowaniu danych, oczyszczeniu ich, zweryfikowaniu i zapisaniu można potwierdzić integralność danych, co oznacza, że ich jakość jest zachowana, a użytkownicy mogą być pewni, że wprowadzone dane nie uległy i nie ulegną zmianie. Pobierane dane są identyczne z tymi, które zostały pierwotnie zapisane. Choć termin ten bywa używany jako synonim jakości danych, integralność danych odnosi się raczej do ich niezawodności.
Na czym polega nadzór nad danymi?
Nadzór nad danymi to zbiór zasad i praktyk mających na celu zapewnienie właściwego zarządzania danymi w całej organizacji. W jego ramach ustanawia się infrastrukturę IT i wskazuje osoby (lub stanowiska), które są uprawnione do przetwarzania i ochrony określonych typów danych i ponoszą za nieodpowiedzialność. Skuteczny nadzór nad danymi sprawia, że są one dostępne, godne zaufania, bezpieczne i zgodne z przepisami oraz że nie są niewłaściwie wykorzystywane.
Na czym polega zarządzanie danymi?
Zarządzanie danymi polega na wdrażaniu zasad i procedur nadzoru nad danymi w celu zapewnienia dokładności, wiarygodności, integralności i bezpieczeństwa danych. Osoby odpowiedzialne za zarządzanie danymi zarządzają procedurami i narzędziami używanymi do obsługi, przechowywania i ochrony danych oraz nadzorują je.
Co to jest architektura danych?
Architektura danych to kompleksowy schemat struktury, zasad i reguł definiujących dane organizacji oraz sposób ich wykorzystania i zarządzania nimi. Architektura danych opisuje szczegółowo, w jaki sposób strategia danych jest wdrażana w celu realizacji potrzeb i celów biznesowych. Stanowi ona także fundament do rozwoju baz danych, procedur, zabezpieczeń i systemów nadzoru nad danymi.
Na czym polega zarządzanie danymi podstawowymi?
Zarządzanie danymi podstawowymi (MDM) polega na stworzeniu jednego, „głównego” źródła informacji obejmującego wszystkie istotne dane biznesowe. Praktyka ta uwzględnia zasady oraz procedury definiowania i kontrolowania (lub nadzorowania) przetwarzania danych podstawowych oraz zarządzania nim. Scentralizowane zarządzanie danymi podstawowymi pozwala uniknąć konfliktów i nieporozumień wynikających z rozproszenia baz danych zawierających powielone informacje i niespójne dane, które mogą być nieaktualne, uszkodzone lub zaktualizowane w jednym miejscu, ale nie w innym. Jedna wersja danych przeznaczona dla całego przedsiębiorstwa zapewnia, że wszystkie działy organizacji pracują w oparciu o te same definicje, standardy i założenia.
Co to jest analityka?
Termin analityka odnosi się do systematycznej analizy danych. Aplikacje i pakiety narzędzi analitycznych są oparte na algorytmach matematycznych i silnikach obliczeniowych, które mogą przetwarzać duże zbiory danych w celu odkrywania wzorców, trendów, relacji i innych informacji. Dzięki temu użytkownicy mogą zadawać istotne pytania i uzyskiwać przydatne wnioski na temat swojej działalności, operacji i rynków. Wiele nowoczesnych pakietów narzędzi analitycznych jest przystosowanych do użytku przez pracowników biznesowych nieposiadających wiedzy technicznej. Umożliwia to prowadzenie analiz przy minimalnym wsparciu ze strony analityków danych lub specjalistów IT.
Co to są rozszerzone analizy?
Rozszerzone analizy to analizy wzbogacone o technologie sztucznej inteligencji, w tym uczenie maszynowe i przetwarzanie języka naturalnego (NLP). Analityka rozszerzona może nie tylko pomóc użytkownikom lepiej poznać dane, ale także zautomatyzować wiele skomplikowanych etapów tego procesu i umożliwić nawet użytkownikom nieposiadającym wiedzy technicznej wyszukiwanie danych w naturalny, konwersacyjny sposób.
Na czym polega eksploracja danych?
Eksploracja danych polega na wyodrębnieniu użytecznych informacji z dużych zbiorów danych. Proces eksploracji jest często prowadzony przez użytkowników biznesowych korzystających z narzędzi analitycznych w celu identyfikacji wzorców, trendów, anomalii, relacji, zależności i innych użytecznych informacji. Eksploracja danych ma szeroki zakres zastosowań, od wykrywania oszustw i zagrożeń cybernetycznych po ulepszanie prognoz i poszukiwanie możliwości poprawy wydajności.
Na czym polega profilowanie danych?
Profilowanie danych to proces pozyskiwania statystyk i informacji na temat zbioru danych, takich jak jego dokładność, kompletność i poprawność. Profilowanie danych jest jedną z technik stosowanych podczas walidacji i oczyszczania danych, ponieważ może pomóc wykryć problemy związane z ich jakością, takie jak nadmiarowość, brakujące wartości i niespójności.
Produkt SAP
Na czym polega zarządzanie danymi?
Dowiedz się, jak Twoja organizacja może przekształcić dane w cenny zasób.