Přejít na obsah
Datový sklad

Glosář správy dat

 

Tato webová stránka byla pro vás přeložena strojovým překladem. Společnost SAP neposkytuje žádné záruky správnosti nebo úplnosti strojového překladu. Původní anglickou webovou stránku najdete pomocí mapy světa v pravém horním rohu této stránky.

Prozkoumejte řadu pojmů a definic souvisejících s daty v našem glosáři správy dat.

Databáze je nástroj pro organizaci, ukládání, správu, ochranu a řízení přístupu k datům. Databáze jsou navrženy podle řady různých schémat (schémat), z nichž mnohé dodržují relační model pro snadný přístup programů a datových dotazů. Mezi běžné typy databází patří relační databázové systémy (RDBMS), in-memory databáze, objektově orientované databáze (OODBMS), NoSQL databáze a NewSQL databáze – každá s vlastními výhodami.

Správa dat se týká všech funkcí nezbytných ke shromažďování, kontrole, ochraně, manipulaci a dodávání dat. Systémy správy dat zahrnují databáze, datové sklady a datová tržiště; nástroje pro sběr, ukládání a vyhledávání dat; a nástroje, které pomáhají s ověřováním, kvalitou a integrací s aplikacemi a analytickými nástroji. Podniky potřebují strategii v oblasti údajů, aby mohly stanovit odpovědnost za údaje, které pocházejí z určitých oblastí odpovědnosti nebo jsou pro ně endemické.

Správa databází označuje procesy a postupy, které jsou nezbytné k ukládání, manipulaci a ochraně dat. V mnoha organizacích je odpovědnost za zavedení takových postupů a dohled nad nimi primární odpovědností administrátora databáze (DBA) nebo podobné pozice. Většina organizací se spoléhá na komerční databázový systém (DBMS) jako primární nástroj pro správu své databáze. 

Databázový systém (DBMS) je softwarová sada nástrojů, která poskytuje strukturu úložiště a správu dat pro správu databází. DBMS může být nedílnou součástí licencovaného systému Enterprise Resource Planning (ERP), požadovaného samostatného nákupu, části systémového software (operačního systému) nebo samostatně licencovaného softwarového produktu. Bez ohledu na zdroj je nutné, aby aplikace byly vytvořeny a/nebo kompletně integrovány s DBMS, protože jsou vzájemně závislé na efektivní funkčnosti aplikací i DBMS. DBMS je v podstatě sada nástrojů pro správu databáze.

Databáze SQL je relační databáze, která ukládá data do tabulek a řádek. Datové položky (řádky) jsou propojeny na základě běžných datových položek, které umožňují efektivitu, zabraňují redundanci a usnadňují snadné a flexibilní vyhledávání. Název SQL je odvozen ze strukturovaného dotazovacího jazyka, sady nástrojů a protokolu dotazů přirozeného jazyka, které se mohou uživatelé naučit a aplikovat na libovolnou vyhovující databázi pro ukládání dat, manipulaci a načítání.

NoSQL databáze byly vyvinuty pro zpracování nestrukturovaných dat, která SQL nemůže podporovat kvůli nedostatečné struktuře. NoSQL používá kreativní techniky k překonání tohoto omezení, včetně dynamických schémat a různých technik předběžného zpracování. Nejběžnějšími typy databází pro nestrukturovaná data jsou klíčové hodnoty, dokumenty, sloupce a grafy a často zahrnují například video, grafiku, volný text a výstup hrubého snímače.

Relační databázový systém je databázový systém (DBMS), který je založen na relačním datovém modelu. Obsah RDBMS je uložen v tabulkách, které se skládají z řádek a sloupců, přičemž každá tabulka představuje určitý objekt nebo entitu v databázi, která může souviset s jiným.  RDBMS typicky obsahuje více tabulek a zahrnuje další funkce, které udržují přesnost, konzistenci, integritu a bezpečnost dat a také SQL rozhraní pro vzájemný přístup k datům prostřednictvím komplexních dotazů.

CDBMS je termín vytvořený společností Gartner, který popisuje hlavně model nasazení cloudu pro RDBMS výše.

Strukturovaná data jsou neatentně formátována na řádky a sloupce a mapována na předdefinovaná pole. Typicky uložené v excelových tabulkách nebo relačních databázích, například finanční transakce, demografické informace a protokoly strojů. Strukturovaná data byla donedávna jediným použitelným typem dat pro podniky.

Nestrukturovaná data nejsou organizována do řádků a sloupců, což ztěžuje ukládání, analýzu a vyhledávání. Příkladem mohou být surová data Internet of Things (IoT), video a audio soubory, komentáře na sociálních sítích a přepisy call center. Nestrukturovaná data jsou obvykle uložena v datových jezerech, databázích NoSQL nebo moderních datových skladech.

Polostrukturovaná data mají některé organizační vlastnosti, jako jsou sémantické tagy nebo metadata, ale neodpovídají řádkům a sloupcům kalkulační tabulky nebo relační databáze. Dobrým příkladem polostrukturovaných dat je e-mail – který zahrnuje některá strukturovaná data, jako jsou adresy odesílatele a příjemce, ale také nestrukturovaná data, jako je zpráva samotná.

Mapování dat je proces porovnání polí mezi různými datovými strukturami nebo databázemi. Toto je nezbytný krok, pokud mají být databáze kombinovány, pokud se data migrují z jednoho systému nebo databáze do jiného nebo pokud mají být různé zdroje dat použity v rámci jedné aplikace nebo analytického nástroje – jak se často stává v úložišti dat. Mapování dat identifikuje jedinečné, konfliktní a duplicitní informace, takže lze vytvořit soubor pravidel pro přenesení všech dat do koordinovaného schématu nebo formátu.

Při vytváření nové nebo alternativní struktury databáze začíná návrhář diagramem, jak budou data proudit do a z databáze. Diagramování datových toků se nazývá modelování dat. Z tohoto vývojového diagramu mohou softwaroví inženýři definovat charakteristiky datových formátů, struktury a funkce zpracování databáze pro efektivní podporu požadavků na datový tok.

Datový sklad poskytuje jedno komplexní úložiště pro data z mnoha různých zdrojů – interních i externích. Jeho hlavním účelem je poskytovat data pro business intelligence (BI), výkaznictví a analýzy. Moderní datové sklady mohou ukládat a spravovat všechny datové typy, strukturované i nestrukturované a jsou typicky nasazeny v cloudu pro větší škálovatelnost a snadnější používání.

Datové jezero je rozsáhlý pool dat uložených v jeho syrovém nebo přirozeném formátu. Datová jezera se obvykle používají k ukládání velkých dat, včetně strukturovaných, nestrukturovaných a polostrukturovaných dat. 

Big Data je pojem, který popisuje extrémně velké datové soubory strukturovaných, nestrukturovaných a polostrukturovaných dat. Big Data jsou často charakterizována pěti V: pouhým objemem shromážděných dat, rozmanitostí datových typů, rychlostí, s jakou jsou data generována, pravdivostí dat a jejich hodnotou. Díky systémům a analytickým nástrojům pro správu velkých dat mohou společnosti využívat Big Data k získání podrobných informací, jimiž se řídí rozhodování a akce.

Integrace dat je praxe, která přináší, transformuje, kombinuje a poskytuje data, kde a kdy je to potřeba. Tato integrace probíhá v podniku i mimo něj – napříč partnery, jakož i v externích zdrojích dat a případech použití – aby byly splněny požadavky na spotřebu dat všech aplikací a podnikových procesů. Techniky zahrnují hromadný/dávkový přenos dat, extrakci, transformaci, zavedení (ETL), změnu zachycení dat, replikaci dat, virtualizaci dat, integraci streamování dat, orchestraci dat a další.

Virtualizace dat poskytuje společnostem jednotný pohled na všechna podniková data – napříč různými systémy a formáty – ve virtuální datové vrstvě. Namísto duplikování dat přenechává virtualizace dat ve svých zdrojových systémech a jednoduše vystavuje virtuální reprezentaci uživatelům a aplikacím v reálném čase. Virtualizace dat je moderní přístup k integraci dat, který umožňuje uživatelům objevovat a manipulovat s daty bez ohledu na jejich fyzickou polohu, formát nebo protokol.

Datová tkanina je přizpůsobená kombinace architektury a technologie. Používá dynamickou integraci dat a orchestraci k propojení různých umístění, zdrojů a typů dat. Se správnými strukturami a toky definovanými v rámci platformy datové struktury mohou společnosti rychle přistupovat k datům a sdílet je bez ohledu na to, kde a jak byla vygenerována.

Datová síť je přístup ke správě dat, který využívá distribuovaný architektonický rámec. Jinými slovy: šíří vlastnictví a odpovědnost za konkrétní soubory údajů v celém podniku na ty uživatele, kteří mají odborné znalosti, aby pochopili, co tyto údaje znamenají a jak je co nejlépe využít. 

Datový pipeline popisuje sadu automatizovaných a opakovatelných procesů pro vyhledávání, očištění, transformaci a analýzu libovolného typu dat u svého zdroje. Vzhledem k tomu, že data jsou analyzována poblíž místa jejich generování, mohou podnikoví uživatelé rychle analyzovat a sdílet potřebné informace s nižšími náklady pro organizaci. Datové pipeline mohou být také rozšířeny technologiemi, jako je strojové učení, aby byly rychlejší a efektivnější.

Datové silo je slangový pojem pro situaci, kdy jednotlivá oddělení nebo funkční oblasti v rámci podniku nesdílejí data a informace s jinými odděleními. Tato izolace brání koordinovanému úsilí o dosažení cílů společnosti a vede ke špatnému výkonu (a špatnému servisu zákazníkům), vysokým nákladům a všeobecné neschopnosti reagovat na požadavky a změny trhu. Duplicitní a redundantní data lze jen obtížně sladit, dále zabraňují jakémukoli pokusu o koordinaci činností a efektivnímu řízení podniku.

Wranglování dat je proces přebírání prvotních dat a jejich transformace do formátu, který je kompatibilní se zavedenými databázemi a aplikacemi. Proces může zahrnovat strukturování, čištění, obohacování a ověřování dat podle potřeby pro užitečnost prvotních dat.

Zabezpečení dat je úkon učinit data bezpečným a bezpečným – bezpečným před neoprávněným přístupem nebo expozicí, katastrofou nebo selháním systému a zároveň snadno přístupným oprávněným uživatelům a aplikacím. Mezi metody a nástroje patří šifrování dat, správa klíčů, postupy redundance a zálohování a řízení přístupu. Zabezpečení dat je požadavek, aby organizace všech velikostí a typů chránily zákaznická a organizační data před stále se zvyšující hrozbou narušení ochrany osobních údajů a rizik. Redundance a zálohy jsou důležité pro kontinuitu provozu a obnovu po havárii.

Ochrana osobních údajů označuje zásady a postupy pro nakládání s údaji způsoby, které je chrání před neoprávněným přístupem nebo zveřejněním. Zásady a postupy ochrany údajů zahrnují, jak jsou informace shromažďovány a ukládány podle strategie organizace, jak mohou, ale nemusí být sdíleny s třetími stranami a jak dodržovat zákonná omezení. Ochrana osobních údajů je obchodní nutnost, která splňuje očekávání klientů a zároveň chrání integritu a bezpečnost uložených informací.

Kvalita dat je mlhavý termín popisující vhodnost a spolehlivost dat. Dobrá, kvalitní data jednoduše znamenají, že data jsou přesná (skutečně reprezentující to, co popisují), spolehlivá (konzistentní, auditovatelná, řádně spravovaná a chráněná) a doplněná v rozsahu, který uživatelé a aplikace vyžadují. Kvalitu údajů lze zajistit pouze řádně navrženou a provedenou strategií údajů prováděnou s využitím nástrojů a systémů zaměřených na posílení průmyslu spolu s přísně dodržovanými politikami a postupy pro správu údajů.

Ověření údajů je proces určování kvality, přesnosti a platnosti údajů před jejich importem nebo použitím. Ověření může sestávat z řady činností a procesů pro autentizaci dat a obecně z „vyčištění“ datových položek, včetně odstranění duplikátů, opravy zjevných chyb nebo chybějících položek a možných změn formátování (očištění dat). Ověření dat zajišťuje, že informace, které potřebujete k provádění důležitých rozhodnutí, jsou přesná a důvěryhodná.

Očištění dat je proces odstraňování nebo opravy chyb z množiny dat, tabulky nebo databáze. Tyto chyby mohou zahrnovat poškozené, nepřesné, irelevantní nebo neúplné informace. Tento proces, také nazývaný čištění dat, najde duplicitní data a jiné nekonzistence, jako jsou překlepy a numerické sady, které nesečtou. Očištění dat může odstranit nesprávné informace nebo opravit zjevné chyby, jako jsou prázdná pole nebo chybějící kódy.

Integrita dat označuje pravdivost dat v dlouhodobém horizontu. Jakmile jsou data zadána nebo importována, wrangled, ověřena, vyčištěna a uložena, integrita dat je prohlášení, že kvalita dat je udržována a uživatelé si mohou být jisti, že data, která byla vložena, se nezměnila a nezmění. Načtená data jsou shodná s tím, co bylo původně uloženo. Někdy se používá jako synonymum pro kvalitu dat, integrita dat je spíše o spolehlivosti a spolehlivosti.

Řízení dat je sada zásad a postupů k zajištění řádné správy dat v celé organizaci. Stanoví infrastrukturu informačních technologií a jmenuje osoby (nebo pozice), které mají pravomoc a odpovědnost za nakládání s konkrétními typy údajů a jejich ochranu. Efektivní správa dat zajišťuje, že data jsou dostupná, důvěryhodná, bezpečná a v souladu s předpisy – a že nejsou zneužívána.

Správcem údajů je provádění politik a postupů správy údajů pro zajištění přesnosti, spolehlivosti, integrity a bezpečnosti údajů. Jednotlivci přiřazení s odpovědností za správu dat řídí a dohlížejí na postupy a nástroje používané ke zpracování, ukládání a ochraně dat.

Architektura dat je celkový návrh struktury, zásad a pravidel, které definují data organizace a způsob jejich použití a správy. Architektura dat zahrnuje podrobnosti o tom, jak je strategie v oblasti dat implementována na podporu podnikových potřeb a cílů – a slouží jako základ pro vývoj databází, postupů, záruk, zabezpečení a správy dat.

Správa kmenových dat (Master Data Management, MDM) je praxe vytváření jediného „hlavního“ referenčního zdroje pro všechna důležitá obchodní data. Zahrnuje zásady a postupy pro definování, správu a kontrolu (nebo řízení) zpracování kmenových dat. Centralizovaná správa kmenových dat eliminuje konflikty a záměny, které vyplývají z rozptýlených databází s duplicitními informacemi a nekoordinovanými daty, která mohou být zastaralá, poškozená nebo přesměrovaná včas – aktualizovaná na jednom místě, ale ne na jiném místě. Existence jedné verze pro celý podnik znamená, že všechny části organizace pracují se stejnými definicemi, standardy a předpoklady.

Pojem analýza označuje systematickou analýzu dat. Analytické aplikace a sady nástrojů obsahují matematické algoritmy a výpočetní nástroje, které dokáží manipulovat s velkými datovými soubory a odhalovat tak vzory, trendy, vztahy a další inteligence, které uživatelům umožňují klást otázky a získávat užitečné informace o jejich podnikání, operacích a trzích. Mnoho moderních analytických nástrojů je navrženo pro použití netechnickými podnikateli, což jim umožňuje provádět tyto analýzy s minimální pomocí od datových vědců nebo IT specialistů.

Dolování dat je akt získávání užitečných informací z velkých datových souborů. Dolování dat často provádějí podnikoví uživatelé, kteří používají analytické nástroje k odhalení vzorů, trendů, anomálií, vztahů, závislostí a dalších užitečných informací. Těžba dat má širokou škálu aplikací, od odhalování problémů souvisejících s podvody a kybernetickou bezpečností až po zlepšení prognóz a nalezení příležitostí ke zlepšení výkonu.

Profilování dat je praxe shromažďování statistik a znaků o datovém souboru, jako je jeho přesnost, úplnost a platnost. Profilování dat je jednou z technik používaných při ověřování a čištění dat, protože může pomoci odhalit problémy s kvalitou dat, jako jsou redundance, chybějící hodnoty a nekonzistence.

Co je to správa dat?

Zjistěte, jak může vaše organizace transformovat svá data na cenné aktivum.

Newsletter SAP Insights

Přihlásit se k odběru dnes

Získejte důležité informace přihlášením k odběru našeho newsletteru.

Další čtení

Zpět na začátek