Co jsou big data?
Big Data jsou oceánem informací, které každý den plaváme – obrovskými zetabajty dat proudících z našich počítačů, mobilních zařízení a snímačů strojů.
Detailní definice velkých dat
Big Data jsou oceánem informací, které každý den plaváme – obrovskými zettabyty dat proudících z našich počítačů, mobilních zařízení a snímačů strojů. Tato data používají organizace k podpoře rozhodování, zlepšování procesů a zásad a k vytváření produktů, služeb a zkušeností zaměřených na zákazníky. Big Data jsou definována jako „velká“ nejen kvůli svému objemu, ale také kvůli rozmanitosti a složitosti své povahy. Typicky přesahuje kapacitu tradičních databází pro její zachycení, správu a zpracování. A velká data mohou pocházet odkudkoli nebo cokoli na zemi, které jsme schopni digitálně monitorovat. Meteorologické družice, zařízení internetu věcí (IoT), dopravní kamery, trendy sociálních médií – to jsou jen některé z vytěžovaných a analyzovaných datových zdrojů, aby se podniky staly odolnějšími a konkurenceschopnějšími.
Význam analýzy velkých objemů dat
Skutečná hodnota Big Data se měří podle toho, do jaké míry jste schopni je analyzovat a pochopit. Umělá inteligence (AI), strojové učení a moderní databázové technologie umožňují vizualizaci a analýzu velkých dat pro poskytování užitečných přehledů – v reálném čase. Analýza velkých dat pomáhá společnostem pracovat s jejich daty – realizovat nové příležitosti a vytvářet obchodní modely. Geoffrey Moore, autor a analytik managementu, prohlásil: „Bez big data analytiky jsou společnosti slepé a hluché, putují na web jako jeleni na dálku.“
Vývoj velkých dat
Tak nepředstavitelný, jak se zdá dnes, vzal apollónský naváděcí počítač první kosmickou loď na Měsíc s méně než 80 kilobajty paměti. Od té doby roste výpočetní technika exponenciálním tempem – a spolu s ní i generování dat. Ve skutečnosti se světová technologická kapacita pro ukládání dat od 80. let zdvojnásobuje přibližně každé tři roky. Před více než 50 lety, kdy se Apollo 11 zrušilo, mohlo množství digitálních dat generovaných v celém světě zapadnout do průměrného notebooku. V roce 2020 byly vytvořeny nebo replikovány odhady Statista 64.2ZB dat a "Množství digitálních dat vytvořených během následujících pěti let bude větší než dvojnásobek množství dat vytvořených od nástupu digitálního úložiště."
Vzhledem k tomu, že software a technologie jsou stále pokročilejší, jsou méně životaschopné nedigitální systémy ve srovnání. Data generovaná a shromážděná digitálně vyžadují pokročilejší systémy pro správu dat. Exponenciální růst platforem sociálních médií, technologií chytrých telefonů a digitálně propojených zařízení IoT navíc pomohl vytvořit současnou éru Big Data.
Typy velkých dat: Co jsou strukturovaná a nestrukturovaná data?
Datové sady jsou typicky kategorizovány do tří typů na základě jejich struktury a toho, jak jednoduché (nebo ne) je indexovat.
Tři typy velkých dat
- Strukturovaná data: Tento druh dat je nejjednodušší organizovat a vyhledávat. Může zahrnovat například finanční data, protokoly strojů a demografické detaily. Excelová tabulka se svým rozložením předem definovaných sloupců a řádků je dobrým způsobem, jak si představit strukturovaná data. Jeho komponenty jsou snadno kategorizovány, což umožňuje návrhářům databází a administrátorům definovat jednoduché algoritmy pro vyhledávání a analýzu. I když strukturovaná data existují v obrovském objemu, nemusí se nutně kvalifikovat jako Big Data, protože strukturovaná data sama o sobě je poměrně jednoduchá na správu, a proto nesplňuje definující kritéria velkých dat. Databáze tradičně používají pro správu strukturovaných dat programovací jazyk, který se nazývá Strukturovaný dotazovací jazyk (SQL). SQL byl vyvinut IBM v 70. letech, aby vývojáři mohli vytvářet a spravovat relační (tabulkový styl) databáze, které v té době začínaly vzlétat.
- Nestrukturovaná data: Tato kategorie dat může zahrnovat například příspěvky na sociálních sítích, zvukové soubory, obrázky a komentáře zákazníků s otevřeným koncem. Tento druh dat nelze snadno zachytit ve standardních relačních databázích sloupců řádků. Firmy, které chtěly vyhledávat, spravovat nebo analyzovat velké množství nestrukturovaných dat, musely tradičně používat pracné manuální procesy. Nikdy nepadla otázka, jaká je možná hodnota analýzy a porozumění těmto datům, ale náklady na jejich provedení byly často příliš přehnané, aby to stálo za to. Vzhledem k tomu, jak dlouho to trvalo, byly výsledky často zastaralé, než byly dokonce dodány. Namísto tabulkových procesorů nebo relačních databází se nestrukturovaná data obvykle ukládají do datových jezer, datových skladů a databází NoSQL.
- Polostrukturovaná data: Jak zní, polostrukturovaná data jsou hybridní ze strukturovaných a nestrukturovaných dat. E-maily jsou dobrým příkladem, protože zahrnují nestrukturovaná data v těle zprávy, stejně jako více organizačních vlastností, jako je odesílatel, příjemce, předmět a datum. Zařízení, která používají geografické značkování, časová razítka nebo sémantické značky, mohou také dodávat strukturovaná data spolu s nestrukturovaným obsahem. Například neidentifikovaný obrázek smartphonu vám může stále říct, že se jedná o selfie a čas a místo, kde byl pořízen. Moderní databáze využívající umělou inteligenci může nejen okamžitě identifikovat různé typy dat, ale může také generovat algoritmy v reálném čase pro efektivní správu a analýzu nesourodých datových sad.
Zdroje velkých dat
Škála věcí vytvářejících data roste fenomenálním tempem – od dronových satelitů až po toastery. Ale pro účely kategorizace jsou zdroje dat obecně rozděleny do tří typů:
Data sociálních médií
Jak zní, sociální data jsou generována komentáři, příspěvky, obrázky na sociálních sítích a stále častěji i video. A s rostoucí celosvětovou všudypřítomností mobilních sítí 4G a 5G se odhaduje, že do roku 2023 se počet lidí na světě, kteří pravidelně sledují video obsah na svých smartphonech, zvýší na 2,72 miliardy. Přestože trendy v sociálních médiích a jejich využívání se většinou rychle a nepředvídatelně mění, co se nemění, je jeho stálý růst jako generátor digitálních dat.
Data stroje
IoT zařízení a stroje jsou vybaveny senzory a mají schopnost odesílat a přijímat digitální data. Senzory IoT pomáhají společnostem shromažďovat a zpracovávat data strojů ze zařízení, vozidel a vybavení v celém podniku. Celosvětově počet věcí vytvářejících data rychle roste – od meteorologických a dopravních senzorů až po bezpečnostní dohled. IDC odhaduje, že do roku 2025 bude na Zemi více než 40 miliard zařízení IoT, což generuje téměř polovinu celkových digitálních dat na světě.
Transakční data
Jedná se o jedny z nejrychleji se pohybujících a rostoucích dat na světě. Například je známo, že velký mezinárodní maloobchodník zpracovává více než milion zákaznických transakcí každou hodinu. A když přidáte všechny světové nákupní a bankovní transakce, získáte obrázek o ohromujícím objemu generovaných dat. Transakční data se navíc stále více skládají z polostrukturovaných dat, včetně obrázků a komentářů, což činí správu a zpracování složitější.
Pět V, které definují big data
Jen proto, že datová sada je velká, nemusí to být nutně Big Data. Aby bylo možno údaje za takové kvalifikovat, musí mít alespoň těchto pět charakteristik:
Pět charakteristik Big Data, nazývaných 5V’s
- Objem: Zatímco objem není v žádném případě jedinou složkou, která dělá Big Data „velká“, je to určitě primární vlastnost. Pro plnou správu a využití velkých dat jsou vyžadovány pokročilé algoritmy a analýzy řízené umělou inteligencí. Ale předtím, než k něčemu z toho může dojít, musí existovat bezpečný a spolehlivý způsob ukládání, organizování a získávání mnoha terabajtů dat, které jsou v držení velkých společností.
- Rychlost: V minulosti musela být všechna vygenerovaná data později zadána do tradičního databázového systému – často ručně – dříve, než mohla být analyzována nebo načtena. Technologie Big Data dnes umožňuje databázím zpracovávat, analyzovat a konfigurovat data během jejich generování – někdy během milisekund. Pro podniky to znamená, že data v reálném čase mohou být použita k zachycení finančních příležitostí, reakci na potřeby zákazníků, zmaření podvodů a řešení jakékoli jiné činnosti, kde je kritická rychlost.
- Odrůda: Datové sady, které se skládají výhradně ze strukturovaných dat, nemusí být nutně Big Data, bez ohledu na to, jak jsou objemné. Big Data se obvykle skládají z kombinací strukturovaných, nestrukturovaných a polostrukturovaných dat. Tradiční databáze a řešení pro správu dat postrádají flexibilitu a rozsah pro správu komplexních, nesourodých datových sad, které tvoří big data.
- Věrohodnost: Zatímco moderní databázová technologie umožňuje společnostem hromadit a dávat smysl ohromujícím množstvím a typům velkých dat, je cenná pouze tehdy, pokud je přesná, relevantní a včasná. U tradičních databází, které byly vyplněny pouze strukturovanými daty, byly syntaktické chyby a překlepy obvyklým viníkem, pokud jde o přesnost dat. S nestrukturovanými daty existuje zcela nový soubor výzev týkajících se věrohodnosti. Na kvalitu dat mohou mít vliv lidská zaujatost, sociální hluk a problémy s proveniencí dat.
- Hodnota: Bez pochyby jsou výsledky, které pocházejí z big data analýzy, často fascinující a neočekávané. Ale pro podniky musí analýza velkých dat poskytovat přehledy, které mohou podnikům pomoci stát se konkurenceschopnějšími a odolnějšími – a lépe sloužit svým zákazníkům. Moderní technologie big data otevírají kapacitu pro shromažďování a získávání dat, které mohou poskytnout měřitelný přínos jak pro spodní linie, tak pro provozní odolnost.
Výhody velkých dat
Moderní řešení pro správu velkých dat umožňují společnostem přeměnit nezpracovaná data na relevantní přehledy – s nebývalou rychlostí a přesností.
Vývoj produktů a služeb: Analýza velkých dat umožňuje vývojářům produktů analyzovat nestrukturovaná data, jako jsou hodnocení zákazníků a kulturní trendy, a rychle reagovat.
Prediktivní údržba: V mezinárodním průzkumu McKinsey zjistil, že analýza velkých dat ze strojů využívajících technologii IoT snížila náklady na údržbu zařízení až o 40 %.
Zákaznická zkušenost: V průzkumu globálních obchodních lídrů z roku 2020 společnost Gartner zjistila, že „rostoucí společnosti aktivněji shromažďují data o zákaznických zkušenostech než společnosti, které nerostou.“ Analýza těchto velkých dat umožňuje podnikům zlepšovat a personalizovat zkušenosti zákazníků s jejich značkou. Kromě Big Data týmy CX stále více berou v úvahu „hustá data“. Tyto kvalitativní přehledy o pozorováních, pocitech a reakcích zákazníků posilují big data a poskytují společnostem komplexnější porozumění jejich zákazníkům.
Odolnost a řízení rizik: Pandemie COVID-19 byla pro mnoho vedoucích podniků ostrým probuzením, protože si uvědomila, jak zranitelné jsou jejich operace k narušení. Přehledy big data mohou společnostem pomoci předvídat rizika a připravit se na neočekávané.
Úspory nákladů a vyšší efektivita: Když podniky používají pokročilé analýzy velkých dat ve všech procesech ve své organizaci, jsou schopny nejen odhalit neefektivitu, ale implementovat rychlá a efektivní řešení.
Lepší konkurenceschopnost: Přehledy vycházející z velkých dat mohou společnostem pomoci ušetřit peníze, potěšit zákazníky, vytvářet lepší produkty a inovovat obchodní operace.
Umělá inteligence a velká data
Big Data management je závislý na systémech se schopností zpracovávat a smysluplně analyzovat obrovské množství nesourodých a složitých informací. V tomto ohledu mají Big Data a AI poněkud reciproční vztah. Big Data by bez UMĚLÉ inteligence neměla mnoho praktického využití k jejich organizaci a analýze. A UMĚLÁ INTELIGENCE závisí na šíři datových sad obsažených v Big Data, aby poskytovala analýzy, které jsou dostatečně robustní, aby mohly být realizovatelné. Jak uvádí analytik Forrester Research Brandon Purcell, „Data jsou životní krví umělé inteligence. Systém umělé inteligence se musí učit z dat, aby mohl plnit svou funkci.”
" data jsou životně důležitou součástí AI. Systém umělé inteligence se musí učit z dat, aby mohl plnit svou funkci.&nabídka;
Brandon Purcell, analytik, Forrester Research
Kromě velkých dat organizace stále více využívají „malá data“ k trénování své umělé inteligence a algoritmů strojového učení. Malé datové soubory – jako jsou marketingové průzkumy, tabulky, e-maily, poznámky ke schůzkám a dokonce i jednotlivé příspěvky na sociálních sítích – jsou často přehlíženy, ale mohou obsahovat cenné informace. Nakonec, čím více materiálu se algoritmy musí naučit, tím lepší bude výstup.
Strojové učení a velká data
Algoritmy strojového učení definují příchozí data a identifikují v nich vzory. Tyto analýzy jsou dodávány, aby pomohly informovat o obchodních rozhodnutích a automatizovat procesy. Strojové učení prospívá velkým datům, protože čím robustnější jsou analyzované datové sady, tím větší je příležitost systému učit se, neustále se vyvíjet a přizpůsobovat své procesy.
Technologie big data
Big Data architektura
Stejně jako architektura ve stavebnictví, architektura Big Data poskytuje koncept pro základní strukturu toho, jak budou podniky spravovat a analyzovat svá data. Big Data architektura mapuje procesy potřebné pro správu Big Data na své cestě napříč čtyřmi základními "vrstvami", od datových zdrojů, přes ukládání dat, až po analýzu velkých dat, a nakonec prostřednictvím vrstvy spotřeby, ve které jsou analyzované výsledky prezentovány jako business intelligence.
Analýza velkých dat
Tento proces umožňuje smysluplnou vizualizaci dat pomocí modelování dat a algoritmů specifických pro charakteristiky Velkých dat. V hloubkové studii a průzkumu z MIT Sloan School of Management bylo více než 2000 obchodních lídrů požádáno o zkušenosti jejich společnosti s analýzou velkých dat. Není překvapením, že ti, kteří byli zapojeni a podporovali rozvoj svých strategií pro správu velkých dat, dosáhli měřitelně prospěšných obchodních výsledků.
Big Data a Apache Hadoop
Obrázek 10 dimes v jedné velké krabici smíchané se 100 nikly. Pak obrázek 10 menších krabic, vedle sebe, každý s 10 nikly a jen jeden dime. V jakém scénáři bude snazší rozpoznat dimy? Hadoop v podstatě pracuje na tomto principu. Jedná se o open-source framework pro správu distribuovaného zpracování velkých dat v síti mnoha připojených počítačů. Takže místo použití jednoho velkého počítače k ukládání a zpracování všech dat, Hadoop shlukuje více počítačů do téměř nekonečně škálovatelné sítě a analyzuje data paralelně. Tento proces obvykle používá programovací model nazvaný MapReduce, který koordinuje zpracování velkých objemů dat seřadením distribuovaných počítačů.
Datová jezera, datové sklady a NoSQL
Pro ukládání strukturovaných dat se používají tradiční databáze ve stylu tabulky SQL. Nestrukturovaná a polostrukturovaná big data vyžadují jedinečná paradigmata ukládání a zpracování, protože se nepropůjčuje k indexování a kategorizaci. Datová jezera, datové sklady a databáze NoSQL jsou všechna datová úložiště, která spravují netradiční datové sady. Datové jezero je rozsáhlý fond nezpracovaných dat, který ještě musí být zpracován. Datový sklad je úložiště pro data, která již byla zpracována pro určitý účel. Databáze NoSQL poskytují flexibilní schéma, které lze upravit tak, aby vyhovovalo povaze zpracovávaných dat. Každý z těchto systémů má své silné a slabé stránky a mnoho podniků používá kombinaci těchto různých datových úložišť, aby co nejlépe vyhovovaly jejich potřebám.
Databáze v paměti
Tradiční diskové databáze byly vyvinuty s ohledem na SQL a relační databázové technologie. I když mohou být schopny zpracovávat velké objemy strukturovaných dat, jednoduše nejsou navrženy tak, aby nejlépe ukládaly a zpracovávaly nestrukturovaná data. S in-memory databázemi probíhá zpracování a analýza zcela v RAM, na rozdíl od nutnosti načíst data z diskového systému. In-memory databáze jsou také postaveny na distribuovaných architekturách. To znamená, že mohou dosáhnout mnohem větší rychlosti využitím paralelního zpracování, na rozdíl od jednoho uzlu, diskových databázových modelů.
Jak velká data fungují
Big Data fungují, když jeho analýza poskytuje relevantní a proveditelné přehledy, které měřitelně zlepšují podnik. Při přípravě na transformaci velkých dat by podniky měly zajistit, aby jejich systémy a procesy byly dostatečně připraveny ke shromažďování, ukládání a analýze velkých dat.
Tři hlavní kroky spojené s využíváním velkých dat
- Shromáždit velká data. Velká část velkých dat je tvořena masivními soubory nestrukturovaných dat, které zaplavují z nesourodých a nekonzistentních zdrojů. Tradiční diskové databáze a mechanismy integrace dat se jednoduše neshodují s úkolem s tím naložit. Big Data management vyžaduje přijetí in-memory databázových řešení a softwarových řešení specifických pro sběr Big Data.
- Ukládání velkých dat. Podle vlastního názvu jsou Big Data objemná. Mnoho podniků má on-premise řešení pro ukládání svých stávajících dat a doufají, že budou hospodárnější tím, že tato úložiště přečistí tak, aby vyhověla jejich potřebám zpracování velkých dat. Big Data však fungují nejlépe, když je neomezená velikostí a omezeními paměti. Podniky, které se nedaří začlenit řešení cloudových úložišť do svých modelů velkých dat od začátku, toho často litují několik měsíců po cestě.
- Analýza velkých dat. Bez aplikace umělé inteligence a technologií strojového učení k analýze velkých dat není jednoduše možné realizovat jeho plný potenciál. Jedním z pěti v’s big data je „rychlost“. Aby byly přehledy big data proveditelné a cenné, musí přijít rychle. Analytické procesy musí být soběstačné optimalizace a musí být schopny se pravidelně učit ze zkušeností – výsledku, kterého lze dosáhnout pouze pomocí funkcí umělé inteligence a moderních databázových technologií.
Aplikace big data
Poznatky a hluboké učení, které poskytují big data, mohou být přínosem prakticky pro všechny podniky nebo odvětví. Velké organizace se složitými operativními remity však často dokáží big data co nejsmysluplně využívat.
Finance Studie časopisu Big Data z roku 2020 poukazuje na to, že big data „hrají důležitou roli při změně sektoru finančních služeb, zejména v oblasti obchodu a investic, daňové reformy, odhalování a vyšetřování podvodů, analýzy rizik a automatizace“. Big Data také pomohla transformovat finanční odvětví analýzou dat zákazníků a zpětné vazby, aby získala cenné informace potřebné ke zlepšení spokojenosti zákazníků a zkušeností. Transakční datové sady jsou jedny z nejrychleji se pohybujících a největších na světě. Rostoucí přijetí pokročilých řešení pro správu velkých dat pomůže bankám a finančním institucím chránit tato data a využívat je způsobem, který prospěje a chrání zákazníka i podnik.
Zdravotnictví Analýza velkých objemů dat umožňuje zdravotnickým pracovníkům provádět přesnější a na důkazech podložené diagnózy. Kromě toho big data pomáhají správcům nemocnic zjišťovat trendy, řídit rizika a minimalizovat zbytečné výdaje – podporuje nejvyšší možné rozpočty v oblastech péče o pacienty a výzkumu. Uprostřed pandemie výzkumní vědci po celém světě usilují o lepší způsoby léčby a řízení onemocnění COVID-19 – a data velkého objemu hrají v tomto procesu obrovskou roli. Článek v časopise The Scientific st z července 2020 popisuje, jak mohly lékařské týmy spolupracovat a analyzovat big data a pomoci tak bojovat s koronavirem: „Můžeme změnit způsob, jakým je klinická věda prováděna, a využít nástroje a zdroje big data a datové vědy způsobem, který nebyl možný.“
Doprava a logistika Amazon Effect je termín, který popisuje, jak Amazon nastavil lištu pro očekávání dodání příští den tam, kde zákazníci nyní požadují tento druh rychlosti přepravy pro cokoliv, co objednávají online. Časopis Podnikatel poukazuje na to, že v přímém důsledku Amazonského efektu „logistický závod na poslední míli bude růst konkurenceschopnější“. Logistické společnosti se stále více spoléhají na analýzy velkých dat, aby optimalizovaly plánování tras, konsolidaci zatížení a opatření pro hospodárnost paliv.
Vzdělání Během pandemie musely vzdělávací instituce po celém světě znovu vymyslet své osnovy a metody výuky na podporu dálkového učení. Velkou výzvou pro tento proces bylo najít spolehlivé způsoby, jak analyzovat a vyhodnotit výkonnost studentů a celkovou účinnost on-line vyučovacích metod. Článek z roku 2020 o dopadu velkých dat na vzdělávání a online učení sleduje učitele: „Velká data je nutí cítit se mnohem sebevědoměji v personalizaci vzdělávání, rozvoji kombinovaného učení, transformaci systémů hodnocení a podpoře celoživotního učení.“
Energetika a veřejné služby Podle INFORMACÍ USA… Bureau of Labor Statistics, utilitní společnosti utratí více než 1,4 miliardy dolarů za čtečky měřičů a obvykle se spoléhají na analogové měřiče a málo časté ruční odečty. Inteligentní čtečky měřičů dodávají digitální data mnohokrát denně a s výhodou analýzy velkých dat může tento intel informovat o efektivnější spotřebě energie a přesnějších cenách a prognózách. Kromě toho, když jsou terénní pracovníci osvobozeni od odečtu měřidla, může zachycení a analýza dat pomoci rychleji je přemístit tam, kde jsou opravy a upgrady nejnaléhavější.
Časté dotazy týkající se velkých dat
Seznamte se s řešeními sap pro správu dat
Spravujte svou různorodou datovou infrastrukturu a sjednoťte svá data pro obchodní analýzy.
Nápady, které jinde nenajdete
Zaregistrujte se pro dávku business intelligence doručenou přímo do vaší e-mailové schránky.