Що таке сховище даних?
Сховище даних (DW) — це цифрова система зберігання, яка з'єднує та гармонізує великі обсяги даних з багатьох різних джерел.
default
{}
default
{}
primary
default
{}
secondary
Огляд сховища даних
Сховище даних (DW) — це централізований репозиторій, який збирає, інтегрує та зберігає великі обсяги поточних та історичних даних з кількох джерел. Він підтримує бізнес-аналітику (BI), звітність і розширену аналітику, надаючи єдине, послідовне джерело істини. Консолідуючи та стандартизуючи дані, організації можуть генерувати надійні аналітичні дані, відповідати нормативним вимогам та приймати обґрунтовані рішення на основі даних.
Дані зазвичай переходять до сховища даних з операційних систем (таких як ERP та CRM), внутрішніх баз даних і зовнішніх джерел, таких як партнерські платформи, пристрої IoT, канали погоди та соціальні мережі. Оскільки хмарні обчислення дозріли, зберігання даних змістилося з традиційних локальних середовищ на гнучкі мультихмарні та гібридні хмарні архітектури.
Сучасні сховища даних побудовані для керування як структурованими, так і неструктурованими даними, такими як відео, зображення та сенсорні потоки. Багато з них включають інтегровану аналітику та обробку в пам’яті, щоб забезпечити швидші запити, доступ до даних у реальному часі та більш ефективні звіти та потоки операцій BI. Без сховища даних організації намагаються об'єднати гетерогенні джерела даних, правильно підготувати дані для аналітики та підтримувати видимість між наборами даних.
Рисунок 1: Огляд сховища даних
Переваги зберігання даних
Добре спроектований сховище даних є основою успішної бізнес-аналітики, звітності та аналітики. Консолідуючи дані в єдине джерело істини, це прискорює розуміння для кращого, впевненішого прийняття рішень у всьому бізнесі. До основних переваг можна віднести:
- Краща бізнес-аналітика: сховище даних об'єднує дані з декількох систем в єдине узгоджене уявлення про бізнес, дозволяючи лідерам легше аналізувати тенденції та приймати розумніші рішення на основі даних.
- Швидші запити та аналітичні дані: Оскільки сховища даних оптимізовані для аналітики, а не транзакцій, користувачі можуть виконувати складні запити на великих наборах даних набагато швидше, що прискорює цикли звітності та зменшує залежність від ІТ.
- Покращена якість та узгодженість даних: Дані очищуються, перевіряються та стандартизуються до того, як вони надійдуть на склад, забезпечуючи, щоб аналітика базувалася на якісній, достовірній інформації. Краща якість даних безпосередньо призводить до кращих рішень.
- Більш глибоке історичне розуміння: сховище даних зберігає багаті історичні дані, що полегшує виявлення довгострокових шаблонів, оцінку продуктивності та створення точніших прогнозів, які зміцнюють стратегічне планування.
Рисунок 2: Знімок екрана сховища даних з відображенням походження даних
Які типи даних може зберігати сховище даних?
Коли сховища даних з'явилися в кінці 1980-х років, вони були побудовані для зберігання структурованих даних — добре організованої інформації, такої як дані про клієнтів, списки продуктів і записи транзакцій. Оскільки потреби бізнесу розширилися, компанії також хотіли працювати з неструктурованими даними, такими як документи, зображення, відео, електронні листи, повідомлення в соціальних мережах і виведення датчиків з машин і пристроїв IoT.
Сучасні сховища даних можуть обробляти як структуровані, так і неструктуровані дані, об'єднуючи їх, щоб дати бізнесу більш повний, інтегрований погляд на більш сильні ідеї.
Ключові поняття та порівняння
У світі зберігання даних є багато чого повчитися. Ось деякі з найважливіших понять. Ознайомтеся з додатковими визначеннями та запитаннями в нашому глосарії.
Сховище даних порівняно з базою даних
Бази даних і сховища даних зберігають дані, але вони виконують різні ролі. База даних керує інформацією в реальному часі для певної бізнес-сфери, тоді як сховище даних поєднує поточні та історичні дані з усієї організації для підтримки звітності та аналітики. Хоча він працює на технології баз даних, сховище даних додає інструменти для інтеграції, моделювання та керування даними з часом.
Бази даних зберігають щоденні операції, що виконуються шляхом обробки транзакцій і швидкого оновлення записів. Склади даних підтримують аналітику, допомагаючи командам виявляти тенденції, порівнювати продуктивність та приймати стратегічні рішення.
Сховище даних порівняно з озером даних
Сховища даних і озера даних зберігають великі обсяги даних, але мають різне призначення. Сховище даних містить структуровані, підготовлені дані для звітності та аналітики, тоді як озеро даних зберігає необроблені необроблені дані, які можна використовувати пізніше. Вони часто працюють разом: сирі дані живуть в озері і перетворюються і переміщуються в склад, коли це необхідно для аналізу.
Використовуйте озеро даних для гнучкого та недорогого зберігання необроблених даних. Використовуйте сховище даних для швидкої та надійної аналітики структурованих даних. Більшість організацій отримують вигоду від обох; озеро захоплює все, а склад перетворює його на прозріння.
Рисунок 3: Порівняння сховища даних і озера даних
Сховище даних проти вітрини даних
Маржа даних - це підрозділ сховища даних, розділений спеціально для відділу або сфери діяльності, наприклад, продажів, маркетингу або фінансів. Наприклад, ринок даних продажів може зосередитися на потенційних можливостях, діяльності пайплайну та закритих угодах, тоді як маржа фінансових даних зосереджуватиметься на бюджетах, прогнозах і метриках виручки.
Деякі вітрини даних також створюються для автономних операційних цілей. У той час як сховище даних служить центральним сховищем даних для всієї компанії, вітрина даних служить релевантними даними для вибраної групи користувачів. Це спрощує доступ до даних, прискорює аналіз і дає їм контроль над власними даними. Кілька вітрин даних часто розгортаються у сховищі даних.
Рисунок 4: Діаграма, що показує, як працює вітрина даних
Ключові компоненти сховища даних
Сучасне сховище даних включає чотири ключові компоненти: центральну базу даних, інструменти інтеграції та поглинання даних, метадані та інструменти доступу. Разом вони надають швидку, надійну аналітику в масштабах.
Рисунок 5: Діаграма, що показує компоненти сховища даних
- Центральна база даних: Ядро накопичувача для складу, традиційно реляційна база даних, але все частіше в пам'яті або хмарна система для більш високої продуктивності.
- Інтеграція та поглинання даних: дані надходять з вихідних систем за допомогою пакетних методів, таких як ETL і ELT, а також опції реального часу, такі як реплікація захоплення даних змін і потоковий конвеєр. Ці процеси також обробляють перетворення, перевірки якості та поповнення.
- Метадані: інформація, яка описує дані — їх походження, структуру, значення та спосіб їх використання — охоплює як бізнес-контекст, так і технічний контекст.
- Інструменти доступу: інструменти, які дозволяють користувачам запитувати, аналізувати та взаємодіяти з даними сховища, включаючи інструменти звітності, інструментальні панелі, платформи аналітики та інструменти розробки застосунків.
Архітектура сховища даних
Історично сховища даних були організовані в рівні, які узгоджуються з тим, як дані переміщуються по системі. Типовий сховище даних включає в себе три шари. Сучасні платформи спрощують архітектуру, щоб підтримувати швидший рух даних та аналітику.
Рисунок 6: Діаграма архітектури сховища даних
- Рівень даних: Дані витягуються з вихідних систем, потім перетворюються і завантажуються в сховище за допомогою методу ковтання, такого як ETL. Цей рівень включає основну базу даних, вітрини даних і озера даних, а також метадані та інструменти інтеграції, які стандартизують і готують дані.
- Рівень семантики: Цей рівень організовує та моделює дані, тому легко запитувати та аналізувати, пропонуючи кураторські подання та бізнес-визначення, які підтримують швидку, послідовну аналітику.
- Рівень аналітики: верхній рівень забезпечує інструменти, з якими користувачі взаємодіють — інструментальні панелі, звіти, моніторинг KPI, розширений аналіз і ізольовані простори для вивчення даних і побудови нових моделей.
Склади даних традиційно будувалися і управлялися ІТ-командами, але сучасні платформи все більше розширюють можливості бізнес-користувачів працювати безпосередньо з даними. Основні можливості керування цією зміною включають:
- Бізнес-дружній семантичний рівень, який використовує природну мову, з'ясовує відносини та дозволяє користувачам збагачувати дані новим контекстом.
- Віртуальні робочі області, які переносять моделі даних, логіку та співпрацю в єдине кероване середовище.
- Хмарні інструменти, які полегшують для працівників підключення нових джерел даних, запускають аналіз та створюють аналітичні дані з набагато меншою залежністю від ІТ.
Як працює сховище даних?
Сховище даних організовує інформацію з усього вашого бізнесу, щоб її можна було легко досліджувати, довіряти та аналізувати. Процес зазвичай виконується за чотирма простими кроками:
- Екстракт: дані витягуються з вихідних систем, таких як застосунки, бази даних і хмарні сервіси. На цьому етапі дані збираються як є.
- Трансформація: Дані очищаються, стандартизуються та формуються, щоб вони були послідовними та готовими до використання. Це може включати видалення помилок, вирівнювання форматів або застосування бізнес-правил.
- Завантаження: підготовлені дані зберігаються на складі в структурованому форматі, оптимізованому для швидкої звітності та аналітики.
- Аналізувати: після завантаження даних команди можуть досліджувати їх за допомогою інструментальних панелей, звітів і розширеної аналітики для прийняття обґрунтованих рішень.
ETL проти ELT: У чому різниця?
ETL (Витяг → Трансформація → Завантаження): Дані трансформуються до того, як вони потраплять на склад. Такий підхід поширений з традиційними сховищами даних, які мають обмежену обчислювальну потужність.
ELT (Екстракт → Завантаження → Трансформація): необроблені дані спочатку завантажуються в склад і трансформуються всередині складу. Сучасні хмарні платформи сприяють цьому методу, тому що вони можуть ефективно обробляти масштабні перетворення.
Які чотири ключові характеристики сховища даних?
Сховище даних побудовано на кількох основних принципах, які гарантують, що він надає надійну, послідовну та аналізовану інформацію по всьому бізнесу. Чотири ключові характеристики:
- Суб'єктно-орієнтовані: Організовані навколо основних бізнес-тем, таких як клієнти або продажі — для підтримки аналізу.
- Інтегровані: дані з різних систем, таких як ERP і CRM, очищаються і стандартизуються, тому вони узгоджуються послідовно.
- Варіант часу: зберігає історичні дані протягом довгих періодів, забезпечуючи аналіз тренда та продуктивності.
- Незалежні: Дані є стабільними після завантаження — читабельними, але не оновлюються або видаляються — забезпечуючи надійне джерело істини.
Переваги хмарного сховища даних
Склади хмарних даних стають все більш популярними, оскільки вони пропонують значні переваги перед традиційними локальними системами. Ось сім найкращих переваг переміщення сховища даних у хмару:
- Швидке розгортання: закрутіть сховище, обчислення та нові середовища, як-от вітрини даних або пісочниці за лічені хвилини, звідусіль.
- Нижчий TCO: сплачуйте лише за ресурси, які ви використовуєте. Уникайте витрат на обладнання, обладнання та технічне обслуговування та зменшуйте витрати, розділяючи зберігання та обчислення.
- Еластичність: миттєво збільшуйте або зменшуйте масштаб, щоб обробляти змінні робочі навантаження та великі обсяги даних без ручних зусиль.
- Безпека та аварійне відновлення: Хмарні платформи часто забезпечують сильніші засоби контролю безпеки, шифрування та автоматичні резервні копії для захисту від втрати даних.
- Продуктивність у режимі реального часу: вбудовані в пам'ять та хмарні двигуни забезпечують високу швидкість обробки даних у реальному часі.
- Доступ до нових технологій: легко інтегруйте такі можливості, як машинне навчання, автоматизовані аналітичні дані та розширена аналітика.
- Посилює можливості бізнес-користувачів: надає командам єдине подання даних плюс інтуїтивно зрозумілі інструменти для аналізу інформації та підключення нових джерел без серйозної ІТ-участі.
Рисунок 7: Зберігання даних підтримує комплексну аналітику витрат
Найкращі практики сховища даних
При побудові нового сховища даних або розширенні існуючого, дотримання перевірених практик допомагає вам досягти ваших цілей, заощаджуючи час і витрати. Деякі практики зосереджені на бізнес-потребах, а інші підпадають під ширші ІТ-рекомендації. Наведений нижче список є надійною відправною точкою, і ви уточните його, працюючи зі своїми партнерами по технологіям та послугам.
Найкращі практики для бізнесу
- Визначте необхідну інформацію. Почніть з визначення запитань, на які ви хочете відповісти, і рішень, які ви хочете підтримати. Звідти визначте, які джерела даних потрібні. Галузеві групи, клієнти та постачальники також можуть запропонувати вказівки щодо корисних даних.
- Документуйте стан своїх поточних даних. Записуйте, де живуть ваші дані, як вони структуровані, і його якість, щоб виявити прогалини, необхідні трансформації та бізнес-правила, на які буде покладатися ваш склад.
- Побудуйте потрібну команду. Включіть виконавчих спонсорів, бізнес-менеджерів і кінцевих користувачів, які будуть покладатися на аналітичні дані. Зрозумійте стандартні звіти, KPI і показники, які їм потрібні для досягнення успіху.
- Визначте пріоритет своїх перших проєктів. Почніть з одного або двох пілотів, які пропонують чітку цінність бізнесу та керований обсяг. Ранні перемоги допомагають нарощувати імпульс.
- Виберіть сильного технологічного партнера. Виберіть постачальника з перевіреним досвідом, підтримкою впровадження та платформою, яка відповідає вашим потребам розгортання.
- Створіть реалістичний план проєкту. Співпрацюйте зі своєю командою, щоб створити чітку дорожню карту та часову лінію. Регулярні оновлення зв'язку та статусу впорядковують всіх.
Найкращі ІТ-практики
- Відстежуйте продуктивність, доступ і безпеку. Склад повинен бути як швидким, так і захищеним. Відстежуйте використання системи, події безпеки та шаблони доступу, щоб забезпечити безпеку даних, залишаючись легкими для доступу авторизованих користувачів.
- Вести якість даних, метадані, структуру та керування. Нові дані, що вводяться до складу, повинні відповідати несуперечним правилам. Стандартизуйте очищення, трансформацію, визначення метаданих і керування даними, щоб користувачі могли довіряти результатам.
- Забезпечити гнучку архітектуру. У міру зростання бізнесу командам знадобляться нові вітрини даних, моделі та робочі навантаження. Масштабована модульна архітектура підтримує ці потреби краще, ніж жорсткі або щільно зв'язані системи.
- Автоматизуйте технічне обслуговування та операції. Використовуйте автоматизацію та машинне навчання для оптимізації завдань, таких як індексація, моніторинг, оптимізація та оновлення. Це покращує продуктивність і зменшує експлуатаційні витрати.
- Використовуйте хмару стратегічно. Різні команди мають різні вимоги. За потреби зберігайте певні робочі навантаження на приміщеннях, використовуючи хмарні сховища даних для масштабування, зниження вартості та полегшення доступу до всіх пристроїв.
Зведення
Сучасні сховища даних, особливо хмарні, відіграють центральну роль у цифровій трансформації, об'єднуючи дані з внутрішніх і зовнішніх джерел для повного та своєчасного перегляду бізнесу. Вони живлять інструментальні панелі, KPI, попередження та звіти по всій організації та підтримують швидку, складну аналітику без впливу на операційні системи.
Оскільки вони можуть легко почати з малого та масштабного масштабу, вони допомагають як корпоративним командам, так і бізнес-одиницям приймати кращі рішення та покращувати продуктивність.
Запитання та відповіді
- Корпоративне сховище даних. EDW – це центральне сховище даних для всієї компанії, яке зберігає всі поточні та історичні дані в одному місці. Він надає єдине несуперечне джерело істини для аналітики, звітності та KPI у всій організації. Більшість сучасних EDW засновані на хмарності для масштабованості та простішого доступу.
- Сховище операційних даних: ODS — це сховище даних майже в реальному часі, яке використовується для оперативної звітності та щоденної діяльності. Він знаходиться між транзакційними системами та EDW, об'єднуючи дані з декількох джерел у більш актуальній, але не повністю історичній формі. Це корисно, коли дані потрібно часто оновлювати для швидких операційних рішень.
- Маржа даних: вітрина даних - це менший, специфічний для суб’єкта сектор сховища даних, призначений для певної групи або організаційної одиниці, наприклад, фінансів, продажів або маркетингу. Він забезпечує швидкий доступ до даних, які найбільше важливі для цієї групи, без розкриття всього складу.
- Центральна база даних: первинний рівень зберігання, де розміщуються структуровані, очищені та інтегровані дані. Зазвичай це реляційна, стовпчаста або хмарна база даних, оптимізована для аналітики.
- Інструменти інтеграції / поглинання даних: інструменти та процеси, такі як ETL (екстракція, перетворення, завантаження), ELT (витягування, завантаження, перетворення), пакетні завантаження та реплікація в реальному часі, які приносять дані з вихідних систем у сховище та готують їх до використання.
- Метадані: інформація, яка описує дані: звідки вони походять, як вони структуровані, що це означає, і як їх слід використовувати. Метадані допомагають користувачам розуміти дані та довіряти їм.
- Інструменти доступу: застосунки та інтерфейси, які дозволяють користувачам запитувати, візуалізувати, досліджувати та аналізувати дані, такі як інструменти звітності, інструментальні панелі, платформи аналітики та інструменти запитів SQL.
Продукт SAP
SAP Business Data Cloud
Збільште цінність ШІ за допомогою своїх найпотужніших даних.