flex-height
text-black

Кімната сервера в центрі обробки даних

Що таке сховище даних?

Сховище даних (DW) — це цифрова система зберігання, яка з'єднує та гармонізує великі обсяги даних з багатьох різних джерел.

default

{}

default

{}

primary

default

{}

secondary

Огляд сховища даних

Сховище даних (DW) — це централізований репозиторій, який збирає, інтегрує та зберігає великі обсяги поточних та історичних даних з кількох джерел. Він підтримує бізнес-аналітику (BI), звітність і розширену аналітику, надаючи єдине, послідовне джерело істини. Консолідуючи та стандартизуючи дані, організації можуть генерувати надійні аналітичні дані, відповідати нормативним вимогам та приймати обґрунтовані рішення на основі даних.

Дані зазвичай переходять до сховища даних з операційних систем (таких як ERP та CRM), внутрішніх баз даних і зовнішніх джерел, таких як партнерські платформи, пристрої IoT, канали погоди та соціальні мережі. Оскільки хмарні обчислення дозріли, зберігання даних змістилося з традиційних локальних середовищ на гнучкі мультихмарні та гібридні хмарні архітектури.

Сучасні сховища даних побудовані для керування як структурованими, так і неструктурованими даними, такими як відео, зображення та сенсорні потоки. Багато з них включають інтегровану аналітику та обробку в пам’яті, щоб забезпечити швидші запити, доступ до даних у реальному часі та більш ефективні звіти та потоки операцій BI. Без сховища даних організації намагаються об'єднати гетерогенні джерела даних, правильно підготувати дані для аналітики та підтримувати видимість між наборами даних.

Переваги зберігання даних

Добре спроектований сховище даних є основою успішної бізнес-аналітики, звітності та аналітики. Консолідуючи дані в єдине джерело істини, це прискорює розуміння для кращого, впевненішого прийняття рішень у всьому бізнесі. До основних переваг можна віднести:

Які типи даних може зберігати сховище даних?

Коли сховища даних з'явилися в кінці 1980-х років, вони були побудовані для зберігання структурованих даних — добре організованої інформації, такої як дані про клієнтів, списки продуктів і записи транзакцій. Оскільки потреби бізнесу розширилися, компанії також хотіли працювати з неструктурованими даними, такими як документи, зображення, відео, електронні листи, повідомлення в соціальних мережах і виведення датчиків з машин і пристроїв IoT.

Сучасні сховища даних можуть обробляти як структуровані, так і неструктуровані дані, об'єднуючи їх, щоб дати бізнесу більш повний, інтегрований погляд на більш сильні ідеї.

Ключові поняття та порівняння

У світі зберігання даних є багато чого повчитися. Ось деякі з найважливіших понять. Ознайомтеся з додатковими визначеннями та запитаннями в нашому глосарії.

Сховище даних порівняно з базою даних

Бази даних і сховища даних зберігають дані, але вони виконують різні ролі. База даних керує інформацією в реальному часі для певної бізнес-сфери, тоді як сховище даних поєднує поточні та історичні дані з усієї організації для підтримки звітності та аналітики. Хоча він працює на технології баз даних, сховище даних додає інструменти для інтеграції, моделювання та керування даними з часом.

Бази даних зберігають щоденні операції, що виконуються шляхом обробки транзакцій і швидкого оновлення записів. Склади даних підтримують аналітику, допомагаючи командам виявляти тенденції, порівнювати продуктивність та приймати стратегічні рішення.

Сховище даних порівняно з озером даних

Сховища даних і озера даних зберігають великі обсяги даних, але мають різне призначення. Сховище даних містить структуровані, підготовлені дані для звітності та аналітики, тоді як озеро даних зберігає необроблені необроблені дані, які можна використовувати пізніше. Вони часто працюють разом: сирі дані живуть в озері і перетворюються і переміщуються в склад, коли це необхідно для аналізу.

Використовуйте озеро даних для гнучкого та недорогого зберігання необроблених даних. Використовуйте сховище даних для швидкої та надійної аналітики структурованих даних. Більшість організацій отримують вигоду від обох; озеро захоплює все, а склад перетворює його на прозріння.

Сховище даних проти вітрини даних

Маржа даних - це підрозділ сховища даних, розділений спеціально для відділу або сфери діяльності, наприклад, продажів, маркетингу або фінансів. Наприклад, ринок даних продажів може зосередитися на потенційних можливостях, діяльності пайплайну та закритих угодах, тоді як маржа фінансових даних зосереджуватиметься на бюджетах, прогнозах і метриках виручки.

Деякі вітрини даних також створюються для автономних операційних цілей. У той час як сховище даних служить центральним сховищем даних для всієї компанії, вітрина даних служить релевантними даними для вибраної групи користувачів. Це спрощує доступ до даних, прискорює аналіз і дає їм контроль над власними даними. Кілька вітрин даних часто розгортаються у сховищі даних.

Ключові компоненти сховища даних

Сучасне сховище даних включає чотири ключові компоненти: центральну базу даних, інструменти інтеграції та поглинання даних, метадані та інструменти доступу. Разом вони надають швидку, надійну аналітику в масштабах.

  1. Центральна база даних: Ядро накопичувача для складу, традиційно реляційна база даних, але все частіше в пам'яті або хмарна система для більш високої продуктивності.
  2. Інтеграція та поглинання даних: дані надходять з вихідних систем за допомогою пакетних методів, таких як ETL і ELT, а також опції реального часу, такі як реплікація захоплення даних змін і потоковий конвеєр. Ці процеси також обробляють перетворення, перевірки якості та поповнення.
  3. Метадані: інформація, яка описує дані — їх походження, структуру, значення та спосіб їх використання — охоплює як бізнес-контекст, так і технічний контекст.
  4. Інструменти доступу: інструменти, які дозволяють користувачам запитувати, аналізувати та взаємодіяти з даними сховища, включаючи інструменти звітності, інструментальні панелі, платформи аналітики та інструменти розробки застосунків.

Архітектура сховища даних

Історично сховища даних були організовані в рівні, які узгоджуються з тим, як дані переміщуються по системі. Типовий сховище даних включає в себе три шари. Сучасні платформи спрощують архітектуру, щоб підтримувати швидший рух даних та аналітику.

Склади даних традиційно будувалися і управлялися ІТ-командами, але сучасні платформи все більше розширюють можливості бізнес-користувачів працювати безпосередньо з даними. Основні можливості керування цією зміною включають:

Як працює сховище даних?

Сховище даних організовує інформацію з усього вашого бізнесу, щоб її можна було легко досліджувати, довіряти та аналізувати. Процес зазвичай виконується за чотирма простими кроками:

  1. Екстракт: дані витягуються з вихідних систем, таких як застосунки, бази даних і хмарні сервіси. На цьому етапі дані збираються як є.
  2. Трансформація: Дані очищаються, стандартизуються та формуються, щоб вони були послідовними та готовими до використання. Це може включати видалення помилок, вирівнювання форматів або застосування бізнес-правил.
  3. Завантаження: підготовлені дані зберігаються на складі в структурованому форматі, оптимізованому для швидкої звітності та аналітики.
  4. Аналізувати: після завантаження даних команди можуть досліджувати їх за допомогою інструментальних панелей, звітів і розширеної аналітики для прийняття обґрунтованих рішень.

ETL проти ELT: У чому різниця?

ETL (Витяг → Трансформація → Завантаження): Дані трансформуються до того, як вони потраплять на склад. Такий підхід поширений з традиційними сховищами даних, які мають обмежену обчислювальну потужність.

ELT (Екстракт → Завантаження → Трансформація): необроблені дані спочатку завантажуються в склад і трансформуються всередині складу. Сучасні хмарні платформи сприяють цьому методу, тому що вони можуть ефективно обробляти масштабні перетворення.

Які чотири ключові характеристики сховища даних?

Сховище даних побудовано на кількох основних принципах, які гарантують, що він надає надійну, послідовну та аналізовану інформацію по всьому бізнесу. Чотири ключові характеристики:

  1. Суб'єктно-орієнтовані: Організовані навколо основних бізнес-тем, таких як клієнти або продажі — для підтримки аналізу.
  2. Інтегровані: дані з різних систем, таких як ERP і CRM, очищаються і стандартизуються, тому вони узгоджуються послідовно.
  3. Варіант часу: зберігає історичні дані протягом довгих періодів, забезпечуючи аналіз тренда та продуктивності.
  4. Незалежні: Дані є стабільними після завантаження — читабельними, але не оновлюються або видаляються — забезпечуючи надійне джерело істини.

Переваги хмарного сховища даних

Склади хмарних даних стають все більш популярними, оскільки вони пропонують значні переваги перед традиційними локальними системами. Ось сім найкращих переваг переміщення сховища даних у хмару:

  1. Швидке розгортання: закрутіть сховище, обчислення та нові середовища, як-от вітрини даних або пісочниці за лічені хвилини, звідусіль.
  2. Нижчий TCO: сплачуйте лише за ресурси, які ви використовуєте. Уникайте витрат на обладнання, обладнання та технічне обслуговування та зменшуйте витрати, розділяючи зберігання та обчислення.
  3. Еластичність: миттєво збільшуйте або зменшуйте масштаб, щоб обробляти змінні робочі навантаження та великі обсяги даних без ручних зусиль.
  4. Безпека та аварійне відновлення: Хмарні платформи часто забезпечують сильніші засоби контролю безпеки, шифрування та автоматичні резервні копії для захисту від втрати даних.
  5. Продуктивність у режимі реального часу: вбудовані в пам'ять та хмарні двигуни забезпечують високу швидкість обробки даних у реальному часі.
  6. Доступ до нових технологій: легко інтегруйте такі можливості, як машинне навчання, автоматизовані аналітичні дані та розширена аналітика.
  7. Посилює можливості бізнес-користувачів: надає командам єдине подання даних плюс інтуїтивно зрозумілі інструменти для аналізу інформації та підключення нових джерел без серйозної ІТ-участі.

Найкращі практики сховища даних

При побудові нового сховища даних або розширенні існуючого, дотримання перевірених практик допомагає вам досягти ваших цілей, заощаджуючи час і витрати. Деякі практики зосереджені на бізнес-потребах, а інші підпадають під ширші ІТ-рекомендації. Наведений нижче список є надійною відправною точкою, і ви уточните його, працюючи зі своїми партнерами по технологіям та послугам.

Найкращі практики для бізнесу

Найкращі ІТ-практики

Зведення

Сучасні сховища даних, особливо хмарні, відіграють центральну роль у цифровій трансформації, об'єднуючи дані з внутрішніх і зовнішніх джерел для повного та своєчасного перегляду бізнесу. Вони живлять інструментальні панелі, KPI, попередження та звіти по всій організації та підтримують швидку, складну аналітику без впливу на операційні системи.

Оскільки вони можуть легко почати з малого та масштабного масштабу, вони допомагають як корпоративним командам, так і бізнес-одиницям приймати кращі рішення та покращувати продуктивність.

Запитання та відповіді

Що таке озеро даних?
Озеро даних – це місце для зберігання всіх видів Big Data, незалежно від того, чи це структуровані дані з бізнес-застосунків або неструктуровані дані з мобільних додатків, соціальних мереж або Інтернету речей (IoT) пристроїв. Оскільки дані зберігаються в його природному форматі — структурованому, неструктурованому, напівструктурованому або бінарному перетворенні, нормалізації або іншій обробці може знадобитися для включення аналітики в різних типах даних. Більшість озер даних засновані на хмарі через великі обсяги даних, які вони зберігають, необхідність високошвидкісних з'єднань з розподіленими джерелами та необхідність масштабованості. Їх здатність зберігати величезну кількість необроблених даних робить їх гнучким, недорогим доповненням до сховища даних.
Що таке ETL і ELT?
ETL означає «витягти, перетворити та завантажити». Це стосується процесу отримання даних з вихідної системи, очищення та формування їх у придатному для використання форматі, а потім завантаження в сховище даних або інше сховище даних. Багато сучасних систем також використовують ELT — «витягти, завантажити і трансформувати», де дані завантажуються спочатку і потім перетворюються. Обидва підходи допомагають перетворити необроблені дані в те, що можна проаналізувати, чи походить вони з транзакційних систем або більш складних, неструктурованих джерел.
Що таке вітрина даних?
Маржа даних - це сфокусований сектор сховища даних, розроблений для певної бізнес-сфери або групи, наприклад, фінансів або маркетингу. Це дає групі швидкий доступ до даних, найбільш релевантних для його роботи, і дозволяє йому керувати власним перевіреним набором даних в межах більшого складу. Наприклад, ринок фінансових даних може включати бюджети, прогнози та дані виручки, адаптовані до потреб звітності фінансової групи.
Що таке моделювання даних?
Моделювання даних - це процес визначення того, як дані організовуються та з'єднуються, щоб їх можна було ефективно зберігати та використовувати. Модель даних описує, що представляють дані, і як різні частини пов’язані один з одним, створюючи концептуальний проєкт для несуперечної структури в різних системах. Наприклад, модель даних продажів може показати, як клієнти, замовлення та продукти з’єднуються разом для підтримки звітності та аналізу.
Що таке сховище даних підприємства (EDW)?
Корпоративне сховище даних (EDW) - це централізована система, яка зберігає всі поточні та історичні дані компанії в одному місці. Він надає єдине несуперечне джерело інформації для аналітики, звітності та KPI для всієї компанії. Багато EDW працюють у хмарі для полегшення доступу, масштабованості та управління.
Які три типи сховищ даних?
  1. Корпоративне сховище даних. EDW – це центральне сховище даних для всієї компанії, яке зберігає всі поточні та історичні дані в одному місці. Він надає єдине несуперечне джерело істини для аналітики, звітності та KPI у всій організації. Більшість сучасних EDW засновані на хмарності для масштабованості та простішого доступу.
  2. Сховище операційних даних: ODS — це сховище даних майже в реальному часі, яке використовується для оперативної звітності та щоденної діяльності. Він знаходиться між транзакційними системами та EDW, об'єднуючи дані з декількох джерел у більш актуальній, але не повністю історичній формі. Це корисно, коли дані потрібно часто оновлювати для швидких операційних рішень.
  3. Маржа даних: вітрина даних - це менший, специфічний для суб’єкта сектор сховища даних, призначений для певної групи або організаційної одиниці, наприклад, фінансів, продажів або маркетингу. Він забезпечує швидкий доступ до даних, які найбільше важливі для цієї групи, без розкриття всього складу.
Які чотири компоненти сховища даних?
  1. Центральна база даних: первинний рівень зберігання, де розміщуються структуровані, очищені та інтегровані дані. Зазвичай це реляційна, стовпчаста або хмарна база даних, оптимізована для аналітики.
  2. Інструменти інтеграції / поглинання даних: інструменти та процеси, такі як ETL (екстракція, перетворення, завантаження), ELT (витягування, завантаження, перетворення), пакетні завантаження та реплікація в реальному часі, які приносять дані з вихідних систем у сховище та готують їх до використання.
  3. Метадані: інформація, яка описує дані: звідки вони походять, як вони структуровані, що це означає, і як їх слід використовувати. Метадані допомагають користувачам розуміти дані та довіряти їм.
  4. Інструменти доступу: застосунки та інтерфейси, які дозволяють користувачам запитувати, візуалізувати, досліджувати та аналізувати дані, такі як інструменти звітності, інструментальні панелі, платформи аналітики та інструменти запитів SQL.
SQL є сховищем даних?
Номер SQL — це мова, яка використовується для запиту та керування даними, а сховище даних — це система, яка зберігає, організовує та обробляє великі обсяги даних для аналізу. SQL - це просто один з основних інструментів, який використовується для роботи з даними всередині сховища даних.