Озеро даних порівняно зі сховищем даних
Озера даних зберігають необроблені дані в своєму рідному форматі, незалежно від того, як вони прибувають. Склади даних зберігають дані, які були очищені та структуровані попередньо.
default
{}
default
{}
primary
default
{}
secondary
Вступ до озер даних і сховищ даних
Озера даних та сховища даних – це системи, які зберігають, керують та отримують великі обсяги цифрових даних. Компанії збирають дані, щоб допомогти їм отримати інформацію про свої операції, клієнтів, ринки та ланцюги поставок, щоб вони могли реагувати більш стратегічно.
Склади даних з'явилися як рішення для руйнування сховищ даних і вирішення проблеми бізнес-даних, розкиданих по різних системах, форматах і відділах.
Суперечність ускладнила користувачам доступ, інтеграцію та аналіз цих даних для виявлення шаблонів, прогнозованої потреби або оцінки ефективності бізнесу. Склади даних були розроблені для консолідації цих даних у централізоване сховище, де дані можна було інтегрувати, очистити та структурувати для аналізу. Цей підхід створив «єдине джерело істини» для підтримки процесів комплаєнсу, моніторингу продуктивності та бізнес-аналітики.
Озера даних, у свою чергу, виникли як рішення щодо обмежень сховищ даних, які не могли належним чином впоратися з вибухом неструктурованих і напівструктурованих даних, що генеруються з нових джерел, таких як соціальні мережі, пристрої IoT, датчики, мобільні додатки тощо. Зберігання та обробка величезних обсягів різноманітних даних, таких як зображення, відео та текст, виявилися занадто дорогими та неефективними, оскільки традиційні сховища даних спочатку вимагали очищення та обробки перед зберіганням.
Підприємствам потрібен був більш гнучкий, недорогий спосіб зберігання даних у своєму сирому, оригінальному форматі, і в якості рішення були створені озера даних.
Сьогодні багато сучасних підприємств застосовують гібридний підхід, що включає як сховища даних, так і озера даних: дані lakehouse. Ця архітектура забезпечує як швидкі, структуровані можливості звітності першого, так і потенціал для застосунків штучного інтелекту та машинного навчання останнього.
Озера даних порівняно зі складами даних: ключові відмінності
Ключова відмінність озер даних від сховищ даних полягає в типі даних, які вони зберігають, і в тому, як вони зберігають ці дані, обидва з яких відіграють ключову роль у стратегії данихорганізації.
Склади даних зберігають структуровані дані, які були очищені та оброблені відповідно до попередньо визначеної структури або схеми. Оскільки схема застосовується до збереження даних, підхід відомий як схема при записі.
Наприклад, схема може передбачати, що дані ідентифікатора клієнта мають бути цілим числом, дані дати замовлення мають бути у форматі РРРР-ММ-ДД, а дані загальної суми продажу мають бути в десятковому форматі. Оскільки всі дані дотримуються цих правил, користувачі можуть швидко та надійно запитувати такі запити, як «знайти загальний обсяг продажів для кожного клієнта в квітні 2025 року». Ця швидкість і точність роблять сховища даних ідеальними для звітів, інструментальних панелей і випадків використання бізнес-аналітики.
На відміну від цього, озера даних можуть зберігати необроблені дані в їх початковому форматі незалежно від того, як вони структуровані. Попередньо не потрібна попередньо визначена схема.
Схема визначається лише тоді, коли дані запитуються, тому підхід відомий як схема при зчитуванні. Лише тоді необроблені дані аналізуються, структуруються та інтерпретуються відповідно до запиту.
Щоб узагальнити, сховища даних застосовують схему перед збереженням даних, щоб переконатися, що всі дані структуровані та очищені для використання. Озера даних застосовують схему, коли дані запитуються, і можуть зберігати будь-які дані, структуровані чи ні, з самого початку.
Відмінності між озерами даних і сховищами даних
Вибір між озерами даних та сховищами даних
Оскільки озера даних можуть зберігати необроблені дані в будь-якому форматі, вони ідеально підходять для підприємств, яким потрібна гнучкість. Ритейлери, наприклад, збирають величезні суми з кількох джерел, таких як веб-сайти, мобільні додатки, соціальні мережі, системи точок продажу та інші. Оскільки дані, які вони збирають, не потрібно очищати, перетворювати або структурувати, вони можуть використовувати більш економічні системи зберігання, які легко масштабуються. Однак витрати на обробку необроблених даних під час запиту можуть бути вищими порівняно з оптимізованими запитами сховища даних.
У порівнянні з сховищами даних витрати будуть вищими. Процеси очищення, трансформації та структурування перед завантаженням, а також індексація та розбиття після завантаження потребують додаткових ресурсів та зберігання для роботи. Однак ця оптимізація призводить до готових до використання даних для бізнес-аналітики, звітності та операційної аналітики. За допомогою сховищ даних аналітики та керівники можуть створювати звіти, контролювати KPI та приймати обґрунтовані рішення швидко та легко.
Необхідно зазначити, що озера даних відкривають нові можливості для застосунків штучного інтелекту та машинного навчання. Величезні та різноманітні набори даних, які вони зберігають, дозволяють науковцям даних знаходити тенденції, створювати прогнозні моделі та запускати застосунки машинного навчання. Це призводить, наприклад, до рекомендаційних систем, які пропонують продукти користувачам на основі минулих взаємодій або інструментів обробки природної мови, які виконують аналіз настрою в оглядах клієнтів або коментарях до соціальних мереж.
Сьогодні багато сучасних підприємств керують архітектурами даних, які по суті є комбінаціями обох. Ці сховища даних спрямовані на забезпечення гнучкості озера даних з керуванням та продуктивністю сховища даних. Хоча прийняття швидко зростає, багато підприємств все ще покладаються на традиційні склади для критичної звітності.
Приклади реального світу та кейси використання
Ось приклади того, як різні галузі використовують озера даних, сховища даних або комбінацію елементів з обох для підтримки своїх унікальних потреб.
Охорона здоров'я: лікарні часто використовують архітектуру озера даних для зберігання, управління та аналізу величезних обсягів і різних типів даних, які генерують їх операції. Це включає неструктуровані зносні дані та медичні зображення, напівструктуровані дані пацієнтів HL7 та структуровані результати лабораторних тестів. Консолідуючи все це в центральному сховищі, вони можуть застосовувати розширену аналітику та ШІ до необроблених даних, наприклад, ідентифікувати пацієнтів з ризиком або аналізувати геноміки, щоб персоналізувати плани лікування. З пацієнтами, які тепер оснащені «розумними» переносними пристроями, які передають дані про життєво важливі ознаки, медичні працівники можуть навіть виявляти ранні попереджувальні ознаки та швидше втручатися.
Фінанси: Банки та інші фінансові установи повинні дотримуватися правил боротьби з відмиванням грошей (AML) та суворих правил фінансової звітності (наприклад, Sarbanes-Oxley в США або Базелі III на міжнародному рівні). Використовуючи сховища даних для зберігання структурованих фінансових даних з кількох систем, включаючи записи транзакцій, сальдо рахунків і торгові дані, вони можуть створювати нормативні звіти, які відповідають вимогам управління та безпеки. На додаток до відповідності, фінансові установи також використовують сховища даних для управління бізнес-аналітикою, управління ризиками та виявлення шахрайства шляхом виконання складних запитів в історичних і поточних наборах даних.
Медіа: потокові сервіси відео використовують підхід lakehouse для збору, зберігання та аналізу даних користувачів для забезпечення персоналізованого досвіду. Вони використовують різні типи даних з декількох джерел, такі як журнали потокової передачі та відгуки соціальних мереж, і зберігають їх у центральному репозиторії. Потім ці дані можна використовувати для створення моделей машинного навчання, які рекомендують найбільш релевантний вміст. Такі самі дані також можна куратувати та структурувати в підмножини для потреб аналітики або звітності, живлення інструментальних панелей на коефіцієнтах зберігання або інформування про рішення щодо придбання вмісту.
Нові тенденції в платформах даних
Lakehouses даних швидко стають кращим варіантом для підприємств, які прагнуть максимізувати цінність своїх даних. Вони можуть підтримувати як бізнес-аналітику, так і штучний інтелект, а також випадки використання машинного навчання на одній платформі. Однак слід зазначити, що вони все ще розвиваються і деякі підприємства продовжують покладатися на традиційні сховища даних для критично важливої звітності.
Потенціал ШІ як драйвера продуктивності та ефективності особливо вплинув на архітектуру даних, з деякими новими платформами озера даних і lakehouse, які тепер інтегровані з LLM. Це дає змогу нетехнічним користувачам досліджувати й аналізувати дані, запитуючи запити простою мовою. Наприклад, користувач може запитати “показати мені тенденції продажів у 2 кварталі”, а LLM може генерувати SQL, який система може зрозуміти. Це демократизує доступ до аналітичних даних на основі даних.
Безсерверні архітектури також розвиваються як стратегія, де підприємства наймають хмарного провайдера для управління своєю інфраструктурою даних. У цій угоді компанія оплачує доступ до платформи даних замість того, щоб налаштовувати та керувати своїми. Плюсами цього є легша масштабованість і економічність. Хмарний провайдер забезпечує гнучкість пропускної здатності у разі сплесків обсягу даних або завантаження запиту, а бізнес платить лише за те, що вони використовують. Таким чином, розробники можуть розгортатися швидше, так як їм не доведеться змагатися з міркуваннями інфраструктури.
Деякі компанії навіть вибирають багатохмарну стратегію, розподіляючи свої дані про озера та склади по декількох хмарних сервісах. Головна перевага – стійкість до надмірності. Якщо одна хмара виходить в офлайн, бізнес може продовжувати працювати на іншому. Вони також можуть оптимізувати певні робочі процеси на певних хмарах, наприклад, якщо одна служба спеціалізується на машинному навчанні. У деяких галузях або країнах конфіденційні дані мають зберігатися в регіоні або хмарному провайдері, що відповідає місцевим вимогам відповідності.
Для з'єднання, керування та управління даними в декількох хмарних середовищах, компанії можуть впроваджувати архітектури тканини даних. Вони забезпечують доступ до даних у реальному часі в окремих, але синхронізованих системах і застосунках, створюючи уніфіковане подання в ландшафті.
Щоб захистити конфіденційні дані, такі як медичні записи, номери соціального страхування та вихідні коди, організації також приймають політики, такі як контроль доступу з нульовою довірою на своїх платформах даних. Ці засоби контролю вимагають від усіх користувачів перевірити свою особу для доступу до потрібних їм даних.
Запитання та відповіді
Озера даних корисні для вчених з даними, які хочуть навчати моделі машинного навчання, які живлять системи рекомендацій щодо вмісту.
Сховище даних - це система зберігання, в першу чергу, призначена для зберігання великих обсягів структурованих даних. Структуровані дані очищаються, організовуються і форматуються певним чином. (Подумайте про визначені рядки та стовпчики електронної таблиці). Більш сучасні склади також можуть обробляти певні напівструктуровані формати, такі як JSON або XML.
Підприємства використовують сховища даних, щоб швидко відповідати на запитання, створювати звіти та відстежувати ключові показники ефективності. Ці функції класифікуються як бізнес-аналітика.
Схеми є правилами організації даних, наприклад, які дані можна зберігати (числа, дати), як упорядковуються дані (таблиці та стовпчики), і як інформація стосується один одного.
Schema-on-write означає, що дані повинні вписуватися в попередньо визначену структуру (схему) перед збереженням. Так працюють сховища даних. Вони гарантують, що дані є чистими та готовими до аналізу наперед.
«Схема-on-read» означає, що структура застосовується лише тоді, коли хтось хоче використовувати або аналізувати дані. Так працюють озера даних. Вони дозволяють більше гнучкості, оскільки дані можуть бути збережені в будь-якій формі в першу чергу, і вам не доведеться організовувати їх негайно. Однак компроміси цього підходу включають повільніший час запиту та потенційну суперечність, оскільки різні користувачі можуть по-різному інтерпретувати одні й ті самі необроблені дані.
На відміну від цього, схема-на-записі забезпечує послідовність наперед, але зменшує гнучкість.
Структуровані дані дуже організовані, прості в пошуку, і, як правило, можуть зберігатися в таблицях, таких як імена клієнтів, номери продажів і дати.
Неструктуровані дані не мають фіксованого формату і важче організувати, наприклад, відео, зображення, аудіофайли та пости в соціальних мережах.
Напівструктуровані дані знаходяться десь між ними. Він має певну організацію, але не таку сувору, як таблиці. Подумайте про файли JSON, документи XML та електронні листи.