Озеро данных и хранилище данных
Озера данных хранят необработанные данные в собственном формате независимо от их поступления. Хранилища данных хранят данные, очищенные и структурированные предварительно.
default
{}
default
{}
primary
default
{}
secondary
Введение в озера данных и хранилища данных
Озера данных и хранилища данных — это системы, которые хранят большие объемы цифровых данных, управляют ими и извлекают их. Компании собирают данные, чтобы получить представление о своих операциях, клиентах, рынках и цепочках поставок, чтобы лучше реагировать на них стратегически.
Хранилища данных стали решением для устранения разрозненности данных и решения проблем бизнес-данных, разбросанных по разным системам, форматам и отделам.
Несоответствие затрудняло пользователям доступ, интеграцию и анализ этих данных для выявления моделей, прогнозирования потребности или оценки эффективности бизнеса. Хранилища данных были разработаны для консолидации этих данных в централизованное хранилище, где данные можно интегрировать, очищать и структурировать для анализа. Такой подход создал единый источник достоверной информации для поддержки процессов нормативного соответствия, мониторинга производительности и бизнес-аналитики.
Озера данных, в свою очередь, стали решением проблем, связанных с ограничениями хранилищ данных, которые не могли адекватно справляться с взрывом неструктурированных и полуструктурированных данных, получаемых из новых источников, таких как социальные сети, устройства Интернета вещей, датчики, мобильные приложения и многое другое. Хранение и обработка огромных объемов разнообразных данных, таких как изображения, видео и текст, оказалось слишком дорогим и неэффективным, поскольку традиционные хранилища данных изначально требовали предварительной очистки и обработки данных до их хранения.
Компаниям требовался более гибкий и экономичный способ хранения данных в необработанном, исходном формате и озерах данных, созданных в качестве решения.
Сегодня многие современные предприятия применяют гибридный подход, включающий как хранилища данных, так и озера данных: хранилище данных. Эта архитектура предоставляет как быстрые, структурированные возможности отчетности первого, так и потенциал для приложений ИИ и машинного обучения последнего.
Сравнение озер данных и хранилищ данных: основные различия
Ключевое различие между озерами данных и хранилищами данных заключается в типе данных, которые они хранят, и о том, как они хранят эти данные, которые играют ключевую роль в стратегии управления даннымиорганизации.
Хранилища данных хранят структурированные данные, очищенные и обработанные в соответствии с предварительно определенной структурой или схемой. Поскольку схема применяется до сохранения данных, этот подход называется схемой-записью.
Например, схема может предписывать, что данные ид. клиента должны быть целым числом, данные даты заказа должны иметь формат ГГГГ-ММ-ДД и данные общей суммы продаж должны быть в десятичном формате. Поскольку все данные соответствуют этим правилам, пользователи могут быстро и надежно запрашивать такие запросы, как "поиск общих продаж по клиентам в апреле 2025 года". Такая скорость и точность делают хранилища данных идеальными для отчетности, информационных панелей и сценариев использования бизнес-аналитики.
Озера данных, напротив, могут хранить необработанные данные в исходном формате независимо от их структуры. Предварительно определенная схема не требуется.
Схема определяется только при запросе данных, поэтому подход называется schema-on-read. Только после этого необработанные данные будут проанализированы, структурированы и интерпретированы в соответствии с запросом.
Таким образом, хранилища данных применяют схему перед хранением данных, чтобы убедиться, что все данные структурированы и очищены для использования. Озера данных применяют схему при запросе данных и могут с самого начала хранить любые структурированные или неструктурированные данные.
Различия между озерами данных и хранилищами данных
Выбор между озерами данных и хранилищами данных
Поскольку озера данных могут хранить необработанные данные в любом формате, они идеально подходят для компаний, требующих гибкости. Например, розничные продавцы собирают огромные суммы из различных источников, таких как веб-сайты, мобильные приложения, социальные сети, системы точек продаж и др. Поскольку собираемые ими данные не требуют очистки, преобразования или структурирования, они могут использовать более экономичные системы хранения, которые легко масштабируются. Однако затраты на обработку необработанных данных во время запроса могут быть выше по сравнению с оптимизированными запросами хранилища данных.
По сравнению с хранилищами данных затраты будут выше. Процессы очистки, преобразования и структурирования перед загрузкой, а также индексация и разделение после загрузки требуют дополнительных ресурсов и хранилища для работы. Однако в результате оптимизации создаются готовые к использованию данные для бизнес-аналитики, отчетности и оперативной аналитики. Хранилища данных позволяют аналитикам и руководителям быстро и легко создавать отчеты, отслеживать KPI и принимать обоснованные решения.
Следует отметить, что озера данных открывают новые возможности для приложений ИИ и машинного обучения. Обширные и разнообразные наборы данных, которые они хранят, позволяют специалистам по обработке данных находить тенденции, создавать прогнозные модели и запускать приложения машинного обучения. Это приводит, например, к системам рекомендаций, предлагающим продукты пользователям на основе прошлых взаимодействий или инструментов обработки естественного языка, которые выполняют анализ настроений по отзывам клиентов или комментариям в социальных сетях.
Сегодня многие современные предприятия используют архитектуры данных, которые по сути являются комбинациями обоих. Эти хранилища данных обеспечивают гибкость озера данных с точки зрения управления и производительности хранилища данных. Хотя адаптация быстро растет, многие компании по-прежнему используют традиционные склады для создания критически важных отчетов.
Реальные примеры и сценарии использования
Ниже приведены примеры использования озер данных, хранилищ данных или комбинации элементов из обеих отраслей для удовлетворения их уникальных потребностей.
Здравоохранение. Больницы часто используют архитектуру озера данных для хранения, управления и анализа огромных объемов и различных типов данных, генерируемых их операциями. Сюда относятся неструктурированные носимые данные и медицинские изображения, полуструктурированные данные пациентов HL7 и структурированные результаты лабораторных тестов. Консолидируя все это в центральном репозитории, они могут применять расширенную аналитику и искусственный интеллект к необработанным данным, например, для идентификации пациентов с риском или анализа геномики для персонализации планов лечения. Благодаря тому, что пациенты теперь оснащены «умными» носимыми устройствами, которые обрабатывают данные об основных характеристиках состояния организма, поставщики медицинских услуг могут даже выявлять признаки раннего предупреждения и быстрее вмешиваться.
Финансы. Банки и другие финансовые учреждения должны соблюдать правила борьбы с отмыванием денег (AML) и строгие правила финансовой отчетности (например, закон Сарбейнса-Оксли в США или Базель III на международном уровне). Используя хранилища данных для хранения структурированных финансовых данных из нескольких систем, включая записи транзакций, сальдо счетов и торговые данные, они могут создавать нормативные отчеты, соответствующие требованиям к управлению и безопасности. Помимо соблюдения нормативных требований, финансовые учреждения также используют хранилища данных для управления бизнес-аналитикой, управления рисками и выявления мошенничества путем выполнения сложных запросов по историческим и текущим наборам данных.
Медиа. Услуги потоковой передачи видео используют подход Data Lakehouse для сбора, хранения и анализа пользовательских данных для обеспечения персонализированного взаимодействия. Они получают различные типы данных из различных источников, таких как потоковые журналы и обратная связь из социальных сетей, и хранят их в центральном репозитории. Затем эти данные можно использовать для создания моделей машинного обучения, рекомендующих наиболее релевантный контент. Те же данные можно также контролировать и структурировать в подмножества для целей аналитики или отчетности, предоставляя инструментальные панели по коэффициентам удержания или информируя о принятии решений о приобретении контента.
Новые тенденции в платформах данных
Бассейны данных быстро становятся предпочтительным вариантом для компаний, стремящихся максимизировать ценность своих данных. Они могут поддерживать как бизнес-аналитику, так и сценарии использования ИИ и машинного обучения на единой платформе. Однако следует отметить, что они все еще развиваются и что некоторые предприятия продолжают использовать традиционные хранилища данных для критически важной отчетности.
Потенциал искусственного интеллекта как фактора повышения производительности и эффективности особенно повлиял на архитектуру данных, при этом некоторые новые платформы озер данных и хранилищ данных теперь интегрированы с LLM. Это позволяет нетехническим пользователям изучать и анализировать данные, запрашивая запросы на простом языке. Например, пользователь может запросить "показать мне тренды продаж во втором квартале", а LLM может сгенерировать SQL, который может понять система. Это обеспечивает более демократичный доступ к аналитике на основе данных.
Бессерверные архитектуры также формируются как стратегия, при которой предприятия нанимают поставщика облачных услуг для управления своей инфраструктурой данных. В этом соглашении компания оплачивает доступ к платформе данных вместо создания собственной платформы и управления ею. Преимущества этого упрощают масштабируемость и экономичность. Поставщик облачных услуг обеспечивает гибкость пропускной способности в случае пиков объема данных или загрузки запросов, и компания оплачивает только то, что использует. Таким образом, разработчики могут выполнять развертывание быстрее, поскольку им не приходится сталкиваться с соображениями инфраструктуры.
Некоторые компании даже выбирают мультиоблачную стратегию, распределяя озера данных и хранилища по нескольким облачным сервисам. Основным преимуществом является устойчивость к избыточности. Если одно облако перейдет в режим офлайн, компания может продолжать работать на другом. Они также могут оптимизировать определенные потоки операций в определенных облаках, например если один сервис специализируется на машинном обучении. В некоторых отраслях или странах конфиденциальные данные должны храниться в регионе или облачном провайдере, соответствующем местным требованиям.
Для соединения данных, управления ими и управления ими в нескольких облачных средах компании могут внедрить архитектуры фабрики данных. Они обеспечивают доступ к данным в реальном времени между отдельными, но синхронизированными системами и приложениями, создавая единое представление по всему ландшафту.
Для защиты конфиденциальных данных, таких как медицинские карты, номера социального страхования и исходные коды, организации также применяют такие политики, как контроль нулевого доверия к платформам данных. Эти элементы управления требуют, чтобы все пользователи проверили свою идентичность для доступа к необходимым им данным.
Часто задаваемые вопросы
Озера данных полезны для специалистов по обработке и анализу данных, которым требуется обучить модели машинного обучения на основе систем рекомендаций по контенту.
Хранилище данных — это система хранения, предназначенная прежде всего для хранения больших объемов структурированных данных. Структурированные данные очищаются, упорядочиваются и форматируются определенным образом. (Представьте себе определенные строки и столбцы электронной таблицы.) Более современные склады также могут обрабатывать определенные полуструктурированные форматы, такие как JSON или XML.
Компании используют хранилища данных для быстрого ответа на вопросы, создания отчетов и отслеживания ключевых показателей эффективности. Эти функции классифицируются как бизнес-аналитика.
Схемы представляют собой правила организации данных, такие как тип данных, которые могут быть сохранены (числа, даты), порядок данных (таблицы и столбцы) и взаимосвязь информации друг с другом.
Schema-on-write означает, что перед сохранением данные должны быть помещены в предварительно определенную структуру (схему). Вот как работают хранилища данных. Они гарантируют, что данные будут очищены и готовы к предварительному анализу.
Schema-on-read означает, что структура применяется только в том случае, если кто-то хочет использовать или анализировать данные. Вот как работают озера данных. Они обеспечивают большую гибкость, поскольку сначала данные могут храниться в любой форме, и их не требуется организовывать немедленно. Однако компромиссы этого подхода включают сокращение времени запросов и потенциальную противоречивость, поскольку разные пользователи могут интерпретировать одни и те же необработанные данные по-разному.
Напротив, Schema-on-write обеспечивает непротиворечивость заранее, но снижает гибкость.
Структурированные данные в высокой степени организованы, удобны для поиска и обычно могут храниться в таблицах, таких как имена клиентов, номера продаж и даты.
Неструктурированные данные не имеют фиксированного формата и сложнее организовать, такие как видео, изображения, аудиофайлы и публикации в социальных сетях.
Полуструктурированные данные находятся где-то между ними. Она имеет определенную организацию, но не такую строгую, как таблицы. Думайте о файлах JSON, XML-документах и электронных сообщениях.