flex-height
text-black

Мужчина ходит по серверной комнате

Что такое озеро данных?

Озеро данных — это централизованный репозитарий данных, который помогает решать проблемы разрозненности данных.

default

{}

default

{}

primary

default

{}

secondary

Что такое озеро данных: определение и назначение

Озеро данных — это централизованный репозитарий, который хранит структурированные, полуструктурированные и неструктурированные данные в собственных форматах. В отличие от других систем хранения, которые требуют организации данных до их хранения (например, хранилищ данных), озеро данных принимает необработанные данные как есть, сохраняя исходную структуру и формат до тех пор, пока не потребуется для расширенной аналитики, искусственного интеллекта (ИИ) и сценариев машинного обучения (ML).

Основной целью озера данных является устранение разрозненности данных и создание единого источника активов данных организации. Она включает консолидацию данных из нескольких источников в едином доступном месте — озере данных. Это означает, что специалисты по обработке данных, аналитики и инженеры по машинному обучению могут изучать, экспериментировать и извлекать ценность из информации, которая в противном случае могла бы остаться в ловушке разрозненных систем. Примеры источников данных, которые могут храниться в озере данных:

Озеро данных предназначено для предоставления гибкого масштабируемого решения для хранения и анализа данных всех типов. Это стало возможным благодаря подходу schema-on-read (против. schema-on-write, как используется в хранилищах данных).

Что означает schema-on-read?

Schema-on-read означает, что структура и значение данных — схема — применяются при доступе к ней, а не при ее хранении. Это обеспечивает гибкость, позволяя организациям хранить данные, не зная, как они будут использоваться в будущем. Именно поэтому озера данных идеально подходят для исследовательской аналитики, сбора данных, машинного обучения и обнаружения неожиданных закономерностей в данных.

Архитектура и компоненты озера данных

Архитектура озера данных имеет несколько уровней и состоит из нескольких ключевых компонентов, которые совместно используются для сбора, хранения, обработки и поставки данных конечным пользователям и приложениям. Ниже перечислены ключевые компоненты озера данных:

Уровень хранения

Уровень хранения является основой архитектуры озера данных, обычно построенной на системах хранения объектов, которые обеспечивают экономичное и масштабируемое хранение больших объемов данных. Этот уровень содержит данные в собственном формате, будь то файлы CSV, документы JSON, файлы Parquet, изображения, видео или любой другой формат.

Обработка поступающих данных

Уровень приема данных обрабатывает процесс переноса данных в озеро из различных источников. Это включает пакетное прием для периодических загрузок данных и прием потоковой передачи для потоков данных в реальном времени. Инструменты приема данных должны обрабатывать различные типы данных и источники, обеспечивая при этом целостность данных и отслеживание происхождения данных.

Каталог данных и управление метаданными

Компонент каталогизации и управления метаданными ведет организованный перечень данных, существующих в озере, включая их местоположение, значение и отношения с другими данными. Представьте, что это библиотека или менеджер архивных каталогов. Надежный каталог данных служит индексом с возможностью поиска, позволяющим пользователям находить релевантные наборы данных без необходимости вручную просматривать весь репозитарий.

Уровень обработки

Уровень обработки обеспечивает преобразование, очистку, пополнение и анализ данных. Этот уровень включает механизмы для пакетной обработки, потоковой обработки и интерактивных запросов, что позволяет пользователям подготовиться к определенным вариантам использования или выполнить оперативный анализ.

Уровень доступа

Уровень доступа предоставляет интерфейсы и инструменты для различных типов пользователей: специалисты по обработке и анализу данных, использующие записные книжки, аналитики, выполняющие запросы SQL, или приложения, потребляющие данные через API. Этот уровень также обеспечивает соблюдение политик безопасности, управляя тем, кто имеет доступ к каким данным и при каких условиях.

Типы озер данных: облачные, локальные, гибридные, мультиоблачные

Существуют различные типы озер данных в зависимости от конфигурации, в которой они развертываются в организации. Каждая конфигурация предоставляет определенные преимущества и компромиссы.

Облачные озера данных

Облачные озера данных полностью размещены на облачных платформах. Они могут предложить практически неограниченную масштабируемость, оплату по факту и простую интеграцию с облачно-ориентированной аналитикой и сервисами ИИ. Облачные озера данных устраняют потребность в предварительных инвестициях в инфраструктуру, позволяя организациям самостоятельно масштабировать хранилища и вычислительные ресурсы. Они особенно хорошо подходят для растущих организаций и тех, кто хочет сократить операционные накладные расходы, сохраняя при этом доступ к передовым аналитическим возможностям.

Локальные озера данных

Озера данных на местах развертываются в собственных центрах обработки данных организации, обеспечивая полный контроль и полную ответственность за инфраструктуру, безопасность и суверенитет данных. В то время как иногда они используются организациями с весьма конкретными нормативными требованиями и требованиями безопасности, локальные озера данных, как правило, требуют значительных капиталовложений, непрерывного обслуживания и значительных усилий для любых проектов преобразования. Часто это компромисс: повышение гранулярности контроля происходит за счет масштабируемости и экономической эффективности.

Гибридные озера данных

Гибридные озера данных объединяют облачное и локальное хранилище, позволяя организациям хранить некоторые данные на месте, по-прежнему используя облачные ресурсы для масштабирования и расширенной аналитики. Этот подход обеспечивает гибкость, но усложняет синхронизацию данных, управление и управление непротиворечивым опытом в разных средах.

Мультиоблачные озера данных

Многооблачные озера данных охватывают несколько поставщиков облачных услуг, помогая организациям избежать блокировки поставщиков, оптимизировать затраты за счет использования лучших услуг от каждого поставщика и обеспечить непрерывность бизнеса за счет резервирования. Однако мультиоблачные архитектуры требуют тщательного планирования совместимости данных, непротиворечивых политик безопасности и управления затратами на передачу данных между поставщиками облачных услуг. Они также могут превратить внедрение изменений или инноваций в более сложный процесс.

Сравнение озера данных и хранилища данных по сравнению с хранилищем данных

Понимание различий между этими подходами к хранению данных необходимо для выбора правильных решений для целей организации. Давайте сравним озера данных, хранилища данных и хранилища данных по ряду ключевых критериев:

Функция
Озеро данных
Хранилище данных
Data lakehouse
Схема
Schema-on-read
Schema-on-write
Гибкость с опциональной структурой
Типы данных
Структурированные, полуструктурированные, неструктурированные
В первую очередь структурированные (изредка, полуструктурированные)
Все типы с управлением таблицами
Типичные складские затраты
Низкие затраты на хранение
Повышение затрат на хранение
Средняя стоимость
Основные пользователи
Специалисты по работе с данными и инженеры, инженеры МО, аналитики
Бизнес-аналитики, руководители, специалисты по обработке и анализу данных
Все типы пользователей
Сценарии использования
Исследование, машинное обучение, расширенная аналитика, искусственный интеллект, масштабируемое хранилище до дальнейшей обработки
Оптимизировано для запросов и специальных алгоритмов
Унифицированная аналитика и отчетность
Эффективность работы
Переменная, в зависимости от механизма обработки
Оптимизировано для запросов
Высокая производительность благодаря встроенному управлению
Качество данных
Необработанные данные различного качества
Очищенные и проверенные данные
Принудительное качество с некоторой гибкостью

Как это выглядит на практике?

Озера данных позволяют экономно хранить большие объемы необработанных данных и поддерживают исследовательскую аналитику и машинное обучение. Они идеальны, когда требуется гибкость для работы с различными типами данных и заранее не знают, как будут использоваться данные. Они также могут хранить данные, которые затем переносятся в хранилища данных.

Хранилища данных предназначены для использования в бизнес-аналитике и отчетности со структурированными схемами, оптимизированными для производительности запросов. Они лучше всего подходят для четко определенных потребностей в отчетности и моделировании, где качество и непротиворечивость данных имеют первостепенное значение (например, для использования в прогнозной аналитике). На практике данные, накопленные в озерах данных, могут даже обрабатываться, потоковым или регулярно передаваться в хранилища данных в зависимости от конфигурации конвейеров данных.

Хранилища данных представляют собой новую архитектуру, сочетающую гибкость озер данных с возможностями управления и производительностью хранилищ данных. Они позволяют организациям выполнять исследовательскую аналитику и бизнес-отчетность на одной платформе, снижая дублирование и сложность данных.

Преимущества озер данных

Озера данных обладают тем, что делают их столь привлекательным выбором для организаций и краеугольным камнем современной архитектуры данных. Архитектура озера данных имеет следующие преимущества:

Гибкость. Озера данных принимают любой тип данных в любом формате, что устраняет необходимость преобразования данных перед хранением или отсутствия некоторых данных. Это означает, что можно начать сбор данных немедленно, не требуя обширного предварительного планирования и не зная, как их использовать. Метод schema-on-read позволяет различным командам использовать и интерпретировать одни и те же данные различными способами, стимулируя инновации и находки.

Масштабируемость. Благодаря озерам данных объем хранилища может вырасти с гигабайт до петабайт без архитектурных изменений или миграций, особенно с помощью облачных реализаций. Организации могут начинать с малого и расширяться по мере роста потребностей в данных.

Эффективность затрат. Одно из преимуществ озер данных для хранения заключается в том, что они обычно стоят значительно меньше, чем традиционные хранилища данных, для того чтобы объем хранения был одинаковым, что делает экономически целесообразным хранение исторических данных и изучение новых источников данных без превышения бюджетных ограничений.

Поддержка расширенной аналитики. Озера данных позволяют специалистам по обработке данных и инженерам по машинному обучению получать доступ к необработанным данным для построения и обучения моделей, сбора данных и других расширенных задач. В отличие от обрабатываемых данных в хранилищах, потребление необработанных данных сохраняет нюансы и детали, которые могут оказаться критически важными для точного прогнозирования и анализа. Озера данных также поддерживают аналитику в реальном времени путем приема потоковых данных, что позволяет организациям действовать на основе свежей информации.

демократизация данных. Другим преимуществом архитектуры озера данных является то, что когда все организационные данные хранятся в едином доступном месте, все больше людей в организации могут находить и использовать данные, устраняя разрозненность и способствуя принятию решений на основе данных на всех уровнях.

Распространенные проблемы озера данных

Озера данных дают колоссальные преимущества, однако они также создают проблемы, которые организациям необходимо решать для полной реализации своего потенциала. Распространенные проблемы озера данных:

Комплексное управление озером данных

Управление данными усложняется при хранении огромных объемов разнообразных данных. Без надлежащей структуры управления озера данных могут превращаться в «кво»; «болота» и «кват»; — репозитории, где данные сбрасываются без какой-либо организации, что затрудняет поиск, понимание и доверие. Установление четкого владения, документирование происхождения данных и управление метаданными крайне важны, но требуют постоянных усилий и дисциплины.

Вопросы безопасности данных

Безопасность и контроль доступа требуют тщательного внимания. Озера данных содержат конфиденциальную информацию по всей организации и обеспечивают доступ только авторизованных пользователей к определенным наборам данных, сохраняя при этом контрольные журналы, требует надежных политик и инструментов безопасности. Шифрование, аутентификация, детализированные элементы управления доступом и маскирование данных играют важную роль в обеспечении безопасности сред озера данных и избежании проблем с управлением озерами данных.

Неравномерное качество данных

Качество данных в озерах данных не обеспечивается автоматически. Поскольку необработанные данные хранятся как есть, они могут содержать ошибки, дубликаты или противоречия. Организациям необходимы процессы для проверки, очистки и пополнения этих данных перед их использованием для аналитики. Без внимания к качеству данных аналитика и модели машинного обучения, построенные на основе данных озера, могут привести к ненадежным результатам.

Проблемы с управлением озером данных

Не следует недооценивать сложности и потребности в экспертных знаниях. Эффективное управление озером данных требует навыков распределенных систем, проектирования данных, управления метаданными и различных рамочных структур обработки. Организациям может потребоваться инвестировать в обучение, нанимать специалистов или сотрудничать с поставщиком экспертных услуг для создания и обслуживания инфраструктуры озера данных.

Длительность запросов

Оптимизация производительности может быть сложной, особенно для интерактивных запросов по большим наборам данных. В отличие от складов с предварительно оптимизированными схемами, озера данных требуют продуманной организации данных, стратегий разделения и выбора форматов файлов для достижения приемлемой производительности запросов. Проще говоря, озера данных могут содержать немыслимо огромные объемы данных, поэтому поиск необходимых данных может занять некоторое время.

Примеры озер данных и практические сценарии использования

Практические примеры использования озера данных показывают, как организации используют озера данных для решения бизнес-задач и получения конкурентных преимуществ. Давайте разберемся, проанализировав некоторые общие сценарии использования озера данных.

Сценарий использования озер данных: аналитика Интернета вещей для диагностического технического обслуживания

Производственная компания собирает данные с датчиков от тысяч машин на различных производственных объектах, ежедневно генерируя терабайты данных временных рядов. Потоковая передача этих данных в озеро данных позволяет комбинировать их с записями ведения, производственными графиками и информацией о поставщиках. Модели машинного обучения анализируют исторические модели для прогнозирования отказов оборудования до их возникновения, сокращая простои и сокращая миллионы затрат на ремонт. Этот сценарий использования поддерживается возможностью озера данных обрабатывать высокоскоростные потоковые данные из нескольких источников.

Сценарий использования озер данных: Customer 360 для персонализированного маркетинга

Розничная организация консолидирует данные о клиентах из онлайн-просмотра, истории покупок, взаимодействия с мобильными приложениями, вызовов и чатов по обслуживанию клиентов, взаимодействия в социальных сетях и визитов в магазине в озеро данных. Анализируя полное представление о каждом клиенте, он может создавать подробные сегменты и персонализировать маркетинговые кампании, рекомендации по продуктам и клиентский опыт. Это может повысить эффективность кампаний и значительно повысить удовлетворенность клиентов. В этом примере озера данных гибкость и возможности хранения как структурированных транзакционных данных, так и неструктурированных журналов взаимодействия обеспечивают целостное представление о клиентах.

Сценарий использования озер данных: моделирование рисков в сфере финансовых услуг

Финансовое учреждение использует озеро данных для агрегации торговых данных, каналов рынка, новостных статей, настроений в социальных сетях и нормативных документов. Специалисты по обработке и анализу данных создают сложные модели рисков, учитывающие как традиционные финансовые показатели, так и дополнительные источники данных. Метод Schema-on-read позволяет им исследовать различные источники данных и методы моделирования без нарушения существующих систем, помогая им получать более точные оценки рисков.

Передовые практики для озера данных

Внедрение следующих передовых практик для озер данных поможет организациям максимально повысить ценность озер данных и избежать распространенных ошибок:

  1. Приоритизация управления метаданными с первого дня. Создайте комплексный каталог данных, в котором указывается, какие данные существуют, откуда они получены, что это означает и как они связаны с другими наборами данных. Хорошие метаданные превращают озеро данных в доступный для поиска и понятный ресурс, а не в ошеломляющий дамп данных — это важная часть управления озерами данных.
  2. Обеспечение управления озером данных. Внедряйте надежные структуры управления данными, которые определяют владение данными, устанавливают стандарты качества и создают четкие процессы для управления приемом, классификацией и жизненным циклом данных. Управление не должно быть последующее: с самого начала встраивайте его в архитектуру озера данных, чтобы завоевать доверие к данным и обеспечить соблюдение нормативных требований.
  3. Защитите свои данные. Проектирование для обеспечения безопасности и соответствия требованиям за счет внедрения шифрования при хранении и передаче, детализированного контроля доступа, записи в журнал аудита и маскирования данных, где это необходимо. Регулярно проверяйте шаблоны доступа и полномочия, чтобы убедиться, что они соответствуют принципу наименьших привилегий.
  4. Оптимизация производительности. Оптимизируйте хранение путем логического разделения данных (по дате, региону или другим релевантным измерениям), выбора эффективных форматов файлов для аналитических рабочих нагрузок и реализации политик жизненного цикла для архивации или удаления устаревших данных. Эти варианты существенно влияют как на затраты, так и на производительность запросов.
  5. Формируйте культуру на основе данных. Сделайте данные доступными и доступными, предоставляя обучение и инструменты для самостоятельной аналитики. Если у вашей команды нет нужного опыта, рассмотрите возможность найма дополнительных специалистов, способных устранить разрыв между заинтересованными лицами и технологиями и обеспечить оптимальное управление озерами данных. Техническая инфраструктура ценна только в том случае, если люди фактически используют ее для принятия более взвешенных решений.

Будущее озер данных

Эволюция озер данных продолжается по мере того, как организации требуют как гибкости, так и управления, что приводит к появлению архитектур хранилищ данных, объединяющих лучшие аспекты озер и складов. Такое сближение отражает растущее понимание того, что организациям нужны унифицированные платформы, поддерживающие различные подходы, а не отдельные системы для различных целей.

Искусственный интеллект и машинное обучение становятся все более центральными для стратегий озера данных. Современные озера данных — это не просто репозитории хранения, а центральные платформы, на которых модели ИИ обучаются на исторических данных, прогнозируют с помощью потоковых данных и постоянно совершенствуются с помощью циклов обратной связи. Интеграция с платформами ИИ и автоматизированными функциями МО становится стандартом, а не исключением.

Поскольку организации осознают важность работы с свежими данными, аналитика в реальном времени и потоковая аналитика по-прежнему занимают видное место. В результате озера данных развиваются для поддержки субвторой обработки и запроса данных, размывая границы между историческим анализом и операциями в реальном времени.

Наконец, по мере расширения и изменения нормативных требований к конфиденциальности данных по всему миру озера данных должны развиваться, чтобы поддерживать конфиденциальность и защиту данных благодаря таким возможностям, как автоматическая классификация данных, управление согласиями и упрощенная нормативная отчетность, встроенная в платформу, а не добавляемая впоследствии.

Будущее озер данных заключается в гибкости, доступности и автоматизации: функции, упрощающие управление растущими объемами данных при сохранении безопасности, качества и управления. Озера данных следует рассматривать как стратегический актив, требующий постоянных инвестиций и внимания.

Часто задаваемые вопросы

Почему он называется "озеро данных;?
Термин "озеро данных; использует естественную метафору — так же, как многие потоки поступают в одно озеро, данные из нескольких источников поступают в централизованный репозитарий. Подобно природному озеру, которое хранит воду в исходном состоянии, а не фильтруется и очищается, озеро данных хранит данные в собственном формате без преобразования или структуры. Метафора подчеркивает способность озера хранить большие объемы разнообразных данных в своем «естественном» состоянии и быть натянутым для различных целей, так же как вода из озера служит многим видам использования. Для сравнения, склад будет иметь воду, которая фильтруется, разливается в бутылки и маркируется, возможно, даже организована по размеру бутылки или балансу pH.
Что такое хранилище данных и чем оно отличается от озера данных?
Хранилище данных представляет собой структурированный репозитарий, тогда как озеро данных — это подход к хранению, который позволяет принимать и хранить все типы структурированных или неструктурированных данных. Ключевое различие между озерами данных и хранилищами данных заключается в их подходе: хранилища данных используют схему записи (данные должны быть структурированы перед хранением), в то время как озера данных используют schema-on-read (структура применяется при доступе к данным). Склады оптимизированы для известных требований к отчетности и запросам, в то время как озера поддерживают исследовательский анализ и машинное обучение на основе необработанных данных. Склады можно рассматривать как специализированные для быстрого ответа на конкретные бизнес-вопросы, в то время как озера создаются для обеспечения гибкости, мощности и поиска новых вопросов.
Что такое управление данными в озере данных?
Управление данными в озере данных включает в себя несколько критических операций. Каталогизация и управление метаданными позволяют пользователям находить и понимать доступные наборы данных. Руководство определяет политики владения данными, стандартов качества и контроля доступа. Управление доступом и отслеживание происхождения показывают, кто получал доступ к каким данным и как они были преобразованы или использованы. Жизненный цикл и политики хранения определяют продолжительность хранения данных и время их архивации или удаления. Эффективное управление озерами данных предотвращает дезорганизацию озер данных; болото и предложение данных; и сокращает число проблем с управлением озерами данных.
Что такое озерохранилище данных?
Хранилище данных - это современная архитектура, сочетающая гибкость и экономичность озер данных со структурой и производительностью хранилищ данных. Lakehouses позволяют организациям хранить необработанные данные в собственном формате (как озеро), а также поддерживать табличные структуры, принудительное использование схем и оптимизированную производительность запросов (например, хранилище). Такой унифицированный подход устраняет необходимость дублирования данных между отдельными системами озер и хранилищ, упрощая архитектуру и снижая затраты, поддерживая как исследовательскую аналитику, так и бизнес-отчетность на одной платформе.
Что такое мультиоблако для озер данных?
Мультиоблачное озеро данных охватывает двух и более облачных провайдеров. Организации внедряют мультиоблачные стратегии, чтобы избежать блокировки поставщиков, оптимизировать затраты за счет использования лучших услуг от каждого поставщика, обеспечить непрерывность бизнеса за счет избыточности и удовлетворить требования резидентов данных в разных регионах. Однако многооблачная архитектура создает проблемы, связанные с интероперабельностью данных, сохранением непротиворечивых политик безопасности и управлением затратами на передачу данных между облаками.
Что такое хранилище объектов в озере данных?
Хранилище объектов — это базовый уровень хранения данных в озере данных. В отличие от файловых систем, которые организуют данные в иерархических папках, хранилище объектов хранит данные как отдельные объекты, каждый из которых имеет уникальные идентификаторы, метаданные и сами данные. Хранилище объектов является высокомасштабируемым и экономичным, что делает его идеальным для хранения больших объемов данных в собственных форматах.